Data Secrets
78.8K subscribers
6.42K photos
665 videos
20 files
2.7K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Генеративный ИИ пока еще уступает традиционным инструментам ML/DL по практическому импакту: наблюдение ведущего аналитика данных Walmart (ex-Amazon)

Несмотря на то, что про LLM кричат из каждого утюга, в прикладной науке наибольшей популярностью пользуются старые добрые инструменты ML/DL: такой вывод следует из исследования ML Global Impact Report 2025, авторы которого изучили прикладные научные исследования из более чем 125 стран.

Доклад выделяет 20 наиболее применяемых в исследованиях ML-инструментов, в котором, кстати, есть один российский — CatBoost, который изначально разрабатывался для задач поиска Яндекса. Теперь CatBoost используется в каждой 30-й из 5000 проанализированных статей в журналах Nature, связанных с машинным обучением. Причем в разных сферах — медицине, физике, прикладных науках.
👍11738😁13👌2😍2🤯1
Ученые из Google обнаружили, что если повторять промпт два раза, качество ответов моделей существенно возрастает

На архиве опубликовали коротенькую статью, в которой исследователи делятся занятным хаком:

если повторять запрос, то есть отправлять промпт в LLM не в виде «<QUERY>», а в виде «<QUERY><QUERY>», качество ответов модели в ~67% случаев статистически значимо улучшается


Важно: это работает только для Non-Reasoning. С ризонингом эффект нейтральный или слегка положительный, так что применять смысла особо нет.

Но вот для Non-Reasoning лайфхак должен быть рабочий, и к тому же очень простой и (почти) бесплатный. Авторы показывают, что количество генерируемых токенов от повтора промпта не растет, как и задержка ответа.

Почему вообще это работает?

Все мы уже выучили, что порядок токенов в промте важен. И это потому, что большинство моделей обучаются каузально, то есть предыдущие токены не получают доступа к следующим. Тут в основе та же логика. Грубо говоря, получается, что какие-то токены в промпте никогда не видят другие, а повторяя запрос, мы эту ассиметрию устраняем -> качество растет.

Почему тогда для ризонеров не канает?

Тут тоже есть объяснение. Просто ризонеры уже самостоятельно научились повторять промпт сами себе (вы точно это замечали). То есть здесь еще одно повторение уже не дает такого импакта, а в случае с не-ризонерами этот эффект мы просто выносим в prefill.

Пользуйтесь: arxiv.org/pdf/2512.14982
174😁68👍53🔥16🤔4😎2
Пентагон заключил контракт с xAI

Теперь Grok будут пользоваться все, кто так или иначе относится к министерству обороны США: всего его развернут на ~3 миллиона военнослужащих и гражданских.

Это будет не обычный Grok, а специально адаптированный под соответствующие задачи. Его так и назвали – «Grok for Government».

Доступ будет предоставлен на уровне IL5 (Impact Level 5). В системе безопасности Пентагона это означает сертификацию для работы с конфиденциальными данными, включая секретную информацию.

И еще интересный момент: пишут, что Grok будет также предоставлять служащим онлайн данные с X. Формулировки очень размытые, но видимо это означает: анализ постов, выявление паттернов «дезинформации», геолокации событий или настроений аудитории по тому или иному вопросу. Все это нужно для «оперативной разведки».
160😁44👍26🤔109🤯8
GLM-4.7 – новая опенсорсная сота для кодинга

Похоже, новая китайская звезда – это стартап Z.ai. Они уже в который раз выпускают очень достойные модельки, и на днях у них вышла GLM-4.7.

На метрики можете взглянуть сами на графиках выше, они удивляют. На SWE Bench уровень почти GPT-5.1.

По сравнению с GPT-5.2 и Gemini 3 ощущается, конечно, хуже. Но среди опенсорса – точно топ.

При этом годовой самый мощный тариф обойдется вам примерно как полтора месяца подписки на ChatGPT Pro или аналогичный Max антропиков.

Потестить бесплатно можно здесь
Веса | Блогпост
🔥84👍1816😁2
This media is not supported in your browser
VIEW IN TELEGRAM
POV: ИИ-компании смотрят на те самые 300ТБ Spotify треков на Anna’s Archive
😁40823👾12🔥53
Команда ML Т-Банка выпустила обновление языковых моделей T-Pro 2.1 и T-Lite 2.1

Основной фокус релиза — улучшение точного следования инструкциям (Instruction Following) и Tool Calling. Для достижения результата команда разработала собственный пайплайн генерации синтетических данных для обучения и применила RL-обучение (GRPO) с гибридной reward-функцией, которая одновременно проверяет формальную корректность и осмысленность ответа, что позволило избежать проблемы “reward hacking”.

В результате дообучения на синтетических данных и применения RL-обучения с гибридным ревардом модели стали стабильнее в продакшене, точнее держат заданный формат, увереннее работают в многошаговых агентских сценариях и при этом сохраняют скорость и общее качество генерации. T-Pro 2.1 (32B) позиционируется как оптимальный выбор для сложных русскоязычных систем, а T-Lite 2.1 (8B) — как практичное решение для развертывания с ограниченными ресурсами. Обе модели доступны под открытой лицензией Apache 2.0.
137😁30🔥19🗿16👍3🎄2👌1
Data Secrets
А что вообще за автоэнкодеры такие? Сегодня Google выкатила свою новую модель Gemma 2 2B (наш разбор). Однако взгляды сообщества в большей мере направлены не на нее саму, а на сопутствующий релиз семейства Gemma Scope. Объясняем, почему. Что это такое? Gemma…
Google релизнули новую версию своего «LLM-микроскопа» – Gemma Scope 2

Это модель, а точнее набор инструментов (interpretability tools), предназначенный для интерпретации поведения LLM. В частности, из семейства Gemma 3.

Работает Scope на основе SAE – это разреженные автоэнкодеры. Они представляют из себя модели, которые распутывают активации LLM и достают из них интерпретируемые концепции. Их называют «фичи»: это могут быть вещи из реального мира (мосты, коровы) или абстракции (ложь, отзывчивость).

По сути, анализируя эти фичи, мы можем видеть, о чем на самом деле думала модель, генерируя тот или иной output. Например, она генерирует с виду безобидный код, но «думает» о концепции «кибератака». И это о чем-то нам говорит.

SAE, кстати, еще в 2023 предложили использовать Anthropic (вот наш разбор их статьи, которая сделала подход популярным). Но именно Google вывели автоэнкодеры на уровень продакшена. Сейчас это, фактически, первый и единственный открытый инструмент для вот такой детальной интерпретации LLM.

Первая версия Scope вышла в 2024. Тогда это работало только для небольших моделей и простых запросов. Теперь же подход масштабировали даже для модели на 27B.

Плюс, теперь инструмент стал более универсальным. Если оригинальная Scope существовала только для ограниченного числа слоев, то теперь можно целиком анализировать сложные диалоговые механизмы.

Судя по статье, в основном это получилось благодаря добавлению в модель Skip-transcoders и Cross-layer transcoders. Это модули, которые помогают увидеть связи между отдаленными слоями и облегчают анализ распределенных вычислений. А еще, кстати, SAE обучали по методу матрешки, как Gemma 3n (мы писали про этот метод вот тут).

Если хотите попробовать и покопаться в мыслях у моделей:
здесь все необходимые веса
здесь полезный Colab ноутбук с готовым кодом
здесь техотчет, а вот тут хорошая понятная документация
71👍33🔥13😁2
ARC-AGI 2, фактически, можно признавать решенным: система от стартапа Poetiq выбила ~75%

Про подход этих ребят мы уже писали тут. У них нет своих моделей, они берут сильные базовые (в этом случае GPT-5.2) и с помощью специального пайплайна бустят их производительность.

То есть это, фактически, просто test-time надстройка над GPT-5.2: цикл с генерацией гипотез, самопроверками, программным поиском и тд.

Но в то время, как оригинальная GPT-5.2 выбивает около 60%, здесь результат на 15 процентных пунктов выше. Это первая система, которая настолько уверенно обходит на ARC-AGI-2 уровень среднего человека.

Стоимость, кстати, остается при этом в рамках +-адекватной нормы: 8 долларов на задачу.

Код от Poetiq
👍87🔥1510🤯4😁3👏1
«Плотность ИИ на гигабайт в Tesla на порядок выше, чем где бы то ни было» – Илон Маск

Так он прокомментировал твит Андрея Карпаты о том, что Tesla и Waymo сейчас находятся примерно на одном уровне.

Понимание Андрея устарело на данный момент. Программное обеспечение Tesla AI значительно продвинулось со времен, когда он ушел.


Кстати, еще год назад Андрей говорил, что у Tesla проблемы с ПО, и прошивка Waymo побеждает.

Напоминаем, что между двумя производителями существует принципиальная разница:

Waymo – это модульная система: она опирается на HD‑карты, лидары, датчики, 5G‑связь и множество нейросетей. Это работает хорошо и очень надежно, но только если какой-нибудь модуль случайно не откажет.

Tesla – это end‑to‑end: один огромный нейросетевой блок напрямую преобразует пиксели с камер в команды руления и торможения.
16739😁29👍8
Профессиональный жаргон теперь выглядит так
1😁257🔥19👍8💯632🤔1🤯1
Media is too big
VIEW IN TELEGRAM
Сэм Альтман про конкуренцию с Google*

В 2023 году Google могла бы легко снести OpenAI, если бы компания отнеслась к стартапу серьезно и сфокусировалась на ИИ. Сейчас им сложнее наверстать упущенное.

Дистрибуция Google колоссальна, но по качеству продукта и скорости эволюции OpenAI, как считает Альтман, может выиграть.

Он называет бизнес-модель Google лучшей во всей технологической индустрии, но именно из‑за этого, по его словам, им трудно отказаться от классического поиска с рекламой ради радикально нового AI‑продукта. OpenAI же, грубо говоря, нечего терять.

Google остается главным и очень опасным конкурентом. OpenAI, чтобы не отстать, планируют «строительство полноразмерной AI‑платформы, включающей модели + инфраструктуру + устройства/интерфейсы».

*из нового подкаста youtu.be/2P27Ef-LLuQ
Please open Telegram to view this post
VIEW IN TELEGRAM
74😁66👍25🔥107🤔1🤝1🦄1😎1
Приятно: Anthropic удвоили все лимиты в платных тарифах на время праздников 🎁
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8717👍117🤔2😁1🕊1😍1💘1
Пройдите тест от Авито по Data Science и оцените свой уровень на основе реальных кейсов из практики DS-команд компании ☄️

Что в нём полезного:
– поймёте, какие компетенции уже прокачаны, а над чем стоит поработать,
– сможете открыть рекрутерам доступ к результатам и повысить шансы на оффер,
– получите письмо с разбором ответов на почту в течение дня.

На праздниках самое время проверить себя и определить точки роста.

Ссылку на тест оставили здесь ⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿23🤔53😁2🐳1🦄1
Data Secrets
Тем временем еще двое бывших инженеров Google со своим стартапом строят планы перещеголять Nvidia Компания занимается разработкой ИИ-чипов, называется Groq (как тебе такое, Илон Маск?) и сейчас оценивается в $2.8 миллиарда. Недавно стало известно, что они…
Nvidia купила Groq – тот самый стартап бывших инженеров Google, в котором разрабатывали чипы специально для LLM

Интересно, что еще полтора года назад стартап оценивался только в 2.8 миллиардов долларов, а сегодня Nvidia покупает его за 20 миллиардов.

Причем сделка представлена даже не как полноценная покупка, а как неисключительное лицензирование технологий и активов.

То есть Nvidia приобретает активы Groq, включая права на использование тех самых процессоров LPU (Language Processing Unit), но, например, облачный сервис GroqCloud остается независимым и продолжит работать под руководством нового CEO.

Предыдущий директор Groq Джонатан Росс (он же основатель, который раньше работал над TPU в Google), а также многие другие сотрудники, включая почти всю верхушку, переходят в Nvidia.

Это, кстати, крупнейшая сделка в истории Nvidia. Их предыдущим максимумом были приобретения вроде Mellanox за $7 млрд в 2019 году.
👍37🔥952🤩1🍾1🗿1🆒1