Борис опять
16.1K subscribers
1.49K photos
75 videos
35 files
1.52K links
life = curiosity + irreducible noise

Whois: https://t.me/boris_again/3400

Лс: @btseytlin
Download Telegram
🐱

Ах да, знаменитые 4х6 шахматы
Please open Telegram to view this post
VIEW IN TELEGRAM
92👍41
Forwarded from ML Underhood
Сегодня вышел техрепорт Alice AI

Ниже — краткий обзор ключевых технических решений и результатов, а подробнее обо всех деталях, экспериментах и выводах можно почитать в полной версии отчёта на Хабре.

Alice AI LLM
На этапе претрейна улучшили качество данных: фильтрация и аугментация повысили фактологичность ответов (+4–7% на внутреннем бенчмарке). Также собрали специализированные данные по школьным предметам, что дало прирост на образовательных задачах — модель обошла конкурентов по истории, литературе, математике и русскому языку. Усилили навыки программирования и математики за счёт алгоритмических и кодовых данных (+4,5 п.п. на LiveCodeBench). В alignment-фазе перешли к единому RLHF-пайплайну с мультиаспектным ревордом (полезность, фактологичность и др.) вместо одного «суперсигнала».


Alice AI LLM Search
Пайплайн объединяет планировщик поисковых запросов, фильтрацию и ранжирование результатов и генерацию ответа, а также поддерживает мультимодальные источники — тексты, изображения, видео и геоданные — для более полных ответов. Для обучения использовали RLHF с мультиаспектными ревордами вместо одной метрики, что упростило оценку сложных ответов. В RL-тренировке перешли к онлайн-методу GRPO, сократили этапы обучения, повысили эффективность GPU и в итоге улучшили полезность и актуальность ответов.


Alice AI ART
Обучающий датасет проанализировали с помощью Alice AI VLM, извлекли структурированные JSON-описания изображений и выявили дисбалансы в данных. На основе этого датасет для файнтюна переработали и дополнили недостающими категориями запросов, чтобы лучше соответствовать реальным пользовательским сценариям. Архитектура модели сделана двухступенчатой: на первом этапе формируется общая композиция изображения, на втором — прорабатываются высокочастотные детали. Дополнительно обучили отдельный «рефразер» — компактную LLM, которая преобразует сырые пользовательские промпты в детализированное описание сцены, сохраняя исходный смысл перед генерацией.


Alice AI VLM
Объём данных претрейна увеличили с 400 до 600 млрд токенов и расширили контекст до 32 тыс. Обновили OCR-датасет, улучшив качество чтения текста с изображений, включая рукописный, и описание визуального контента. VLM тесно интегрирован с текстовой LLM и обучается с теми же RLHF-подходами. Дополнительно в систему добавлен специализированный VLM-«решатель» для задач, требующих глубокой визуально-математической экспертизы.


Инфраструктура инференса
Инференс оптимизировали, повторно использовав KV-кэш для одинаковых частей промпта. Также помогла полная FP8-квантизация весов, активаций и KV-кэша. За счёт этого объём KV-кэша сократился почти вдвое. Дополнительно внедрили спекулятивное декодирование EAGLE-3, повысив пропускную способность генерации.
В результате новый инференс-стек обеспечивает около 5,8× ускорение по сравнению с BF16 и примерно 1,3× относительно лучших открытых решений, что позволило достичь целевых показателей скорости.


ML Underhood
🔥191612👎10👍7🤔2
Кстати на тему техрепорта Alice AI вчера разгорелся неожиданно активный срач спор (в очень узких кругах тех кому не все равно).

Яндекс обучил Alice AI на основе Qwen3-235B: инициализировали базовой моделью, затем сделали несколько этапов обучения поверх. В том числе этап где они тренировали в unsupervised режиме на своём большом корпусе. Всё это подробно описано в техрепорте. Который, кстати, очень подробный и в целом классный. В целом, ну и молодцы: использовали рабочий и эффективный подход.

В общем Яндекс назвал первый этап обучения pretrain, админ LDT назвал это "дотюнили квен" и понеслось: 100+ комментариев про то, можно ли такое называть pretrain или нет, рофельные видео шары, мемные пасты.

Я считаю так: некорректно называть обучение с весов базовой модели pretraining. Так же не стоит называть то, что сделала команда Alice AI "finetuning", чтобы не путать с дообучением LoRA на 1000 инструкт примерах и всем прочим. Устоявшийся в литературе способ называть "мы взяли base checkpoint и обучали его дальше на своём корпусе" это continual pretraining.

Я вообще удивляюсь, что кому-то важно "свой претрен" или нет. Преимуществ у "своего претрена" примерно ноль. Какой-то спор про термины на которые абсолютно всем пользователям всё равно (буквально всем кроме сотрудников Сбера). Давайте лучше читать техрепорт, удивляться высоким ценам на API новой модели и всё такое прочее
👍573312🔥5
Мир если бы менеджеры умели читать и писать markdown
6457🔥7👎4👍3🤔2
Эммм, я тут короче обогнал Gemini 2.5 Flash Lite.

Давно ничего не писал про пет проект anything2json потому что мало им занимался и похвастаться было нечем. Все модели получались не очень: по бенчмарку неплохо (95% верных ответов), а когда тыкаю руками чаще всего небольшое изменение схемы или входа ломает результат.

Поэтому я доделывал бенчмарк, чтобы он учитывал это. Теперь каждый семпл сначала прогоняется как есть, затем несколько раз модифицируется. Например, дропаем из схемы json один ключ, снова прогоняем пример через модель, смотрим: она дропнула ключ из выхода, как полагается, или нет? Так мы тестируем способна ли модель действительно понимать, что куда конвертирует.

Прогнал на этом бенче свою последнюю модель, кроху Smollm2 135M, а так же Gemini 2.5 Flash Lite с ризонингом и без.

Короче, внезапно:
1. Моя модель правильно обрабатывает 94.1% семплов (т.е. верно ответила при всех модификациях) против 89.4% у Gemini.
2. Моя кроха меньше галлюцинирует (diff_chars_added показывает сколько лишних символов в ответе в среднем, у меня меньше).
3. Моя малышка гораздо реже выдает невалидные json или json не по схеме.
4. При этом моя малютка почти в 10 раз быстрее.

В общем, чтобы побить фронтир модели главное самому сделать бенчмарк 👆

Если серьезно, то выглядит даже слишком хорошо, чтобы быть правдой, поэтому буду расследовать. Но пока что радуемся
8933🔥20👍2
Обязательный черри-пик: наш инновационный метод vs их жалкий автокомплит

Черрипикнуть было непросто. На поверку оказалось, что большая часть ошибок у Gemini 2.5 Flash Lite Thinking не критичная, но мой бенч их считает. Например, модель поставила null там, где должна была "". В реальных применениях скорее всего простительно. Ещё часто модель выдает немного невалидный json, но контент верный, так что это лечится structured outputs.

Но даже паритет с такой моделью меня очень удивляет, я думал Smollm2 просто не потянет задачу
3722
😢29
#дайджест

Дайджест ML/AI за неделю 08 - 14 Декабря 2025

OpenAI: GPT-5.2, GPT-5.2 Pro и GPT-5.2 Thinking,
Сэм Альтман объявил код красный в ответ на релизы Google и выпустил линейку GPT-5.2.
Рост по большинству бенчмарков относительно GPT-5.1 на +3-10%, На внутреннем бенчмарке экономически ценных задач GDPval - рост в 2 раза до 70.9%. На FrontierMath у GPT-5.2 Pro 40.3%(+9%) решённых задач экспертного уровня, новый рекорд.
Блогпост GPT 5.2, Блогпост Pro и Thinking

Google: Deep Research
В день релиза GPT-5.2 Google перевели Deep Research на Gemini 3 Pro. На агентских бэнчмарках результаты на уровне GPT-5 Pro. Пробили бэнчмарк Humanity's Last Exam с 46.4%. В общем, GPT-5 Pro продержалась SOTA решением в бенчмарке DeepSearchQA примерно полдня.
Блогпост
Модель можно будет потрогать в:
Google Search, NotebookLM, Google Finance

Meituan: LongCat-Image
По бенчмаркам сравнима с HunyuanImage 3.0 и Qwen-Image-20B, при этом это всего 6B параметров. Как этого добились, читайте в техрепорте. Основной бизнес Meituan это доставка еды в Китае, а в генеративном ML они так, для души.
Код, Попробовать здесь.

Essential AI: Ramanujan-1
Стартап создателя Attention is all you need выпустил 8B модель с обычным для своего веса перформансом по большинству бенчмарков. Из интересного 20%(!) на SWE-bench, в сравнении с 4.5% у Qwen 3 8B и 11% у GPT OSS 20B. Также при тренировке ни одна карточка Nvidia не пострадала - использовались только AMD и Google TPU.
Веса, Блогпост, Попробовать здесь

Mistral: Devstral-2
Компания выпустила модели для кодинга в в двух размерах:
Devstral-2 24B, набирает 68% на SWE Bench Verified, как более тяжеловесные Qwen 3 coder plus и GLM-4.6.
Devstral-2 123B показывает себя на уровне Deepseek v3.2.
Также компания, не отставая от моды, сделала Codex-like среду разработки Vibe CLI.
Блогпост, Попробовать здесь
9👎8😢2
Недооцененный LLM брейнрот юзкейс: придумывать шутки для суда. Так плохо, что даже хорошо

С Алисой работает (особенно голосом попробуйте), с ChatGPT не работает т.к. модель слишком большая/умная и не говорит ничего смешного
84👎19😢4👍21
Ремайндер 2: нажимать Shift-Tab в Google Collab НЕ СЧИТАЕТСЯ учебой 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
😢4118
В 2022-м я сказал совету директоров, что нам нужна своя LLM. Своя. Суверенная. На триллион параметров.
Почему триллион? Потому что у GPT-4 — триллион. Я прочитал это в телеграм-канале. Канал назывался «ИИ на минималках». 50 000 подписчиков. Значит, правда.
Мне выделили бюджет. 2,3 миллиарда рублей. Я сказал «это инвестиция в технологический суверенитет». Никто не спросил, что это значит.
Я тоже не знал.

Купили 256 карточек V100. Не A100. V100. Потому что A100 под санкциями. V100 — нет. V100 вышли в 2017-м. Но я сказал «проверенное решение». Проверенное означает старое. Старое означает дешёвое. Дешёвое на вторичке в Дубае.

Наняли команду. 40 человек. ML-инженеры. Большинство не работали с LLM. Но у них были сертификаты ОТУСА. Сертификаты — это компетенции. Компетенции — это строчка в отчёте.

Тимлид спросил, почему триллион параметров на 256 V100. Сказал, что у Meta на LLaMA 70B было 2000 A100. Я сказал «у нас другой подход». Он спросил какой. Я сказал оптимизированный. Он спросил как именно оптимизированный. Я назначил ему встречу по пересмотру грейда. Он уволился. Я написал в отчёте «оптимизация штата».

Восемь месяцев обучения. Модель не сходилась. Лосс был плоский. Инженер сказал, что данных мало. У нас было 200 гигабайт текстов. Госзакупки, диссертации, Лента.ру. Он сказал, что у LLaMA — 2 триллиона токенов. Я сказал «качество важнее количества». Это не так. Но звучит мудро.
На девятый месяц модель заговорила.

Она говорила странное. На вопрос «столица Франции» отвечала «в соответствии с пунктом 3.2 технического задания». На вопрос «кто президент России» выдавала «Дмитрий Анатольевич Медведев». Датасет был старый. Я назвал это «историческая глубина модели». Инженеры называли это по-другому. Но их мнение не шло в презентации.

Запустили в прод. Назвали «НейроРусь-1Т». Лого — медведь с нейросетью в голове. Лого стоило 4 миллиона. Агентство сказало, что медведь символизирует «мощь российского ИИ». Я согласился. Медведи мощные.

Первый месяц. 3 000 запросов. 2 800 — от тестировщиков. 150 — от журналистов. 50 — случайные. NPS — минус 40. Я убрал NPS из дашборда. Метрика была «не релевантна стратегическим целям».

Купили статью в РБК. 1 миллион рублей. Заголовок: «Российская нейросеть НейроРусь составит конкуренцию ChatGPT». Журналист спросил, можно ли потестировать. Я сказал «после публикации». Он опубликовал.

В статье было написано «по словам разработчиков, модель превосходит западные аналоги в понимании российского контекста». Это я сказал. Я не разработчик. Но они не возражали.
РБК поставили статью в раздел «Технологии». 400 000 просмотров. Комментарии отключили превентивно. Негатив не соответствовал редакционной политике.

Четвёртый месяц. Поняли, что модель хуже ГигаГпт 6. ГигаГпт 6 хуже Claude Sonnet. Задача: создать бенчмарк, на котором мы победим. Назвали «РусКонтекст-1000». Тысяча вопросов о российской культуре. Кто написал «Войну и мир». Столица Бурятии. Как зовут кота Медведева.
Запустили бенчмарк. НейроРусь набрала 34%. GPT-4 набрал 67%. Наш бенчмарк. Мы проиграли на своём поле.


Шестой месяц. Стали покупать ГигаГпт 6 за 990 рублей за 1м токенов. Это как Claude Sonnet в API. Только ГигаГпт 6 хуже Sonnet в три раза. Я измерил. На вопрос «напиши код сортировки» ГигаГпт 6 выдал код с багами. Sonnet - рабочий кода. Но Sonnet - иностранный. Иностранный - плохо. Баги - отечественные. Отечественное - хорошо.

Купили 4 000 лицензий ГигаГпт 6 . 47 миллионов в год. За качество Claude по цене Claude, но в три раза хуже Claude. Зато в реестре отечественного ПО. Реестр важнее. Качество - субъективно. Реестр - объективен.

Старший разработчик спросил, почему не DeepSeek. DeepSeek - бесплатный. DeepSeek лучше ГигаГпт 6 . Я сказал «китайские бэкдоры». Он спросил какие именно. Я сказал «все». Он спросил, есть ли пруфы. Я сказал «есть, но засекречены». Он спросил кем. Я сказал «органами». Он не уточнил какими. Органы — это серьёзно.
17966👍11👎6😢5🔥3🤔1
Кому-то встроили ИИ в газовый котел 🙂

Но мы точно не в пузыре
Please open Telegram to view this post
VIEW IN TELEGRAM
100😢6👍21
Мужские эмоции
109👍71
Forwarded from Фанклуб свидетелей Егора Коновалова (егористическая регрессия)
кстати про датацентры
если вы вдруг задумывались как связываются ноды внутри датацентра, то я зашарил за Infiniband и написал его симуляцию на питончике

distributedhatemachine.github.io/posts/infiniband
distributedhatemachine.github.io/posts/infiniband
distributedhatemachine.github.io/posts/infiniband
17👎4👍1