Борис опять
16.1K subscribers
1.49K photos
75 videos
35 files
1.52K links
life = curiosity + irreducible noise

Whois: https://t.me/boris_again/3400

Лс: @btseytlin
Download Telegram
Кстати на тему техрепорта Alice AI вчера разгорелся неожиданно активный срач спор (в очень узких кругах тех кому не все равно).

Яндекс обучил Alice AI на основе Qwen3-235B: инициализировали базовой моделью, затем сделали несколько этапов обучения поверх. В том числе этап где они тренировали в unsupervised режиме на своём большом корпусе. Всё это подробно описано в техрепорте. Который, кстати, очень подробный и в целом классный. В целом, ну и молодцы: использовали рабочий и эффективный подход.

В общем Яндекс назвал первый этап обучения pretrain, админ LDT назвал это "дотюнили квен" и понеслось: 100+ комментариев про то, можно ли такое называть pretrain или нет, рофельные видео шары, мемные пасты.

Я считаю так: некорректно называть обучение с весов базовой модели pretraining. Так же не стоит называть то, что сделала команда Alice AI "finetuning", чтобы не путать с дообучением LoRA на 1000 инструкт примерах и всем прочим. Устоявшийся в литературе способ называть "мы взяли base checkpoint и обучали его дальше на своём корпусе" это continual pretraining.

Я вообще удивляюсь, что кому-то важно "свой претрен" или нет. Преимуществ у "своего претрена" примерно ноль. Какой-то спор про термины на которые абсолютно всем пользователям всё равно (буквально всем кроме сотрудников Сбера). Давайте лучше читать техрепорт, удивляться высоким ценам на API новой модели и всё такое прочее
👍573312🔥5
Мир если бы менеджеры умели читать и писать markdown
6457🔥7👎4👍3🤔2
Эммм, я тут короче обогнал Gemini 2.5 Flash Lite.

Давно ничего не писал про пет проект anything2json потому что мало им занимался и похвастаться было нечем. Все модели получались не очень: по бенчмарку неплохо (95% верных ответов), а когда тыкаю руками чаще всего небольшое изменение схемы или входа ломает результат.

Поэтому я доделывал бенчмарк, чтобы он учитывал это. Теперь каждый семпл сначала прогоняется как есть, затем несколько раз модифицируется. Например, дропаем из схемы json один ключ, снова прогоняем пример через модель, смотрим: она дропнула ключ из выхода, как полагается, или нет? Так мы тестируем способна ли модель действительно понимать, что куда конвертирует.

Прогнал на этом бенче свою последнюю модель, кроху Smollm2 135M, а так же Gemini 2.5 Flash Lite с ризонингом и без.

Короче, внезапно:
1. Моя модель правильно обрабатывает 94.1% семплов (т.е. верно ответила при всех модификациях) против 89.4% у Gemini.
2. Моя кроха меньше галлюцинирует (diff_chars_added показывает сколько лишних символов в ответе в среднем, у меня меньше).
3. Моя малышка гораздо реже выдает невалидные json или json не по схеме.
4. При этом моя малютка почти в 10 раз быстрее.

В общем, чтобы побить фронтир модели главное самому сделать бенчмарк 👆

Если серьезно, то выглядит даже слишком хорошо, чтобы быть правдой, поэтому буду расследовать. Но пока что радуемся
8933🔥20👍2
Обязательный черри-пик: наш инновационный метод vs их жалкий автокомплит

Черрипикнуть было непросто. На поверку оказалось, что большая часть ошибок у Gemini 2.5 Flash Lite Thinking не критичная, но мой бенч их считает. Например, модель поставила null там, где должна была "". В реальных применениях скорее всего простительно. Ещё часто модель выдает немного невалидный json, но контент верный, так что это лечится structured outputs.

Но даже паритет с такой моделью меня очень удивляет, я думал Smollm2 просто не потянет задачу
3722
😢29
#дайджест

Дайджест ML/AI за неделю 08 - 14 Декабря 2025

OpenAI: GPT-5.2, GPT-5.2 Pro и GPT-5.2 Thinking,
Сэм Альтман объявил код красный в ответ на релизы Google и выпустил линейку GPT-5.2.
Рост по большинству бенчмарков относительно GPT-5.1 на +3-10%, На внутреннем бенчмарке экономически ценных задач GDPval - рост в 2 раза до 70.9%. На FrontierMath у GPT-5.2 Pro 40.3%(+9%) решённых задач экспертного уровня, новый рекорд.
Блогпост GPT 5.2, Блогпост Pro и Thinking

Google: Deep Research
В день релиза GPT-5.2 Google перевели Deep Research на Gemini 3 Pro. На агентских бэнчмарках результаты на уровне GPT-5 Pro. Пробили бэнчмарк Humanity's Last Exam с 46.4%. В общем, GPT-5 Pro продержалась SOTA решением в бенчмарке DeepSearchQA примерно полдня.
Блогпост
Модель можно будет потрогать в:
Google Search, NotebookLM, Google Finance

Meituan: LongCat-Image
По бенчмаркам сравнима с HunyuanImage 3.0 и Qwen-Image-20B, при этом это всего 6B параметров. Как этого добились, читайте в техрепорте. Основной бизнес Meituan это доставка еды в Китае, а в генеративном ML они так, для души.
Код, Попробовать здесь.

Essential AI: Ramanujan-1
Стартап создателя Attention is all you need выпустил 8B модель с обычным для своего веса перформансом по большинству бенчмарков. Из интересного 20%(!) на SWE-bench, в сравнении с 4.5% у Qwen 3 8B и 11% у GPT OSS 20B. Также при тренировке ни одна карточка Nvidia не пострадала - использовались только AMD и Google TPU.
Веса, Блогпост, Попробовать здесь

Mistral: Devstral-2
Компания выпустила модели для кодинга в в двух размерах:
Devstral-2 24B, набирает 68% на SWE Bench Verified, как более тяжеловесные Qwen 3 coder plus и GLM-4.6.
Devstral-2 123B показывает себя на уровне Deepseek v3.2.
Также компания, не отставая от моды, сделала Codex-like среду разработки Vibe CLI.
Блогпост, Попробовать здесь
9👎8😢2
Недооцененный LLM брейнрот юзкейс: придумывать шутки для суда. Так плохо, что даже хорошо

С Алисой работает (особенно голосом попробуйте), с ChatGPT не работает т.к. модель слишком большая/умная и не говорит ничего смешного
84👎19😢4👍21
Ремайндер 2: нажимать Shift-Tab в Google Collab НЕ СЧИТАЕТСЯ учебой 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
😢4118
В 2022-м я сказал совету директоров, что нам нужна своя LLM. Своя. Суверенная. На триллион параметров.
Почему триллион? Потому что у GPT-4 — триллион. Я прочитал это в телеграм-канале. Канал назывался «ИИ на минималках». 50 000 подписчиков. Значит, правда.
Мне выделили бюджет. 2,3 миллиарда рублей. Я сказал «это инвестиция в технологический суверенитет». Никто не спросил, что это значит.
Я тоже не знал.

Купили 256 карточек V100. Не A100. V100. Потому что A100 под санкциями. V100 — нет. V100 вышли в 2017-м. Но я сказал «проверенное решение». Проверенное означает старое. Старое означает дешёвое. Дешёвое на вторичке в Дубае.

Наняли команду. 40 человек. ML-инженеры. Большинство не работали с LLM. Но у них были сертификаты ОТУСА. Сертификаты — это компетенции. Компетенции — это строчка в отчёте.

Тимлид спросил, почему триллион параметров на 256 V100. Сказал, что у Meta на LLaMA 70B было 2000 A100. Я сказал «у нас другой подход». Он спросил какой. Я сказал оптимизированный. Он спросил как именно оптимизированный. Я назначил ему встречу по пересмотру грейда. Он уволился. Я написал в отчёте «оптимизация штата».

Восемь месяцев обучения. Модель не сходилась. Лосс был плоский. Инженер сказал, что данных мало. У нас было 200 гигабайт текстов. Госзакупки, диссертации, Лента.ру. Он сказал, что у LLaMA — 2 триллиона токенов. Я сказал «качество важнее количества». Это не так. Но звучит мудро.
На девятый месяц модель заговорила.

Она говорила странное. На вопрос «столица Франции» отвечала «в соответствии с пунктом 3.2 технического задания». На вопрос «кто президент России» выдавала «Дмитрий Анатольевич Медведев». Датасет был старый. Я назвал это «историческая глубина модели». Инженеры называли это по-другому. Но их мнение не шло в презентации.

Запустили в прод. Назвали «НейроРусь-1Т». Лого — медведь с нейросетью в голове. Лого стоило 4 миллиона. Агентство сказало, что медведь символизирует «мощь российского ИИ». Я согласился. Медведи мощные.

Первый месяц. 3 000 запросов. 2 800 — от тестировщиков. 150 — от журналистов. 50 — случайные. NPS — минус 40. Я убрал NPS из дашборда. Метрика была «не релевантна стратегическим целям».

Купили статью в РБК. 1 миллион рублей. Заголовок: «Российская нейросеть НейроРусь составит конкуренцию ChatGPT». Журналист спросил, можно ли потестировать. Я сказал «после публикации». Он опубликовал.

В статье было написано «по словам разработчиков, модель превосходит западные аналоги в понимании российского контекста». Это я сказал. Я не разработчик. Но они не возражали.
РБК поставили статью в раздел «Технологии». 400 000 просмотров. Комментарии отключили превентивно. Негатив не соответствовал редакционной политике.

Четвёртый месяц. Поняли, что модель хуже ГигаГпт 6. ГигаГпт 6 хуже Claude Sonnet. Задача: создать бенчмарк, на котором мы победим. Назвали «РусКонтекст-1000». Тысяча вопросов о российской культуре. Кто написал «Войну и мир». Столица Бурятии. Как зовут кота Медведева.
Запустили бенчмарк. НейроРусь набрала 34%. GPT-4 набрал 67%. Наш бенчмарк. Мы проиграли на своём поле.


Шестой месяц. Стали покупать ГигаГпт 6 за 990 рублей за 1м токенов. Это как Claude Sonnet в API. Только ГигаГпт 6 хуже Sonnet в три раза. Я измерил. На вопрос «напиши код сортировки» ГигаГпт 6 выдал код с багами. Sonnet - рабочий кода. Но Sonnet - иностранный. Иностранный - плохо. Баги - отечественные. Отечественное - хорошо.

Купили 4 000 лицензий ГигаГпт 6 . 47 миллионов в год. За качество Claude по цене Claude, но в три раза хуже Claude. Зато в реестре отечественного ПО. Реестр важнее. Качество - субъективно. Реестр - объективен.

Старший разработчик спросил, почему не DeepSeek. DeepSeek - бесплатный. DeepSeek лучше ГигаГпт 6 . Я сказал «китайские бэкдоры». Он спросил какие именно. Я сказал «все». Он спросил, есть ли пруфы. Я сказал «есть, но засекречены». Он спросил кем. Я сказал «органами». Он не уточнил какими. Органы — это серьёзно.
17966👍11👎6😢5🔥3🤔1
Кому-то встроили ИИ в газовый котел 🙂

Но мы точно не в пузыре
Please open Telegram to view this post
VIEW IN TELEGRAM
100😢6👍21
Мужские эмоции
109👍71
Forwarded from Фанклуб свидетелей Егора Коновалова (егористическая регрессия)
кстати про датацентры
если вы вдруг задумывались как связываются ноды внутри датацентра, то я зашарил за Infiniband и написал его симуляцию на питончике

distributedhatemachine.github.io/posts/infiniband
distributedhatemachine.github.io/posts/infiniband
distributedhatemachine.github.io/posts/infiniband
17👎4👍1
Мок-собеседования и карьерные консультации по 150 евро всем и каждому

Периодически ко мне в личку приходят с запросами на мок-собеседования и карьерные консультации. Я хочу сделать эту историю более регулярной.

Мой питч остается таким же, как когда я менторил людей в течение всего поиска работы. Искать работу тяжело. Может иметь смысл заплатить кому-то (мне), чтобы сделать этот процесс проще, повысить шансы на успех и увеличить будущий оффер.

Я могу помочь с собеседованиями и карьерным путем в ML/DS или Backend разработке (а так же в меньшей степени в других направлениях в IT). Вы можете оценить мой подход по моей Методичке по поиску работы в DS/ML, посмотрев запись мок-собеседования по ML system design или по постам в канале на тему карьеры. Так же прикрепил к посту три хороших отзыва на работу со мной и один от человека которому больше всех не понравилось.

Стоимость 150 евро.

Забронировать слот можно здесь:

https://calendly.com/iambtseytlin

Бронируя слот не забудьте заранее отправить мне в личку своё CV и нужный контекст, чтобы я мог подготовиться
30🔥25👎54👍4🤔4