Борис опять – Telegram

Борис опять

16.1K subscribers

1.49K photos

75 videos

35 files

1.52K links

life = curiosity + irreducible noise

Whois: https://t.me/boris_again/3400

Лс: @btseytlin

Download Telegram

About

Blog

Apps

Platform

Борис опять

16.1K subscribers

Борис опять

Кстати на тему техрепорта Alice AI вчера разгорелся неожиданно активный ~~срач~~ спор (в очень узких кругах тех кому не все равно).

Яндекс обучил Alice AI на основе Qwen3-235B: инициализировали базовой моделью, затем сделали несколько этапов обучения поверх. В том числе этап где они тренировали в unsupervised режиме на своём большом корпусе. Всё это подробно описано в техрепорте. Который, кстати, очень подробный и в целом классный. В целом, ну и молодцы: использовали рабочий и эффективный подход.

В общем Яндекс назвал первый этап обучения pretrain, админ LDT назвал это "дотюнили квен" и понеслось: 100+ комментариев про то, можно ли такое называть pretrain или нет, рофельные видео шары, мемные пасты.

Я считаю так: некорректно называть обучение с весов базовой модели pretraining. Так же не стоит называть то, что сделала команда Alice AI "finetuning", чтобы не путать с дообучением LoRA на 1000 инструкт примерах и всем прочим. Устоявшийся в литературе способ называть "мы взяли base checkpoint и обучали его дальше на своём корпусе" это continual pretraining.

Я вообще удивляюсь, что кому-то важно "свой претрен" или нет. Преимуществ у "своего претрена" примерно ноль. Какой-то спор про термины на которые абсолютно всем пользователям всё равно (буквально всем кроме сотрудников Сбера). Давайте лучше читать техрепорт, удивляться высоким ценам на API новой модели и всё такое прочее

👍5733❤12🔥5

5.66K viewsedited 12:09

Борис опять

https://www.theseedsofscience.pub/p/why-arent-smart-people-happier

www.theseedsofscience.pub

Why aren't smart people happier?

Author: Adam Mastroianni

❤10🤔21

5.01K views15:27

Борис опять

Мир если бы менеджеры умели читать и писать markdown

❤6457🔥7👎4👍3🤔2

4.59K views16:03

Борис опять

Эммм, я тут короче обогнал Gemini 2.5 Flash Lite.

Давно ничего не писал про пет проект anything2json потому что мало им занимался и похвастаться было нечем. Все модели получались не очень: по бенчмарку неплохо (95% верных ответов), а когда тыкаю руками чаще всего небольшое изменение схемы или входа ломает результат.

Поэтому я доделывал бенчмарк, чтобы он учитывал это. Теперь каждый семпл сначала прогоняется как есть, затем несколько раз модифицируется. Например, дропаем из схемы json один ключ, снова прогоняем пример через модель, смотрим: она дропнула ключ из выхода, как полагается, или нет? Так мы тестируем способна ли модель действительно понимать, что куда конвертирует.

Прогнал на этом бенче свою последнюю модель, кроху Smollm2 135M, а так же Gemini 2.5 Flash Lite с ризонингом и без.

Короче, внезапно:
1. Моя модель правильно обрабатывает 94.1% семплов (т.е. верно ответила при всех модификациях) против 89.4% у Gemini.
2. Моя кроха меньше галлюцинирует (diff_chars_added показывает сколько лишних символов в ответе в среднем, у меня меньше).
3. Моя малышка гораздо реже выдает невалидные json или json не по схеме.
4. При этом моя малютка почти в 10 раз быстрее.

В общем, чтобы побить фронтир модели главное самому сделать бенчмарк 👆

Если серьезно, то выглядит даже слишком хорошо, чтобы быть правдой, поэтому буду расследовать. Но пока что радуемся

89❤33🔥20👍2

4.59K viewsedited 18:48

Борис опять

Обязательный черри-пик: наш инновационный метод vs их жалкий автокомплит

Черрипикнуть было непросто. На поверку оказалось, что большая часть ошибок у Gemini 2.5 Flash Lite Thinking не критичная, но мой бенч их считает. Например, модель поставила null там, где должна была "". В реальных применениях скорее всего простительно. Ещё часто модель выдает немного невалидный json, но контент верный, так что это лечится structured outputs.

Но даже паритет с такой моделью меня очень удивляет, я думал Smollm2 просто не потянет задачу

❤3722

5.34K views19:39

Борис опять

😢29

4.22K views13:03

Борис опять

#дайджест

Дайджест ML/AI за неделю 08 - 14 Декабря 2025

OpenAI: GPT-5.2, GPT-5.2 Pro и GPT-5.2 Thinking,
Сэм Альтман объявил код красный в ответ на релизы Google и выпустил линейку GPT-5.2.
Рост по большинству бенчмарков относительно GPT-5.1 на +3-10%, На внутреннем бенчмарке экономически ценных задач GDPval - рост в 2 раза до 70.9%. На FrontierMath у GPT-5.2 Pro 40.3%(+9%) решённых задач экспертного уровня, новый рекорд.
Блогпост GPT 5.2, Блогпост Pro и Thinking

Google: Deep Research
В день релиза GPT-5.2 Google перевели Deep Research на Gemini 3 Pro. На агентских бэнчмарках результаты на уровне GPT-5 Pro. Пробили бэнчмарк Humanity's Last Exam с 46.4%. В общем, GPT-5 Pro продержалась SOTA решением в бенчмарке DeepSearchQA примерно полдня.
Блогпост
Модель можно будет потрогать в:
Google Search, NotebookLM, Google Finance

Meituan: LongCat-Image
По бенчмаркам сравнима с HunyuanImage 3.0 и Qwen-Image-20B, при этом это всего 6B параметров. Как этого добились, читайте в техрепорте. Основной бизнес Meituan это доставка еды в Китае, а в генеративном ML они так, для души.
Код, Попробовать здесь.

Essential AI: Ramanujan-1
Стартап создателя Attention is all you need выпустил 8B модель с обычным для своего веса перформансом по большинству бенчмарков. Из интересного 20%(!) на SWE-bench, в сравнении с 4.5% у Qwen 3 8B и 11% у GPT OSS 20B. Также при тренировке ни одна карточка Nvidia не пострадала - использовались только AMD и Google TPU.
Веса, Блогпост, Попробовать здесь

Mistral: Devstral-2
Компания выпустила модели для кодинга в в двух размерах:
Devstral-2 24B, набирает 68% на SWE Bench Verified, как более тяжеловесные Qwen 3 coder plus и GLM-4.6.
Devstral-2 123B показывает себя на уровне Deepseek v3.2.
Также компания, не отставая от моды, сделала Codex-like среду разработки Vibe CLI.
Блогпост, Попробовать здесь

❤9👎8😢2

4.55K viewsedited 13:08

Борис опять

Недооцененный LLM брейнрот юзкейс: придумывать шутки для суда. Так плохо, что даже хорошо

С Алисой работает (особенно голосом попробуйте), с ChatGPT не работает т.к. модель слишком большая/умная и не говорит ничего смешного

84👎19😢4👍2❤1

5.11K views17:05

Борис опять

Борис опять

Я познакомился в Лиссабоне с Сережей и Ксюшей, основателями Fermatix AI. А так же их ребенком! Меня даже сфоткали. Сейчас они делают большой проект: собирают данные, чтобы улучшать LLM для кода. Их особенно интересуют хорошие приватные репозитории и они…

Ремайндер: всё ещё можно продать приватные репозитории 👀

Кому нечего продавать: в будущем старайтесь лучше, пишите больше кода

Please open Telegram to view this post

VIEW IN TELEGRAM

44😢5❤1🔥1

4.49K viewsedited 12:19

Борис опять

Ремайндер 2: нажимать Shift-Tab в Google Collab НЕ СЧИТАЕТСЯ учебой 👀

Please open Telegram to view this post

VIEW IN TELEGRAM

😢4118

4.29K views13:49

Борис опять

Forwarded from Love. Death. Transformers.

В 2022-м я сказал совету директоров, что нам нужна своя LLM. Своя. Суверенная. На триллион параметров.
Почему триллион? Потому что у GPT-4 — триллион. Я прочитал это в телеграм-канале. Канал назывался «ИИ на минималках». 50 000 подписчиков. Значит, правда.
Мне выделили бюджет. 2,3 миллиарда рублей. Я сказал «это инвестиция в технологический суверенитет». Никто не спросил, что это значит.
Я тоже не знал.

Купили 256 карточек V100. Не A100. V100. Потому что A100 под санкциями. V100 — нет. V100 вышли в 2017-м. Но я сказал «проверенное решение». Проверенное означает старое. Старое означает дешёвое. Дешёвое на вторичке в Дубае.

Наняли команду. 40 человек. ML-инженеры. Большинство не работали с LLM. Но у них были сертификаты ОТУСА. Сертификаты — это компетенции. Компетенции — это строчка в отчёте.

Тимлид спросил, почему триллион параметров на 256 V100. Сказал, что у Meta на LLaMA 70B было 2000 A100. Я сказал «у нас другой подход». Он спросил какой. Я сказал оптимизированный. Он спросил как именно оптимизированный. Я назначил ему встречу по пересмотру грейда. Он уволился. Я написал в отчёте «оптимизация штата».

Восемь месяцев обучения. Модель не сходилась. Лосс был плоский. Инженер сказал, что данных мало. У нас было 200 гигабайт текстов. Госзакупки, диссертации, Лента.ру. Он сказал, что у LLaMA — 2 триллиона токенов. Я сказал «качество важнее количества». Это не так. Но звучит мудро.
На девятый месяц модель заговорила.

Она говорила странное. На вопрос «столица Франции» отвечала «в соответствии с пунктом 3.2 технического задания». На вопрос «кто президент России» выдавала «Дмитрий Анатольевич Медведев». Датасет был старый. Я назвал это «историческая глубина модели». Инженеры называли это по-другому. Но их мнение не шло в презентации.

Запустили в прод. Назвали «НейроРусь-1Т». Лого — медведь с нейросетью в голове. Лого стоило 4 миллиона. Агентство сказало, что медведь символизирует «мощь российского ИИ». Я согласился. Медведи мощные.

Первый месяц. 3 000 запросов. 2 800 — от тестировщиков. 150 — от журналистов. 50 — случайные. NPS — минус 40. Я убрал NPS из дашборда. Метрика была «не релевантна стратегическим целям».

Купили статью в РБК. 1 миллион рублей. Заголовок: «Российская нейросеть НейроРусь составит конкуренцию ChatGPT». Журналист спросил, можно ли потестировать. Я сказал «после публикации». Он опубликовал.

В статье было написано «по словам разработчиков, модель превосходит западные аналоги в понимании российского контекста». Это я сказал. Я не разработчик. Но они не возражали.
РБК поставили статью в раздел «Технологии». 400 000 просмотров. Комментарии отключили превентивно. Негатив не соответствовал редакционной политике.

Четвёртый месяц. Поняли, что модель хуже ГигаГпт 6. ГигаГпт 6 хуже Claude Sonnet. Задача: создать бенчмарк, на котором мы победим. Назвали «РусКонтекст-1000». Тысяча вопросов о российской культуре. Кто написал «Войну и мир». Столица Бурятии. Как зовут кота Медведева.
Запустили бенчмарк. НейроРусь набрала 34%. GPT-4 набрал 67%. Наш бенчмарк. Мы проиграли на своём поле.

Шестой месяц. Стали покупать ГигаГпт 6 за 990 рублей за 1м токенов. Это как Claude Sonnet в API. Только ГигаГпт 6 хуже Sonnet в три раза. Я измерил. На вопрос «напиши код сортировки» ГигаГпт 6 выдал код с багами. Sonnet - рабочий кода. Но Sonnet - иностранный. Иностранный - плохо. Баги - отечественные. Отечественное - хорошо.

Купили 4 000 лицензий ГигаГпт 6 . 47 миллионов в год. За качество Claude по цене Claude, но в три раза хуже Claude. Зато в реестре отечественного ПО. Реестр важнее. Качество - субъективно. Реестр - объективен.

Старший разработчик спросил, почему не DeepSeek. DeepSeek - бесплатный. DeepSeek лучше ГигаГпт 6 . Я сказал «китайские бэкдоры». Он спросил какие именно. Я сказал «все». Он спросил, есть ли пруфы. Я сказал «есть, но засекречены». Он спросил кем. Я сказал «органами». Он не уточнил какими. Органы — это серьёзно.

179❤66👍11👎6😢5🔥3🤔1

3.61K views14:31

Борис опять

Кому-то встроили ИИ в газовый котел 🙂

Но мы точно не в пузыре

Please open Telegram to view this post

VIEW IN TELEGRAM

100😢6👍2❤1

5.55K viewsedited 23:39

Борис опять

Мужские эмоции

109👍7❤1

4.97K views23:40

Борис опять

Forwarded from Фанклуб свидетелей Егора Коновалова (егористическая регрессия)

кстати про датацентры
если вы вдруг задумывались как связываются ноды внутри датацентра, то я зашарил за Infiniband и написал его симуляцию на питончике

distributedhatemachine.github.io/posts/infiniband
distributedhatemachine.github.io/posts/infiniband
distributedhatemachine.github.io/posts/infiniband

❤17👎4👍1

5.79K views10:01

Борис опять

Борис опять pinned Deleted message

15:27

Борис опять

Мок-собеседования и карьерные консультации по 150 евро всем и каждому

Периодически ко мне в личку приходят с запросами на мок-собеседования и карьерные консультации. Я хочу сделать эту историю более регулярной.

Мой питч остается таким же, как когда я менторил людей в течение всего поиска работы. Искать работу тяжело. Может иметь смысл заплатить кому-то (мне), чтобы сделать этот процесс проще, повысить шансы на успех и увеличить будущий оффер.

Я могу помочь с собеседованиями и карьерным путем в ML/DS или Backend разработке (а так же в меньшей степени в других направлениях в IT). Вы можете оценить мой подход по моей Методичке по поиску работы в DS/ML, посмотрев запись мок-собеседования по ML system design или по постам в канале на тему карьеры. Так же прикрепил к посту три хороших отзыва на работу со мной и один от человека которому больше всех не понравилось.

Стоимость 150 евро.

Забронировать слот можно здесь:

https://calendly.com/iambtseytlin

Бронируя слот не забудьте заранее отправить мне в личку своё CV и нужный контекст, чтобы я мог подготовиться

30🔥25👎5❤4👍4🤔4

6.21K viewsedited 14:17