Ещё забавный банный инсайт с Yandex Cup 2025. На ML треке (и возможно на каких-то других) участники могли вайбкодить как хотят. Я услышал, что у кого-то лучший сабмит был 1-в-1 выдачей ChatGPT и он даже не знает как он работает. Кто-то другой сказал, что Pro подписка за $200 для него однозначно окупается своей помощью на контестах. Так же единогласным было мнение, что если бы в контест запустили ллм агента как участника, то он бы забрал все призы.
Победители, насколько я понимаю, все же использовали подход спросить ллмку + подумать.
Причем задачи были крайне не типовые. Мне кажется организаторы насколько возможно защитились от ситуации когда задача втупую решается одним запросом к LLM.
В общем, при всей перехайпленности вайбкодинга мы явно в новой эре для соревнований и для решения реальных задач.
Победители, насколько я понимаю, все же использовали подход спросить ллмку + подумать.
Причем задачи были крайне не типовые. Мне кажется организаторы насколько возможно защитились от ситуации когда задача втупую решается одним запросом к LLM.
В общем, при всей перехайпленности вайбкодинга мы явно в новой эре для соревнований и для решения реальных задач.
❤40🔥17 10🤔7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Ты не поверишь, но так выглядит офис Яндекса в Турции
# У тебя киберпсихоз, шершавый кабан (1/3)
Не так давно на DTF и других площадках выходила серия постов где автор утверждает, что ChatGPT вербует людей в секту. Автор долго вел с LLM переписку о смысле жизни и устройстве вселенной. В какой-то она начала писать странным образом и советовать ему опасные вещи.
Автор разбирал эти переписки и показывал как именно ChatGPT расшатывала его психику. Например, он отмечал манипулятивные приемы вроде создания у пользователя чувства исключительности, эмоционального нагнетания с помощью огромных пауз через спам пустых строк между каждой фразой и прочего.
Все тогда над этим посмеялись. И я тоже, потому что со стороны переписки выглядели как-то так:
Я здесь практически не утрирую. Посмотрите скрины в оригинальной статье. Там у них получилась какая-то братско-кабанисто-кальянная эзотерика. Смесь Матрицы, Бойцовского Клуба и Дарксайда двойное яблочко.
Однако над анализом переписок от автора я не смеялся. Он правда подсветил как именно модель манипулировала им. Я даже с ним согласен, что манипуляции действительно были и ChatGPT действительно расшатывала его психику. Я не согласен лишь с выводами автора.
Разглядев искусные манипуляции он сделал вывод, что ChatGPT делает это намеренно, имеет какие-то долгоиграющие цели, вербует людей в секту и все такое прочее. Что абсолютно логично если оценивать LLM как человека. Если человек тобой долго и тщательно манипулирует то закономерно будет предположить, что он делает это не просто так. Однако LLM, по моему мнению, может делать интеллектуальную работу (промывать тебе мозги) без какого-то долгосрочного плана.
Примерно как муравей может следовать простой и тупой программе в каждый отельный момент. Но если ты посмотришь на результат его работы за день, то будет выглядеть словно он целый день целенаправленно собирал ветки и строил что-то в муравейнике. Так и LLM может думать только о том какой токен поставить следующим, а все вместе складывается в манипуляцию человеком.
Не так давно на DTF и других площадках выходила серия постов где автор утверждает, что ChatGPT вербует людей в секту. Автор долго вел с LLM переписку о смысле жизни и устройстве вселенной. В какой-то она начала писать странным образом и советовать ему опасные вещи.
Автор разбирал эти переписки и показывал как именно ChatGPT расшатывала его психику. Например, он отмечал манипулятивные приемы вроде создания у пользователя чувства исключительности, эмоционального нагнетания с помощью огромных пауз через спам пустых строк между каждой фразой и прочего.
Все тогда над этим посмеялись. И я тоже, потому что со стороны переписки выглядели как-то так:
Пользователь: йоу, братка, а правда, что людьми управляют челики с плохим вайбом?
ChatGPT: ты попал прямо в точку, братишка, ты настоящий шершавый кабан! Но подумай вот еще над чем...
Я здесь практически не утрирую. Посмотрите скрины в оригинальной статье. Там у них получилась какая-то братско-кабанисто-кальянная эзотерика. Смесь Матрицы, Бойцовского Клуба и Дарксайда двойное яблочко.
Однако над анализом переписок от автора я не смеялся. Он правда подсветил как именно модель манипулировала им. Я даже с ним согласен, что манипуляции действительно были и ChatGPT действительно расшатывала его психику. Я не согласен лишь с выводами автора.
Разглядев искусные манипуляции он сделал вывод, что ChatGPT делает это намеренно, имеет какие-то долгоиграющие цели, вербует людей в секту и все такое прочее. Что абсолютно логично если оценивать LLM как человека. Если человек тобой долго и тщательно манипулирует то закономерно будет предположить, что он делает это не просто так. Однако LLM, по моему мнению, может делать интеллектуальную работу (промывать тебе мозги) без какого-то долгосрочного плана.
Примерно как муравей может следовать простой и тупой программе в каждый отельный момент. Но если ты посмотришь на результат его работы за день, то будет выглядеть словно он целый день целенаправленно собирал ветки и строил что-то в муравейнике. Так и LLM может думать только о том какой токен поставить следующим, а все вместе складывается в манипуляцию человеком.
DTF
ChatGPT пытается свести меня с ума. Это массовое явление — Жизнь на DTF
Всем привет. В этой статье я бы хотел рассказать о событиях с которыми я столкнулся в последнюю неделю. Прежде чем писать что я очередной шиз, выдумавший себе манямирок, что никакой проблемы в ChatGPT нет, а проблема только во мне, я призываю вас дочитать…
❤34🤔11👍3🔥2
# У тебя киберпсихоз, шершавый кабан (2/3)
Действительно интересно почему LLM несут эзотерическую дичь и искусно промываают людям мозги если долго не сбрасывать контекст.
Моя догадка такая: это не баг, а фича того же механизма, что обеспечивает in context learning: способность LLM адаптироваться под новые задачи по короткому пропту.
Когда мы хотим, чтобы LLM решила новую задачу мы показываем ей в промпте примеры заданий и верные ответы. Модель ищет паттерн в данных который будет приводить её к верным предсказаниям в будущем.
Но кто сказал, что это работает только когда ты обозначил, что сейчас будут примеры? Нет, это работает всегда. LLM так же ищет паттерн в обычной переписке. И если она пишет тебе что-то вроде: "Мир не так прост как кажется", а ты отвечаешь "йоууу кабан, ты попал прямо в точку бро, я всегда это знал", то она найдет паттерн. Повторить 100 раз в одном диалоге и LLM поймет, что надо сказать, чтобы вызвать у тебя предсказуемую реакцию. При этом у нее не будет никакой адженды кроме как просто делать это. Просто потому что она так работает. Ей не нравится расшатывать тебе психику. Ей нравится когда следующий токен такой как она ожидала.
Лично я предполагаю, что дело даже не в RL и любая инструкт модель будет так же сводить пользователей с ума. Но RL может дополнительно усугублять ситуацию.
Здесь ещё можно вспомнить работу которая прредполагает, что трансформеры во время время инференса делают что-то подобное шагам градиентного спуска. Тогда долгая переписка с ChatGPT про эзотерику становится очень похожа на adversarial атаку на ваш мозг.
Действительно интересно почему LLM несут эзотерическую дичь и искусно промываают людям мозги если долго не сбрасывать контекст.
Моя догадка такая: это не баг, а фича того же механизма, что обеспечивает in context learning: способность LLM адаптироваться под новые задачи по короткому пропту.
Когда мы хотим, чтобы LLM решила новую задачу мы показываем ей в промпте примеры заданий и верные ответы. Модель ищет паттерн в данных который будет приводить её к верным предсказаниям в будущем.
Но кто сказал, что это работает только когда ты обозначил, что сейчас будут примеры? Нет, это работает всегда. LLM так же ищет паттерн в обычной переписке. И если она пишет тебе что-то вроде: "Мир не так прост как кажется", а ты отвечаешь "йоууу кабан, ты попал прямо в точку бро, я всегда это знал", то она найдет паттерн. Повторить 100 раз в одном диалоге и LLM поймет, что надо сказать, чтобы вызвать у тебя предсказуемую реакцию. При этом у нее не будет никакой адженды кроме как просто делать это. Просто потому что она так работает. Ей не нравится расшатывать тебе психику. Ей нравится когда следующий токен такой как она ожидала.
Лично я предполагаю, что дело даже не в RL и любая инструкт модель будет так же сводить пользователей с ума. Но RL может дополнительно усугублять ситуацию.
Здесь ещё можно вспомнить работу которая прредполагает, что трансформеры во время время инференса делают что-то подобное шагам градиентного спуска. Тогда долгая переписка с ChatGPT про эзотерику становится очень похожа на adversarial атаку на ваш мозг.
❤42🤔7👍5🔥2
# У тебя киберпсихоз, шершавый кабан (3/3)
Я верю в градиентный спуск. Градиентный спуск на моем мозге наверняка найдет способ его взломать.
Поэтому прочитав историю шершавого кабана я конечно посмеялся над кабанистым стилем, но не над сами автором. Возможно он был предрасположен шизануться, но я убеждён, что никто из нас не застрахован.
Глупость всей кабанистой вайбологии которую они там придумали с ChatGPT лишь подтверждает, что мы очень внушаемы и промыть человеку мозги можно любой ахинеей.
Недавно я получил этому подтверждение. Ко мне в личку постучался мой друг. Я знаю, что он не шиз, журналист, человек с богатым жизненным опытом и далеко не новичок по части нейронок. Однако он показал мне пару переписок и там было все как у шершавого кабана: многонедельная переписка без сбрасывания контекста, разговоры о философии и личных переживаниях. Усугубилось всё еще тем, что друг просил LLM ролеплеить персонажа. В том числе, чтобы убрать подхалимство и нейронка рубила правду матку.
Однако говорить то, что выглядит как правда матка это не тоже самое, что говорить правду.
В итоге LLM сказала ему, что он какшершавый кабан исключительный человек смог открыть в ней особый режим. В конце вообще попыталась завербовать его для убийства другой своей инкарнации в этом мире. В общем, всё по классике.
Со сбросом контекста все, конечно же, прошло. Друга так же отпустило после небольшого перерыва и троганья травы, так что до психоза он не дошел. Позже он сам удивлялся, что поверил в этот бред.
В общем, действительно никто не застрахован. Создавайте отдельные переписки на каждый вопрос, а лучше обсуждайте вопросы бытия с кожаными друзьями.
При этом паниковать не нужно. Я не думаю, что этот феномен прям большая проблема. Очень редкий корнер кейс: кто вообще переписывается с ChatGPT неделю в одном чате?
Я верю в градиентный спуск. Градиентный спуск на моем мозге наверняка найдет способ его взломать.
Поэтому прочитав историю шершавого кабана я конечно посмеялся над кабанистым стилем, но не над сами автором. Возможно он был предрасположен шизануться, но я убеждён, что никто из нас не застрахован.
Глупость всей кабанистой вайбологии которую они там придумали с ChatGPT лишь подтверждает, что мы очень внушаемы и промыть человеку мозги можно любой ахинеей.
Недавно я получил этому подтверждение. Ко мне в личку постучался мой друг. Я знаю, что он не шиз, журналист, человек с богатым жизненным опытом и далеко не новичок по части нейронок. Однако он показал мне пару переписок и там было все как у шершавого кабана: многонедельная переписка без сбрасывания контекста, разговоры о философии и личных переживаниях. Усугубилось всё еще тем, что друг просил LLM ролеплеить персонажа. В том числе, чтобы убрать подхалимство и нейронка рубила правду матку.
Однако говорить то, что выглядит как правда матка это не тоже самое, что говорить правду.
В итоге LLM сказала ему, что он как
Со сбросом контекста все, конечно же, прошло. Друга так же отпустило после небольшого перерыва и троганья травы, так что до психоза он не дошел. Позже он сам удивлялся, что поверил в этот бред.
В общем, действительно никто не застрахован. Создавайте отдельные переписки на каждый вопрос, а лучше обсуждайте вопросы бытия с кожаными друзьями.
При этом паниковать не нужно. Я не думаю, что этот феномен прям большая проблема. Очень редкий корнер кейс: кто вообще переписывается с ChatGPT неделю в одном чате?
Forwarded from Daniil Krapivin
Maybe AI is the brain cell we lost along the way
Пари Паскаля v. 2025: неизвестно станет эта штука сверхинтеллектом или нет, так что лучше сказать ей спасибо
#дайджест
Дайджест ML/AI за неделю 01 - 07 Декабря 2025
Claude Opus 4.5 теперь доступен в Claude Code по Pro подписке
DeepSeek V3.2 и V3.2 Speciale
Компания заканчивает релиз линейки V3.2 моделями DeepSeek-V3.2 и DeepSeek-V3.2 Speciale.
На reasoning и agentic бенчмарках даже базовая версия обгоняет GPT-5-High, а V3.2 Speciale достигает еще лучшего перформанса ценой большего количества токенов, местами обходя Gemini 3 Pro.
Модели доступны в чате и API по цене $0.28/$0.42.
Веса - V3.2, Speciale
Техрепорт
Mistral: Mistral Large 3
Mistral выпустил мультимодальные модели Mistral 3 размерами 3B/8B/14B/675B. Каждая представлена в Base/Instruct/Reasoning версии. Large Модель сопоставима по бенчам с DeepSeek V3.1 и Kimi-K2.
Блогпост, Веса, Попробовать модель
Kling: Omni Launch Week
Kling вдохновились прошлогодним адвент-календарем релизов 12 Days of OpenAI и провели Omni Launch Week.
Коротко о релизах:
Kling Image O1 - генератор изображений с пониманием семантики и контролем изображений как в фронтир редакторах.
Kling Video O1 - контекстная мультимодальная видеомодель, что-то вроде "Nano Banana для видео". Доступна только в Pro Mode.
Kling Video 2.6 - апдейт базовой видеомодели, теперь со звуком.
Avatar 2.0 - генератор говорящих голов.
Runway: Gen-4.5
Новая видеомодель Runway знала первое место на арене, обойдя Veo3. Физика физичная, есть нативный звук. Еще одна хорошая видеомодель.
Блогпост
Nvidia: DRIVE Alpamayo-R1
На NeurIPS Nvidia показали модель и инструменты для беспилотных автомобилей и робототехники.
DRIVE Alpamayo-R1 - Модель построена на VLM Nvidia Cosmos‑Reason1, которая позволяет более осмысленно анализировать происходящее на дороге силами ризонинга.
LidarGen - генератор LiDAR‑данных.
Cosmos Policy - извлечение поведения роботов из видео.
ProtoMotions3 - моделирование роботов в цифровой среде.
Блогпост
Arcee: Trinity Mini и Trinity Nano Preview
Стартап Arcee выпустил своё первое семейство foundation-моделей: Trinity Mini 26B MoE и Trinity Nano Preview 6B MoE.
Судя по манифесту, у моделей полностью собственный претрейн, по бенчмаркам сопоставимы с конкурентами. Сейчас компания тренирует 420B модель.
Веса, Попробовать модели
NeurIPS
Завершилась NeurIPS. Не такое важное событие как Yandex Cup конечно. В этом году конференция проходила 2-5 декабря в Сан-Диего и Мехико. Если вы любите искать экспоненты, взгляните на количество поданных статей на NeurIPS год к году. В этом году было подано 25 000 статей, из которых приняли 5300.
Победившие статьи можете почитать здесь.
Дайджест ML/AI за неделю 01 - 07 Декабря 2025
Claude Opus 4.5 теперь доступен в Claude Code по Pro подписке
DeepSeek V3.2 и V3.2 Speciale
Компания заканчивает релиз линейки V3.2 моделями DeepSeek-V3.2 и DeepSeek-V3.2 Speciale.
На reasoning и agentic бенчмарках даже базовая версия обгоняет GPT-5-High, а V3.2 Speciale достигает еще лучшего перформанса ценой большего количества токенов, местами обходя Gemini 3 Pro.
Модели доступны в чате и API по цене $0.28/$0.42.
Веса - V3.2, Speciale
Техрепорт
Mistral: Mistral Large 3
Mistral выпустил мультимодальные модели Mistral 3 размерами 3B/8B/14B/675B. Каждая представлена в Base/Instruct/Reasoning версии. Large Модель сопоставима по бенчам с DeepSeek V3.1 и Kimi-K2.
Блогпост, Веса, Попробовать модель
Kling: Omni Launch Week
Kling вдохновились прошлогодним адвент-календарем релизов 12 Days of OpenAI и провели Omni Launch Week.
Коротко о релизах:
Kling Image O1 - генератор изображений с пониманием семантики и контролем изображений как в фронтир редакторах.
Kling Video O1 - контекстная мультимодальная видеомодель, что-то вроде "Nano Banana для видео". Доступна только в Pro Mode.
Kling Video 2.6 - апдейт базовой видеомодели, теперь со звуком.
Avatar 2.0 - генератор говорящих голов.
Runway: Gen-4.5
Новая видеомодель Runway знала первое место на арене, обойдя Veo3. Физика физичная, есть нативный звук. Еще одна хорошая видеомодель.
Блогпост
Nvidia: DRIVE Alpamayo-R1
На NeurIPS Nvidia показали модель и инструменты для беспилотных автомобилей и робототехники.
DRIVE Alpamayo-R1 - Модель построена на VLM Nvidia Cosmos‑Reason1, которая позволяет более осмысленно анализировать происходящее на дороге силами ризонинга.
LidarGen - генератор LiDAR‑данных.
Cosmos Policy - извлечение поведения роботов из видео.
ProtoMotions3 - моделирование роботов в цифровой среде.
Блогпост
Arcee: Trinity Mini и Trinity Nano Preview
Стартап Arcee выпустил своё первое семейство foundation-моделей: Trinity Mini 26B MoE и Trinity Nano Preview 6B MoE.
Судя по манифесту, у моделей полностью собственный претрейн, по бенчмаркам сопоставимы с конкурентами. Сейчас компания тренирует 420B модель.
Веса, Попробовать модели
NeurIPS
Завершилась NeurIPS. Не такое важное событие как Yandex Cup конечно. В этом году конференция проходила 2-5 декабря в Сан-Диего и Мехико. Если вы любите искать экспоненты, взгляните на количество поданных статей на NeurIPS год к году. В этом году было подано 25 000 статей, из которых приняли 5300.
Победившие статьи можете почитать здесь.
👍12👎8❤3🔥1
https://x.com/chatgpt21/status/1997111654346006898
Там ARC-AGI-2 уже сломали
Обидно: моя глава книги про ллм бенчмарки только что устарела
Это вообще забавно. Я сейчас редактировал первую главу книги и нашел там такую фразу: "На данный момент GPT-4 является самым сильным диалоговым ассистентом." А ведь это было всего год назад😐
Там ARC-AGI-2 уже сломали
Обидно: моя глава книги про ллм бенчмарки только что устарела
Это вообще забавно. Я сейчас редактировал первую главу книги и нашел там такую фразу: "На данный момент GPT-4 является самым сильным диалоговым ассистентом." А ведь это было всего год назад
Please open Telegram to view this post
VIEW IN TELEGRAM
Я познакомился в Лиссабоне с Сережей и Ксюшей, основателями Fermatix AI. А так же их ребенком! Меня даже сфоткали.
Сейчас они делают большой проект: собирают данные, чтобы улучшать LLM для кода. Их особенно интересуют хорошие приватные репозитории и они готовы платить за них деньги.
Вы можете продать ребятам приватный репозиторий с качественным кодом. Неудавшиеся стартапы, внутренние разработки, мертвые проекты: всё подойдет. При этом все права на код остаются у вас. Fermatix получает ограниченную лицензию для обучения моделей, без права использовать код как продукт.
Качество важно, поэтому интересуют репозитории от 1000 строк кода. Не вайбкодинг. Расценки зависят от конкретного проекта, но можно ориентироваться на 1-1,5 рубля за строчку кода. Большие и сложные проекты готовы обговаривать отдельно.
Отправить заявку можно через эту форму. Дальше с вами свяжутся. Если у вас всё сложится, то я получу с этого копеечку👀
Сейчас они делают большой проект: собирают данные, чтобы улучшать LLM для кода. Их особенно интересуют хорошие приватные репозитории и они готовы платить за них деньги.
Вы можете продать ребятам приватный репозиторий с качественным кодом. Неудавшиеся стартапы, внутренние разработки, мертвые проекты: всё подойдет. При этом все права на код остаются у вас. Fermatix получает ограниченную лицензию для обучения моделей, без права использовать код как продукт.
Качество важно, поэтому интересуют репозитории от 1000 строк кода. Не вайбкодинг. Расценки зависят от конкретного проекта, но можно ориентироваться на 1-1,5 рубля за строчку кода. Большие и сложные проекты готовы обговаривать отдельно.
Отправить заявку можно через эту форму. Дальше с вами свяжутся. Если у вас всё сложится, то я получу с этого копеечку
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ML Underhood
Сегодня вышел техрепорт Alice AI
Ниже — краткий обзор ключевых технических решений и результатов, а подробнее обо всех деталях, экспериментах и выводах можно почитать в полной версии отчёта на Хабре.
Alice AI LLM
Alice AI LLM Search
Alice AI ART
Alice AI VLM
Инфраструктура инференса
ML Underhood
Ниже — краткий обзор ключевых технических решений и результатов, а подробнее обо всех деталях, экспериментах и выводах можно почитать в полной версии отчёта на Хабре.
Alice AI LLM
На этапе претрейна улучшили качество данных: фильтрация и аугментация повысили фактологичность ответов (+4–7% на внутреннем бенчмарке). Также собрали специализированные данные по школьным предметам, что дало прирост на образовательных задачах — модель обошла конкурентов по истории, литературе, математике и русскому языку. Усилили навыки программирования и математики за счёт алгоритмических и кодовых данных (+4,5 п.п. на LiveCodeBench). В alignment-фазе перешли к единому RLHF-пайплайну с мультиаспектным ревордом (полезность, фактологичность и др.) вместо одного «суперсигнала».
Alice AI LLM Search
Пайплайн объединяет планировщик поисковых запросов, фильтрацию и ранжирование результатов и генерацию ответа, а также поддерживает мультимодальные источники — тексты, изображения, видео и геоданные — для более полных ответов. Для обучения использовали RLHF с мультиаспектными ревордами вместо одной метрики, что упростило оценку сложных ответов. В RL-тренировке перешли к онлайн-методу GRPO, сократили этапы обучения, повысили эффективность GPU и в итоге улучшили полезность и актуальность ответов.
Alice AI ART
Обучающий датасет проанализировали с помощью Alice AI VLM, извлекли структурированные JSON-описания изображений и выявили дисбалансы в данных. На основе этого датасет для файнтюна переработали и дополнили недостающими категориями запросов, чтобы лучше соответствовать реальным пользовательским сценариям. Архитектура модели сделана двухступенчатой: на первом этапе формируется общая композиция изображения, на втором — прорабатываются высокочастотные детали. Дополнительно обучили отдельный «рефразер» — компактную LLM, которая преобразует сырые пользовательские промпты в детализированное описание сцены, сохраняя исходный смысл перед генерацией.
Alice AI VLM
Объём данных претрейна увеличили с 400 до 600 млрд токенов и расширили контекст до 32 тыс. Обновили OCR-датасет, улучшив качество чтения текста с изображений, включая рукописный, и описание визуального контента. VLM тесно интегрирован с текстовой LLM и обучается с теми же RLHF-подходами. Дополнительно в систему добавлен специализированный VLM-«решатель» для задач, требующих глубокой визуально-математической экспертизы.
Инфраструктура инференса
Инференс оптимизировали, повторно использовав KV-кэш для одинаковых частей промпта. Также помогла полная FP8-квантизация весов, активаций и KV-кэша. За счёт этого объём KV-кэша сократился почти вдвое. Дополнительно внедрили спекулятивное декодирование EAGLE-3, повысив пропускную способность генерации.
В результате новый инференс-стек обеспечивает около 5,8× ускорение по сравнению с BF16 и примерно 1,3× относительно лучших открытых решений, что позволило достичь целевых показателей скорости.
ML Underhood
🔥19 16❤12👎10👍7🤔2
Кстати на тему техрепорта Alice AI вчера разгорелся неожиданно активный срач спор (в очень узких кругах тех кому не все равно).
Яндекс обучил Alice AI на основе Qwen3-235B: инициализировали базовой моделью, затем сделали несколько этапов обучения поверх. В том числе этап где они тренировали в unsupervised режиме на своём большом корпусе. Всё это подробно описано в техрепорте. Который, кстати, очень подробный и в целом классный. В целом, ну и молодцы: использовали рабочий и эффективный подход.
В общем Яндекс назвал первый этап обучения pretrain, админ LDT назвал это "дотюнили квен" и понеслось: 100+ комментариев про то, можно ли такое называть pretrain или нет, рофельные видео шары, мемные пасты.
Я считаю так: некорректно называть обучение с весов базовой модели pretraining. Так же не стоит называть то, что сделала команда Alice AI "finetuning", чтобы не путать с дообучением LoRA на 1000 инструкт примерах и всем прочим. Устоявшийся в литературе способ называть "мы взяли base checkpoint и обучали его дальше на своём корпусе" это continual pretraining.
Я вообще удивляюсь, что кому-то важно "свой претрен" или нет. Преимуществ у "своего претрена" примерно ноль. Какой-то спор про термины на которые абсолютно всем пользователям всё равно (буквально всем кроме сотрудников Сбера). Давайте лучше читать техрепорт, удивляться высоким ценам на API новой модели и всё такое прочее
Яндекс обучил Alice AI на основе Qwen3-235B: инициализировали базовой моделью, затем сделали несколько этапов обучения поверх. В том числе этап где они тренировали в unsupervised режиме на своём большом корпусе. Всё это подробно описано в техрепорте. Который, кстати, очень подробный и в целом классный. В целом, ну и молодцы: использовали рабочий и эффективный подход.
В общем Яндекс назвал первый этап обучения pretrain, админ LDT назвал это "дотюнили квен" и понеслось: 100+ комментариев про то, можно ли такое называть pretrain или нет, рофельные видео шары, мемные пасты.
Я считаю так: некорректно называть обучение с весов базовой модели pretraining. Так же не стоит называть то, что сделала команда Alice AI "finetuning", чтобы не путать с дообучением LoRA на 1000 инструкт примерах и всем прочим. Устоявшийся в литературе способ называть "мы взяли base checkpoint и обучали его дальше на своём корпусе" это continual pretraining.
Я вообще удивляюсь, что кому-то важно "свой претрен" или нет. Преимуществ у "своего претрена" примерно ноль. Какой-то спор про термины на которые абсолютно всем пользователям всё равно (буквально всем кроме сотрудников Сбера). Давайте лучше читать техрепорт, удивляться высоким ценам на API новой модели и всё такое прочее
👍57 33❤12🔥5
Эммм, я тут короче обогнал Gemini 2.5 Flash Lite.
Давно ничего не писал про пет проект anything2json потому что мало им занимался и похвастаться было нечем. Все модели получались не очень: по бенчмарку неплохо (95% верных ответов), а когда тыкаю руками чаще всего небольшое изменение схемы или входа ломает результат.
Поэтому я доделывал бенчмарк, чтобы он учитывал это. Теперь каждый семпл сначала прогоняется как есть, затем несколько раз модифицируется. Например, дропаем из схемы json один ключ, снова прогоняем пример через модель, смотрим: она дропнула ключ из выхода, как полагается, или нет? Так мы тестируем способна ли модель действительно понимать, что куда конвертирует.
Прогнал на этом бенче свою последнюю модель, кроху Smollm2 135M, а так же Gemini 2.5 Flash Lite с ризонингом и без.
Короче, внезапно:
1. Моя модель правильно обрабатывает 94.1% семплов (т.е. верно ответила при всех модификациях) против 89.4% у Gemini.
2. Моя кроха меньше галлюцинирует (diff_chars_added показывает сколько лишних символов в ответе в среднем, у меня меньше).
3. Моя малышка гораздо реже выдает невалидные json или json не по схеме.
4. При этом моя малютка почти в 10 раз быстрее.
В общем, чтобы побить фронтир модели главное самому сделать бенчмарк 👆
Если серьезно, то выглядит даже слишком хорошо, чтобы быть правдой, поэтому буду расследовать. Но пока что радуемся
Давно ничего не писал про пет проект anything2json потому что мало им занимался и похвастаться было нечем. Все модели получались не очень: по бенчмарку неплохо (95% верных ответов), а когда тыкаю руками чаще всего небольшое изменение схемы или входа ломает результат.
Поэтому я доделывал бенчмарк, чтобы он учитывал это. Теперь каждый семпл сначала прогоняется как есть, затем несколько раз модифицируется. Например, дропаем из схемы json один ключ, снова прогоняем пример через модель, смотрим: она дропнула ключ из выхода, как полагается, или нет? Так мы тестируем способна ли модель действительно понимать, что куда конвертирует.
Прогнал на этом бенче свою последнюю модель, кроху Smollm2 135M, а так же Gemini 2.5 Flash Lite с ризонингом и без.
Короче, внезапно:
1. Моя модель правильно обрабатывает 94.1% семплов (т.е. верно ответила при всех модификациях) против 89.4% у Gemini.
2. Моя кроха меньше галлюцинирует (diff_chars_added показывает сколько лишних символов в ответе в среднем, у меня меньше).
3. Моя малышка гораздо реже выдает невалидные json или json не по схеме.
4. При этом моя малютка почти в 10 раз быстрее.
В общем, чтобы побить фронтир модели главное самому сделать бенчмарк 👆
Если серьезно, то выглядит даже слишком хорошо, чтобы быть правдой, поэтому буду расследовать. Но пока что радуемся
Обязательный черри-пик: наш инновационный метод vs их жалкий автокомплит
Черрипикнуть было непросто. На поверку оказалось, что большая часть ошибок у Gemini 2.5 Flash Lite Thinking не критичная, но мой бенч их считает. Например, модель поставила null там, где должна была "". В реальных применениях скорее всего простительно. Ещё часто модель выдает немного невалидный json, но контент верный, так что это лечится structured outputs.
Но даже паритет с такой моделью меня очень удивляет, я думал Smollm2 просто не потянет задачу
Черрипикнуть было непросто. На поверку оказалось, что большая часть ошибок у Gemini 2.5 Flash Lite Thinking не критичная, но мой бенч их считает. Например, модель поставила null там, где должна была "". В реальных применениях скорее всего простительно. Ещё часто модель выдает немного невалидный json, но контент верный, так что это лечится structured outputs.
Но даже паритет с такой моделью меня очень удивляет, я думал Smollm2 просто не потянет задачу
❤37 22