Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
RL не развивает потенциал рассуждений LLM (by Tsinghua)
RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.
Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.
Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!
Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.
Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.
Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.
Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.
Статья, GitHub
RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.
Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.
Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!
Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.
Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.
Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.
Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.
Статья, GitHub
🔥27👍12😨5❤3
ruCoIR 🚀
Перевели на русский некоторые задания из бенчмарка CoIR. Бенчмарк CoIR оценивает способности моделей эмбеддеров в задачу поиска text to code, code to text и code to code. Взяли задания там где есть текст. Переводили с помощью модели phi-4.
Перевели часть заданий. Этого достаточно чтобы ранжировать модели по способностям поиска кода по русскому тексту. В таблице замеры различных эмбеддеров, которые умеют работать с русским языком.
Модели multilingual-e5-large и multilingual-e5-large-instruct выглядят очень даже не плохо учитывая их размер.
HF dataset
GitHub
Перевели на русский некоторые задания из бенчмарка CoIR. Бенчмарк CoIR оценивает способности моделей эмбеддеров в задачу поиска text to code, code to text и code to code. Взяли задания там где есть текст. Переводили с помощью модели phi-4.
Перевели часть заданий. Этого достаточно чтобы ранжировать модели по способностям поиска кода по русскому тексту. В таблице замеры различных эмбеддеров, которые умеют работать с русским языком.
Модели multilingual-e5-large и multilingual-e5-large-instruct выглядят очень даже не плохо учитывая их размер.
HF dataset
GitHub
🔥20👍9❤2
🚀🚀🚀 Koda 🚀🚀🚀
Мы запустили Koda! AI сервис для разработчиков с хорошим пониманием русского языка.
Под капотом — лучшие открытые LLM, дообученные на актуальном коде и адаптированные для русского языка, c применением нашего опыта по созданию моделей.
Koda и наши модели бесплатны. Даем 250 запросов на внешние модели после аутентификации через GitHub. В списке моделей есть DeepSeek V3.1, Qwen3 235B и другие. Можете вбить свой токен внешней модели для CodeChat если есть.
Сейчас в beta-тестировании. Выкатили базовые сервисы. Куча фичей ждут своих релизов. Вместе с вами тестируем и улучшаем.
Делитесь вашим опытом использования Koda в нашем сообществе. Ждем ваши вопросы, ошибки, которые встретили, или идеи, как улучшить.
Koda сейчас — это команда энтузиастов, бывших разработчиков и соавторов GigaCode от Сбера, которые хотят сделать программирование более доступным c помощью AI.
Наш лендинг
Плагин для VSCode
Koda сообщество
Мы запустили Koda! AI сервис для разработчиков с хорошим пониманием русского языка.
Под капотом — лучшие открытые LLM, дообученные на актуальном коде и адаптированные для русского языка, c применением нашего опыта по созданию моделей.
Koda и наши модели бесплатны. Даем 250 запросов на внешние модели после аутентификации через GitHub. В списке моделей есть DeepSeek V3.1, Qwen3 235B и другие. Можете вбить свой токен внешней модели для CodeChat если есть.
Сейчас в beta-тестировании. Выкатили базовые сервисы. Куча фичей ждут своих релизов. Вместе с вами тестируем и улучшаем.
Делитесь вашим опытом использования Koda в нашем сообществе. Ждем ваши вопросы, ошибки, которые встретили, или идеи, как улучшить.
Koda сейчас — это команда энтузиастов, бывших разработчиков и соавторов GigaCode от Сбера, которые хотят сделать программирование более доступным c помощью AI.
Наш лендинг
Плагин для VSCode
Koda сообщество
🔥58👏14⚡5🎉3❤2👍1
DeepSeek-R1 доступен в Koda v0.1.6.
Обновили список free trial моделей. Список пополнился обновленной DeepSeek R1 и Devstral от Mistral. DeepSeek R1 демонстрирует метрики на уровне топовых моделей. Используйте ризонинг DeepSeek R1 для ваших самых сложных задач если обычные чат модели не справляются.
Для всех пользователей доступно 250 бесплатных запросов к free trial моделям после аутентификации через GitHub.
Так же в новом релизе мы исправили несколько багов.
Koda сообщество
Плагин для VSCode
Обновили список free trial моделей. Список пополнился обновленной DeepSeek R1 и Devstral от Mistral. DeepSeek R1 демонстрирует метрики на уровне топовых моделей. Используйте ризонинг DeepSeek R1 для ваших самых сложных задач если обычные чат модели не справляются.
Для всех пользователей доступно 250 бесплатных запросов к free trial моделям после аутентификации через GitHub.
Так же в новом релизе мы исправили несколько багов.
Koda сообщество
Плагин для VSCode
🔥16👏6👍4❤1
⚡️Qwen3 Embedding: новые SOTA модели эмбеддeров и реранкеров!
Все модели под apache 2.0 и на всех бенчах в топе.
Вектор эмбеддера снимается с поледнего токена подаваемого текста [EOS]. Для реранкера над последним токеном берем вероятность токена "yes" и "no"и по ним рассчитывается скор наличия ответа на вопрос в документе. Пишут, что использовали LoRa чтобы сохранить и улучшить возможности моделей. Об этом пишут в блоге, но нет упоминания в пейпере.
Обучали в три стадии, как на картинке. На первой стадии так же использовали сами же модели Qwen3 в части генерации текстовых пар вопрос - ответ. На второй стадии использовали хорошо размеченные данные. После мержили лучшие чекпойнты.
Замерили на ruCoIR (понимание на русском кодовых задач). Так же SOTA (последняя таблица на картинках). Вероятно, на ruMTEB тоже в топе будут.
HuggingFace
blog
Paper
GitHub
Все модели под apache 2.0 и на всех бенчах в топе.
Вектор эмбеддера снимается с поледнего токена подаваемого текста [EOS]. Для реранкера над последним токеном берем вероятность токена "yes" и "no"и по ним рассчитывается скор наличия ответа на вопрос в документе. Пишут, что использовали LoRa чтобы сохранить и улучшить возможности моделей. Об этом пишут в блоге, но нет упоминания в пейпере.
Обучали в три стадии, как на картинке. На первой стадии так же использовали сами же модели Qwen3 в части генерации текстовых пар вопрос - ответ. На второй стадии использовали хорошо размеченные данные. После мержили лучшие чекпойнты.
Замерили на ruCoIR (понимание на русском кодовых задач). Так же SOTA (последняя таблица на картинках). Вероятно, на ruMTEB тоже в топе будут.
HuggingFace
blog
Paper
GitHub
❤16🔥11👍8🤔1
🚀 Finam AI Lab!
Друзья, наша команда стала основой Лаборатории искусственного интелекта в финансовой группе «Финам».
Перед нами стоят амбициозные задачи — мы хотим создать модель для области финансов и добиться новых высот в построении ИИ агента, который в каких-то задачах сможет заменить разработчика. Будем заниматься исследованиями и успешные эксперименты максимально быстро катить в жизнь. Также будем делиться с вами нашими результатами.
И да, у нас открыты вакансии. Ищем сильных исследователей, AI дата-инженеров и инференс-инженера. Ссылки на вакансии в комментах.
Пресс-релиз компании
Друзья, наша команда стала основой Лаборатории искусственного интелекта в финансовой группе «Финам».
Перед нами стоят амбициозные задачи — мы хотим создать модель для области финансов и добиться новых высот в построении ИИ агента, который в каких-то задачах сможет заменить разработчика. Будем заниматься исследованиями и успешные эксперименты максимально быстро катить в жизнь. Также будем делиться с вами нашими результатами.
И да, у нас открыты вакансии. Ищем сильных исследователей, AI дата-инженеров и инференс-инженера. Ссылки на вакансии в комментах.
Пресс-релиз компании
🔥19🎉10👏5❤2😁1
Media is too big
VIEW IN TELEGRAM
🔥 Добавили KodaAgent в Koda!
Теперь в Koda можно больше вайбкодить. В версии v0.2.0 появилась агентность. Агентность позволяет дать ИИ больше автономности —теперь он не просто отвечает на вопросы, а может сам взаимодействовать с вашим проектом, понимать контекст глубже и доводить задачи до конца.
Сейчас агентность доступна с 2-мя моделями gemini 2.5 flash и DeepSeek v3 после аутентификации через гитхаб. Наша специализированная модель для агентности появится чуть позже.
В KodaAgent также можно добавить другие модели с вашим API ключом.
Так же в v 0.2.0 обновили модели ембеддера и реранкера. Теперь поиск по проекту и документации более точный.
Koda сообщество
Плагин для VSCode
Теперь в Koda можно больше вайбкодить. В версии v0.2.0 появилась агентность. Агентность позволяет дать ИИ больше автономности —теперь он не просто отвечает на вопросы, а может сам взаимодействовать с вашим проектом, понимать контекст глубже и доводить задачи до конца.
Сейчас агентность доступна с 2-мя моделями gemini 2.5 flash и DeepSeek v3 после аутентификации через гитхаб. Наша специализированная модель для агентности появится чуть позже.
В KodaAgent также можно добавить другие модели с вашим API ключом.
Так же в v 0.2.0 обновили модели ембеддера и реранкера. Теперь поиск по проекту и документации более точный.
Koda сообщество
Плагин для VSCode
🔥22👍9❤5🤣1
Центром топового опенсорса стал Китай.
Кто бы мог предположить это еще год назад. Опенсорс из Китая бьет на метриках многие закрытые модели, в том числе от организации, которая изначально позиционировала себя как open.)
За пару последних недель вышла прям куча моделей с топовыми метриками: Kimi K2, Qwen3 235B instruct, Qwen3-сoder, GLM 4.5. Стоимость инференса этих моделей в несколько раз ниже, чем у GPT4.1 и Claude Sonnet 4. Из общего — все модели c MoE.
Одно дело метрики, а другое дело, что видят глаза, когда решаешь задачи, используя модели. Как-то со времен появления Qwen 2 иногда закрадывалась мысль, что они оверфитнулись на бенчах и показывали хорошие метрики. Несколько последних дней тыкал эти модели в режиме агентности в Koda. Должен признаться, они прям хороши в агентность. DeepSeek или предыдущие версии Qwen-ов были откровенно слабы. А теперь ситуация изменилась, и они на уровне Sonnet 4 работают с тулами при решении кодовых тасок. И да, тестировал я их, взаимодействуя на русском языке. Отдельно хочется про GLM 4.5 сказать. Она лучше других справлялась и часто решала задачи лучше, чем Sonnet 4.
Мы добавили в Koda v0.2.1 GLM 4.5, Qwen3-Coder, Kimi-K2 и Qwen3 235B A22B Instruct для агентности и для чата.
Все перечисленные выше модели уже можно использовать в Koda абсолютно бесплатно.🚀
GLM-4.5 blog
Koda плагин для VSCode
Koda сообщество,
Кто бы мог предположить это еще год назад. Опенсорс из Китая бьет на метриках многие закрытые модели, в том числе от организации, которая изначально позиционировала себя как open.)
За пару последних недель вышла прям куча моделей с топовыми метриками: Kimi K2, Qwen3 235B instruct, Qwen3-сoder, GLM 4.5. Стоимость инференса этих моделей в несколько раз ниже, чем у GPT4.1 и Claude Sonnet 4. Из общего — все модели c MoE.
Одно дело метрики, а другое дело, что видят глаза, когда решаешь задачи, используя модели. Как-то со времен появления Qwen 2 иногда закрадывалась мысль, что они оверфитнулись на бенчах и показывали хорошие метрики. Несколько последних дней тыкал эти модели в режиме агентности в Koda. Должен признаться, они прям хороши в агентность. DeepSeek или предыдущие версии Qwen-ов были откровенно слабы. А теперь ситуация изменилась, и они на уровне Sonnet 4 работают с тулами при решении кодовых тасок. И да, тестировал я их, взаимодействуя на русском языке. Отдельно хочется про GLM 4.5 сказать. Она лучше других справлялась и часто решала задачи лучше, чем Sonnet 4.
Мы добавили в Koda v0.2.1 GLM 4.5, Qwen3-Coder, Kimi-K2 и Qwen3 235B A22B Instruct для агентности и для чата.
Все перечисленные выше модели уже можно использовать в Koda абсолютно бесплатно.
GLM-4.5 blog
Koda плагин для VSCode
Koda сообщество,
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥20❤10😁1🕊1
🚀Большое обновление Koda v0.3.0!
⭐️ Больше запросов: для бесплатных trial-моделей теперь доступно 1 000 запросов. У уже активных пользователей счётчик обнулился🤗
Koda стала умнее в режиме агентности:
🛑 Читает веб-страницы по ссылке — хоть код на GitHub, хоть документацию
🛑 Может “погуглить” ошибку и найти решение
🛑 Анализирует весь проект (если он небольшой) за один вызов: формирует список файлов и описывает классы и методы.
К другим улучшениям можно отнести:
🟣 Новую модель KodaAgent — для режима агентности, доступна даже если 1 000 запросов закончатся 🤘
🟣 Апгрейд KodaCompletion: лучшее качество подсказок и построчный комплишен.
🐞 Исправлено множество багов — спасибо сообществу! Присоединяйтесь и помогайте делать Koda лучше!
🔖 Появилась документация — пользоваться инструментом и настраивать его под себя и проект стало проще.
💬 Теперь у Koda есть свой Telegram-канал @kodacoderu для новостей об инструменте и всем, что с ним связано. Подписывайтесь! А также чат @kodacommunity для вопросов и обсуждений. Вступайте!
📚 Ну и самое главное – первая статья о Koda уже на Хабре: https://habr.com/ru/companies/koda/articles/936906/. Пока обзорная. Позже будут статьи про то, что под капотом и про метрики — все, как мы любим.
Ребят, поддержите Koda! Если у вас есть аккаунт на Хабре — поставьте плюс нашей статье 🙏 Каждое ваше действие помогает сделать так, чтобы о Koda узнало больше разработчиков. Спасибо!
Статья на Хабре
Телеграм-канал Koda
Телеграм-чат Koda
Документация
Плагин в VSCode
Обновленный лендинг Koda
⭐️ Больше запросов: для бесплатных trial-моделей теперь доступно 1 000 запросов. У уже активных пользователей счётчик обнулился
Koda стала умнее в режиме агентности:
К другим улучшениям можно отнести:
🐞 Исправлено множество багов — спасибо сообществу! Присоединяйтесь и помогайте делать Koda лучше!
📚 Ну и самое главное – первая статья о Koda уже на Хабре: https://habr.com/ru/companies/koda/articles/936906/. Пока обзорная. Позже будут статьи про то, что под капотом и про метрики — все, как мы любим.
Ребят, поддержите Koda! Если у вас есть аккаунт на Хабре — поставьте плюс нашей статье 🙏 Каждое ваше действие помогает сделать так, чтобы о Koda узнало больше разработчиков. Спасибо!
Статья на Хабре
Телеграм-канал Koda
Телеграм-чат Koda
Документация
Плагин в VSCode
Обновленный лендинг Koda
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26❤11🎉10
Forwarded from AbstractDL
Gradient Accumulation Is Wasteful
Миф: чем больше батчайз, тем стабильнее и лучше учится LLM. На самом деле всё не так. Авторы этой статьи провели мега-аблейшн по гиперпараметрам претрейна LLM и обнаружили: чем МЕНЬШЕ batch size, тем ШИРЕ диапазон гиперпараметров (lr, оптимизатор, decay-рейты), на которых модель нормально учится. Короче, на маленьком batch даже ванильный SGD (без momentum!) не уступает Adam-у и Adafactor. Валидационный лосс при этом не хуже, а иногда даже лучше, чем на больших batch size.
Самое интересное — авторы показывают, что главная проблема с малельниким батчами — это не какая-то “нестабильность”, а просто неправильно настроенные беты. Особенно β₂ у Adam: его надо менять для разных батчсайзов, фиксируя полупериод затухания второго момента в токенах (по их формуле
Итого: минимальный batch size, при котором не теряется пропускная способность железа — обычно лучший выбор. На малых batch всё проще с тюнингом (широкий диапазон lr/decay/optimizer). И не нужно бояться batch size 1! Gradient accumulation — это почти всегда зло.
PS. Работает не только для претрейна, но и файнтюнинга.
Статья, GitHub
Миф: чем больше батчайз, тем стабильнее и лучше учится LLM. На самом деле всё не так. Авторы этой статьи провели мега-аблейшн по гиперпараметрам претрейна LLM и обнаружили: чем МЕНЬШЕ batch size, тем ШИРЕ диапазон гиперпараметров (lr, оптимизатор, decay-рейты), на которых модель нормально учится. Короче, на маленьком batch даже ванильный SGD (без momentum!) не уступает Adam-у и Adafactor. Валидационный лосс при этом не хуже, а иногда даже лучше, чем на больших batch size.
Самое интересное — авторы показывают, что главная проблема с малельниким батчами — это не какая-то “нестабильность”, а просто неправильно настроенные беты. Особенно β₂ у Adam: его надо менять для разных батчсайзов, фиксируя полупериод затухания второго момента в токенах (по их формуле
β₂ new = β₂^(bs_new / bs), тогда можно обучать LLM вообще на batch size 1 — и всё будет стабильно.Итого: минимальный batch size, при котором не теряется пропускная способность железа — обычно лучший выбор. На малых batch всё проще с тюнингом (широкий диапазон lr/decay/optimizer). И не нужно бояться batch size 1! Gradient accumulation — это почти всегда зло.
PS. Работает не только для претрейна, но и файнтюнинга.
Статья, GitHub
🔥29👍8❤7🤯1
Forwarded from Koda
multi_edit_existing_file для редактирования файлов без apply model.Если заметите баги или захотите предложить новые фичи — пишите, мы всегда на связи 🙏
#release #minor
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍12❤6
Forwarded from Koda
Пожалуй самое приятное – модели KodaAgent и KodaChat стали работать заметно быстрее. Советуем попробовать их в деле!
Помимо этого:
⚠️ Но будьте осторожны! Рекомендуем использовать этот режим в связке с Git'ом. Так вы всегда сможете восстановить предыдущее решение, если агент сделает не то, что вы ожидали.
modify_existing_file с длинными файлами.Если заметите баги или захотите предложить новые фичи — пишите в чат (@kodacommunity), мы всегда на связи 🙏
Koda в VS Code
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍5❤1
Koda CLI превращает терминал в умную рабочую среду. Он помогает писать и понимать код, редактировать файлы, выполнять команды, находить и устранять ошибки, общаясь с моделью на естественном языке.
Основные возможности:
Как и в расширении для VS Code, доступ ко множеству топовых моделей открыт бесплатно на первые 1 000 запросов.
Авторизация — через GitHub. А наша собственная модель KodaAgent доступна без ограничений на количество запросов.
Так же мы выпустили расширения для VS Code и JetBrains IDE для отображения диффов при редактировании агентом файлов в Koda CLI. Удобно просматривать и принимать изменения, которые предлагает агент.
Установка и запуск
Начать работу с Koda CLI очень легко:
🔹 npm install -g @kodadev/koda-cli
🔹Или скачать файл .tgz и установить
Документации пока нету, скоро будет.
Koda CLI сейчас в режиме бета-тестирования.
Ваши вопросы и баги пишите в @kodacommunity.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍9❤6