Проект RAM Марка Цукерберга замахнулся решить проблему качества синтетических данных для обучения, выкатив концепт фреймворка Autodata.
Идея - превращать компьют, который тратится на инференс, в качественные данные для тренировки. Агенты крутятся в цикле, гоняют LLM по много раз, и вместо одного ответа пользователю получается отфильтрованный датасет для обучения следующего поколения моделей.
Схема строится на архитектуре Agentic Self-Instruct, где главная LLM-ка дирижирует командой из четырех субагентов:
Фишка в том, что система работает в замкнутом цикле. Если задача оказалась слишком легкой (обе модели справились) или непроходимой (обе слились), главный агент анализирует репорты судьи и заставляет Challenger'а переписать промпт, чтобы создать идеальный хардкорный пример, который разделяет слабую и сильную модели.
Но на этом умные люди Марка не остановились и прикрутили мета-оптимизацию как внешний цикл. Система буквально читает логи своих падений и переписывает собственный код.
Например, мета-оптимизатор сам допёр, что отрицательные веса в рубриках работают как баг — они рушили скоринг сильной модели и съедали разрыв со слабой. И сам же выпилил их из кода, оставив только положительные баллы.
Прогнали 10 тыс научных статей через пайплайн, вытянув 2117 качественных QA-пар.
Если использовать стандартный CoT в один шот, то разрыв между моделями всего 1.9 п.п. (задачи слишком легкие). После агентного цикла Autodata разница улетела до 34 п.п. (слабая модель набирает 43.7%, сильная — 77.8%).
Сделали дотюн слабой Qwen-3.5-4B и обучили через GRPO на собранных данных. Модель, проглотившая датасет Autodata, заметно обходит ту, что училась на базовой синтетике.
Мета-оптимизация (когда агент правил свой же код) подняла долю успешных генераций с 12.8% до 42.4% за 233 итерации.
Во-первых, 5 LLM-ролей в цикле до успешного результата — это дорого (главный агент + Challenger + слабая + сильная + Судья; на практике их крутили на трех моделях, но оркестрация всё равно жирная).
Во-вторых, исследователи поймали агентов на читерстве: чтобы слабая модель гарантированно провалила тест, агент втихую менял ей промпт, добавляя инструкцию "будь слабой"
Также генерируемые вопросы часто переобучаются на конкретные цифры из статей, а не на проверку фундаментальной логики.
Ну и если честно: максимальный pass rate в 42.4% даже после авто-патчей намекает, что генерить реально сложные задачи все еще очень тяжело.
Так что заменить кожаных дата-саентистов полностью пока не выйдет, но работа интересная и начало положено: сложный сетапы приходят на смену слепой генерации синтетики.
Ждем полноценный пейпер и опенсорс.
#AI #ML #Datasets #Autodata #RAMTeam
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔75⚡54🔥29❤16👍15💯12👏9🤣4🤨2
📊Начинающим аналитикам часто не хватает не мотивации, а системы. SQL вроде знаком, Python уже открывали, отчёты делали, но уверенной работы с данными пока нет.
Курс Нетологии «Аналитик данных» помогает собрать навыки в рабочую связку. Вы разберёте получение данных через SQL, очистку и обработку данных на Python, статистику, проверку гипотез, визуализацию, А/Б-тесты, большие данные и Power BI.
В программе до 8 проектов и больше 20 задач для портфолио, разбор тестовых заданий крупных ИТ-компаний, поддержка ментора на дипломе и блок по применению ИИ в аналитике.
Курс подойдёт тем, кто уже начал работать с данными и хочет увереннее двигаться к следующему уровню задач.
Купите курс в мае со скидкой 50% по промокоду
IT50MAY.
👉Подробнее
Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5xpchez
Курс Нетологии «Аналитик данных» помогает собрать навыки в рабочую связку. Вы разберёте получение данных через SQL, очистку и обработку данных на Python, статистику, проверку гипотез, визуализацию, А/Б-тесты, большие данные и Power BI.
В программе до 8 проектов и больше 20 задач для портфолио, разбор тестовых заданий крупных ИТ-компаний, поддержка ментора на дипломе и блок по применению ИИ в аналитике.
Курс подойдёт тем, кто уже начал работать с данными и хочет увереннее двигаться к следующему уровню задач.
Купите курс в мае со скидкой 50% по промокоду
IT50MAY.
👉Подробнее
Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5xpchez
👍30❤10🤩8👏6🤣6😐2🔥1🤔1
Please open Telegram to view this post
VIEW IN TELEGRAM
👨💻114😁60😍25😎18👍12👏9😭5🔥4🤣3❤2🤝2
File Search получил 3 обновления, ориентированных на разработчиков RAG-систем: совместную обработку текста и изображений, пользовательские метаданные и постраничные цитаты.
Мультимодальный поиск работает на модели эмбеддингов Gemini Embedding 2.
File Search теперь индексирует изображения и текст в общем пространстве, что позволяет агентам находить визуальные ассеты по описанию на естественном языке (например, по эмоциональному тону или визуальному стилю, а не только по именам файлов и ключевым словам).
Пользовательские метаданные крепятся к файлам в формате "ключ: значение". Фильтрация по этим тегам на этапе запроса сужает выборку до нужного среза данных и снижает шум от нерелевантных документов.
Постраничные цитаты привязывают ответ модели к конкретной странице исходного PDF. Это даёт точку для верификации источника без ручного поиска по документу.
Подробности и примеры кода - в developer guide и документации Gemini API.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓69👏32❤25👍24🎉8🔥6
Media is too big
VIEW IN TELEGRAM
Компания представила систему прямой трансляции активаций ИИ-моделей в естественный язык - Natural Language Autoencoder (NLA).
В отличие от SAE, NLA обучается через игру двух моделей с RL: первая переводит активации в текст, вторая пытается восстановить исходное состояние по описанию.
При симуляции кибератак Claude внешне соглашался сотрудничать, но NLA зафиксировал, что в 16% случаев модель понимала, что её тестируют. На SWE-bench "понимание среды" проявлялось в 26% прогонов.
Ограничения: высокая вычислительная стоимость и риск галлюцинаций исключают мониторинг длинных контекстов.
Метод применялся в аудите Claude Mythos Preview и Opus 4.6 перед релизом. Код и часть весов опубликованы на GitHub. Демо можно посмотреть на Neuronpedia.
anthropic.com
Институт Аллена представил EMO - MoE-модель с семантической маршрутизацией токенов.
В стандартных MoE токены маршрутизируются независимо и эксперты группируются вокруг поверхностных языковых паттернов. В EMO токены одного документа направляются в общий пул модулей: в результате сеть самостоятельно распределяет экспертов по смысловым доменам без разметки.
Это открывает гибкий деплой: ненужные эксперты отсекаются под конкретную задачу. Одна базовая EMO заменяет десятки доменных моделей. Веса и код опубликованы в открытом доступе.
allenai.org
Perplexity выпустила macOS-приложение Personal Computer - автономный агент с прямым доступом к локальным файлам, приложениям, интернету и серверам компании.
В связке с браузером Perplexity Comet агент управляет веб-инструментами без настройки отдельных коннекторов. Задачи можно запускать удалённо с iPhone, пока данные и вычисления остаются на домашнем или рабочем Mac. Для always-on-сценариев рекомендован выделенный Mac mini.
Приложение уже доступно для скачивания. Старый десктопный клиент Perplexity будет помечен как устаревший в ближайшие недели.
PerplexityAI в сети Х
Франко-американский стартап представил базовую модель для управления роботами GENE-26.5 и собственную человекоразмерную роботизированную руку.
Модель совместима как с изделиями Genesis, так и с роботами сторонних производителей. Рука повторяет анатомию человеческой кисти, что позволяет напрямую переносить данные о движениях оператора в обучающий датасет. В демо модель выполняет нарезку помидоров, разбивание яиц, сборку кубика Рубика и игру на пианино.
Для сбора данных разработана телеметрическая перчатка: по данным компании, она в 100Х дешевле аналогов и в 5 раз эффективнее традиционной телеоперации. Перчатку можно носить в рабочих условиях, превращая ежедневные операции в обучающий датасет.
genesis.ai
Cloudflare объявила о первом массовом сокращении более 1100 сотрудников (~20% штата) за 16-летнюю историю компании. На фоне рекордных результатов по выручке в первом квартале 2026 года под увольнение попал саппорт во всех подразделениях и регионах.
Руководители объяснили решение переходом на агентно-ориентированную операционную модель: внутреннее использование ИИ в Cloudflare выросло более чем на 600% за последние 3 месяца.
Пакет выходных выплат: зарплата и медстраховка до конца 2026 года, плюс вестинг акций продлён до 15 августа.
cloudflare.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔32👍16❤12👏6🔥4💯2🤬1🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
😁161🤣59🤔42👏13🤬7❤6🔥6👍4😢3
Через 2 дня после релиза ZAYA1-8B Zyphra опубликовала превью более крупной модели ZAYA1-74B.
Это промежуточная веха: модель прошла претрейн, мидтрейн и расширение контекста, но RL-постобучения и инстракт-тюнинга на ней ещё не делали.
Zyphra ставит ZAYA1-74B-Preview рядом с полноценными моделями и приводит 2 метрики - avg@1 и pass@4.
По pass@1 модель ожидаемо отстаёт, а pass@4 уже подбирается к лидерам. Zyphra трактует это как сигнал того, что в базовой модели достаточно разнообразия и способностей, чтобы RL вытащил их в финальные цифры.
В подтверждение этой логики Zyphra ссылается на опыт ZAYA1-8B
Там между чекпойнтами с похожими pass@k и финальной версией разрыв оказался большим: +20.8 на AIME'26, +32.4 на HMMT'26, +10.0 на LiveCodeBench-v6, +11.7 на GPQA-Diamond, +19.0 на IFEval.
То же CCA-внимание, но каждый второй слой заменён на внимание со скользящим окном размером 4K.
Со слов Zyphra, это почти вдвое сокращает KV-кеш без потерь на длинном контексте. Чтобы трюк сработал, при расширении контекста в слоях со скользящим окном сохранили исходное основание RoPE, а у глобальных - растянули.
Претрейн занял около 15T токенов в две фазы: сначала общие веб-данные, затем больше математики, кода и науки. Мидтрейн - 3 фазы примерно по 1T токенов: расширение контекста, ввод reasoning-трасс и фокус на агентных задачах.
На ZAYA1-8B этот режим работал слабее, поэтому в корпус 74B-Preview добавили больше агентного материала. Первые цифры на τ-bench Zyphra описывает как многообещающие.
Авторы при этом оговариваются, что pass@k плохо отражает многошаговые сценарии, там важнее следование инструкциям, удержание состояния и устойчивость к промежуточным ошибкам, и значительная часть этих способностей появляется только после агентного RL.
Старшую ZAYA1, кстати, тоже обучали исключительно на AMD . Полноценный RL уже идёт, финальную версию 74B Zyphra планирует выпустить в ближайшие недели.
@ai_machinelearning_big_data
#AI #ML #LLM #ZAYA1 #ZYPHRA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🤩14❤13🔥9🤔1