Machinelearning

📌

Autodata: ИИ-агенты теперь сами себе дата-саентисты

Проект RAM Марка Цукерберга замахнулся решить проблему качества синтетических данных для обучения, выкатив концепт фреймворка Autodata.

Идея - превращать компьют, который тратится на инференс, в качественные данные для тренировки. Агенты крутятся в цикле, гоняют LLM по много раз, и вместо одного ответа пользователю получается отфильтрованный датасет для обучения следующего поколения моделей.

Схема строится на архитектуре Agentic Self-Instruct, где главная LLM-ка дирижирует командой из четырех субагентов:

🟢

Challenger: читает исходный документ (например, научную статью), генерит сложный вопрос, эталонный ответ и рубрику для оценки;

🟢

Слабая модель: пытается решить эту задачу. По задумке, она должна зафейлиться;

🟢

Сильная модель: тоже решает задачу, но уже обязана с ней справиться;

🟢

Судья: прогоняет ответы обеих моделей по критериям рубрики.

Фишка в том, что система работает в замкнутом цикле. Если задача оказалась слишком легкой (обе модели справились) или непроходимой (обе слились), главный агент анализирует репорты судьи и заставляет Challenger'а переписать промпт, чтобы создать идеальный хардкорный пример, который разделяет слабую и сильную модели.

Но на этом умные люди Марка не остановились и прикрутили мета-оптимизацию как внешний цикл. Система буквально читает логи своих падений и переписывает собственный код.

Например, мета-оптимизатор сам допёр, что отрицательные веса в рубриках работают как баг — они рушили скоринг сильной модели и съедали разрыв со слабой. И сам же выпилил их из кода, оставив только положительные баллы.

🟡

Эксперименты

Прогнали 10 тыс научных статей через пайплайн, вытянув 2117 качественных QA-пар.

Если использовать стандартный CoT в один шот, то разрыв между моделями всего 1.9 п.п. (задачи слишком легкие). После агентного цикла Autodata разница улетела до 34 п.п. (слабая модель набирает 43.7%, сильная — 77.8%).

Сделали дотюн слабой Qwen-3.5-4B и обучили через GRPO на собранных данных. Модель, проглотившая датасет Autodata, заметно обходит ту, что училась на базовой синтетике.

Мета-оптимизация (когда агент правил свой же код) подняла долю успешных генераций с 12.8% до 42.4% за 233 итерации.

🟡

Звучит круто, но...

Во-первых, 5 LLM-ролей в цикле до успешного результата — это дорого (главный агент + Challenger + слабая + сильная + Судья; на практике их крутили на трех моделях, но оркестрация всё равно жирная).

Во-вторых, исследователи поймали агентов на читерстве: чтобы слабая модель гарантированно провалила тест, агент втихую менял ей промпт, добавляя инструкцию "будь слабой" классика.

Также генерируемые вопросы часто переобучаются на конкретные цифры из статей, а не на проверку фундаментальной логики.

Ну и если честно: максимальный pass rate в 42.4% даже после авто-патчей намекает, что генерить реально сложные задачи все еще очень тяжело.

Так что заменить кожаных дата-саентистов полностью пока не выйдет, но работа интересная и начало положено: сложный сетапы приходят на смену слепой генерации синтетики.

Ждем полноценный пейпер и опенсорс.

🟡

Блогпост

#AI #ML #Datasets #Autodata #RAMTeam

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔75⚡54🔥29❤16👍15💯12👏9🤣4🤨2

17.3K views12:03

Machinelearning

📊Начинающим аналитикам часто не хватает не мотивации, а системы. SQL вроде знаком, Python уже открывали, отчёты делали, но уверенной работы с данными пока нет.

Курс Нетологии «Аналитик данных» помогает собрать навыки в рабочую связку. Вы разберёте получение данных через SQL, очистку и обработку данных на Python, статистику, проверку гипотез, визуализацию, А/Б-тесты, большие данные и Power BI.

В программе до 8 проектов и больше 20 задач для портфолио, разбор тестовых заданий крупных ИТ-компаний, поддержка ментора на дипломе и блок по применению ИИ в аналитике.

Курс подойдёт тем, кто уже начал работать с данными и хочет увереннее двигаться к следующему уровню задач.

Купите курс в мае со скидкой 50% по промокоду
IT50MAY.

👉Подробнее

Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5xpchez

👍30❤10🤩8👏6🤣6😐2🔥1🤔1

16.7K views13:00

Machinelearning

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

🙂

POV: Мы добавили пару ИИ-фич в наш продукт

Релиз:

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👨‍💻114😁60😍25😎18👍12👏9😭5🔥4🤣3❤2🤝2

18K views14:10

Machinelearning

✔️

Google расширила File Search в Gemini API: 3 апдейта для RAG

File Search получил 3 обновления, ориентированных на разработчиков RAG-систем: совместную обработку текста и изображений, пользовательские метаданные и постраничные цитаты.

Мультимодальный поиск работает на модели эмбеддингов Gemini Embedding 2.

File Search теперь индексирует изображения и текст в общем пространстве, что позволяет агентам находить визуальные ассеты по описанию на естественном языке (например, по эмоциональному тону или визуальному стилю, а не только по именам файлов и ключевым словам).

Пользовательские метаданные крепятся к файлам в формате "ключ: значение". Фильтрация по этим тегам на этапе запроса сужает выборку до нужного среза данных и снижает шум от нерелевантных документов.

Постраничные цитаты привязывают ответ модели к конкретной странице исходного PDF. Это даёт точку для верификации источника без ручного поиска по документу.

Подробности и примеры кода - в developer guide и документации Gemini API.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤓69👏32❤25👍24🎉8🔥6

17.1K views20:16

✔️

Anthropic открыла инструмент перевода активаций модели в читаемый текст

Компания представила систему прямой трансляции активаций ИИ-моделей в естественный язык - Natural Language Autoencoder (NLA).

В отличие от SAE, NLA обучается через игру двух моделей с RL: первая переводит активации в текст, вторая пытается восстановить исходное состояние по описанию.

При симуляции кибератак Claude внешне соглашался сотрудничать, но NLA зафиксировал, что в 16% случаев модель понимала, что её тестируют. На SWE-bench "понимание среды" проявлялось в 26% прогонов.

Ограничения: высокая вычислительная стоимость и риск галлюцинаций исключают мониторинг длинных контекстов.

Метод применялся в аудите Claude Mythos Preview и Opus 4.6 перед релизом. Код и часть весов опубликованы на GitHub. Демо можно посмотреть на Neuronpedia.
anthropic.com

✔️

Ai2 разработал MoE-модель нового типа

Институт Аллена представил EMO - MoE-модель с семантической маршрутизацией токенов.

В стандартных MoE токены маршрутизируются независимо и эксперты группируются вокруг поверхностных языковых паттернов. В EMO токены одного документа направляются в общий пул модулей: в результате сеть самостоятельно распределяет экспертов по смысловым доменам без разметки.

Это открывает гибкий деплой: ненужные эксперты отсекаются под конкретную задачу. Одна базовая EMO заменяет десятки доменных моделей. Веса и код опубликованы в открытом доступе.
allenai.org

✔️

Perplexity выпустила автономного агента для macOS

Perplexity выпустила macOS-приложение Personal Computer - автономный агент с прямым доступом к локальным файлам, приложениям, интернету и серверам компании.

В связке с браузером Perplexity Comet агент управляет веб-инструментами без настройки отдельных коннекторов. Задачи можно запускать удалённо с iPhone, пока данные и вычисления остаются на домашнем или рабочем Mac. Для always-on-сценариев рекомендован выделенный Mac mini.

Приложение уже доступно для скачивания. Старый десктопный клиент Perplexity будет помечен как устаревший в ближайшие недели.
PerplexityAI в сети Х

✔️

Genesis AI выходит на рынок робототехники полного цикла

Франко-американский стартап представил базовую модель для управления роботами GENE-26.5 и собственную человекоразмерную роботизированную руку.

Модель совместима как с изделиями Genesis, так и с роботами сторонних производителей. Рука повторяет анатомию человеческой кисти, что позволяет напрямую переносить данные о движениях оператора в обучающий датасет. В демо модель выполняет нарезку помидоров, разбивание яиц, сборку кубика Рубика и игру на пианино.

Для сбора данных разработана телеметрическая перчатка: по данным компании, она в 100Х дешевле аналогов и в 5 раз эффективнее традиционной телеоперации. Перчатку можно носить в рабочих условиях, превращая ежедневные операции в обучающий датасет.
genesis.ai

✔️

Cloudflare сокращает 20% штата

Cloudflare объявила о первом массовом сокращении более 1100 сотрудников (~20% штата) за 16-летнюю историю компании. На фоне рекордных результатов по выручке в первом квартале 2026 года под увольнение попал саппорт во всех подразделениях и регионах.

Руководители объяснили решение переходом на агентно-ориентированную операционную модель: внутреннее использование ИИ в Cloudflare выросло более чем на 600% за последние 3 месяца.

Пакет выходных выплат: зарплата и медстраховка до конца 2026 года, плюс вестинг акций продлён до 15 августа.
cloudflare.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔32👍16❤12👏6🔥4💯2🤬1🌭1

15.1K views08:55

Machinelearning

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Когда у Клода закончились токены

@ai_machinelearning_big_data

😁161🤣59🤔42👏13🤬7❤6🔥6👍4😢3

16.3K views10:54

Machinelearning

🌟

Zyphra выложила чекпоит ZAYA1-74B-Preview

Через 2 дня после релиза ZAYA1-8B Zyphra опубликовала превью более крупной модели ZAYA1-74B.

Это промежуточная веха: модель прошла претрейн, мидтрейн и расширение контекста, но RL-постобучения и инстракт-тюнинга на ней ещё не делали.

Zyphra ставит ZAYA1-74B-Preview рядом с полноценными моделями и приводит 2 метрики - avg@1 и pass@4.
По pass@1 модель ожидаемо отстаёт, а pass@4 уже подбирается к лидерам. Zyphra трактует это как сигнал того, что в базовой модели достаточно разнообразия и способностей, чтобы RL вытащил их в финальные цифры.

В подтверждение этой логики Zyphra ссылается на опыт ZAYA1-8B

Там между чекпойнтами с похожими pass@k и финальной версией разрыв оказался большим: +20.8 на AIME'26, +32.4 на HMMT'26, +10.0 на LiveCodeBench-v6, +11.7 на GPQA-Diamond, +19.0 на IFEval.

🟡

Внутри 74B-Preview масштабированная 8B

То же CCA-внимание, но каждый второй слой заменён на внимание со скользящим окном размером 4K.

Со слов Zyphra, это почти вдвое сокращает KV-кеш без потерь на длинном контексте. Чтобы трюк сработал, при расширении контекста в слоях со скользящим окном сохранили исходное основание RoPE, а у глобальных - растянули.

🟡

Контекст наращивали поэтапно: 32k → 128k → 256k.

Претрейн занял около 15T токенов в две фазы: сначала общие веб-данные, затем больше математики, кода и науки. Мидтрейн - 3 фазы примерно по 1T токенов: расширение контекста, ввод reasoning-трасс и фокус на агентных задачах.

🟡

Агентика

На ZAYA1-8B этот режим работал слабее, поэтому в корпус 74B-Preview добавили больше агентного материала. Первые цифры на τ-bench Zyphra описывает как многообещающие.

Авторы при этом оговариваются, что pass@k плохо отражает многошаговые сценарии, там важнее следование инструкциям, удержание состояния и устойчивость к промежуточным ошибкам, и значительная часть этих способностей появляется только после агентного RL.

Старшую ZAYA1, кстати, тоже обучали исключительно на AMD . Полноценный RL уже идёт, финальную версию 74B Zyphra планирует выпустить в ближайшие недели.

📌Лицензирование: Apache 2.0 License.

🟡

Блогпост

🟡

Модель

@ai_machinelearning_big_data
#AI #ML #LLM #ZAYA1 #ZYPHRA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20🤩14❤13🔥9🤔1

9.68K views18:39

About

Blog

Apps

Platform