Please open Telegram to view this post
VIEW IN TELEGRAM
👨💻125😁67😍25😎19👍13👏10😭5🔥4🤣3❤2🤝2
File Search получил 3 обновления, ориентированных на разработчиков RAG-систем: совместную обработку текста и изображений, пользовательские метаданные и постраничные цитаты.
Мультимодальный поиск работает на модели эмбеддингов Gemini Embedding 2.
File Search теперь индексирует изображения и текст в общем пространстве, что позволяет агентам находить визуальные ассеты по описанию на естественном языке (например, по эмоциональному тону или визуальному стилю, а не только по именам файлов и ключевым словам).
Пользовательские метаданные крепятся к файлам в формате "ключ: значение". Фильтрация по этим тегам на этапе запроса сужает выборку до нужного среза данных и снижает шум от нерелевантных документов.
Постраничные цитаты привязывают ответ модели к конкретной странице исходного PDF. Это даёт точку для верификации источника без ручного поиска по документу.
Подробности и примеры кода - в developer guide и документации Gemini API.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓75👏34❤26👍25🎉8🔥6
Media is too big
VIEW IN TELEGRAM
Компания представила систему прямой трансляции активаций ИИ-моделей в естественный язык - Natural Language Autoencoder (NLA).
В отличие от SAE, NLA обучается через игру двух моделей с RL: первая переводит активации в текст, вторая пытается восстановить исходное состояние по описанию.
При симуляции кибератак Claude внешне соглашался сотрудничать, но NLA зафиксировал, что в 16% случаев модель понимала, что её тестируют. На SWE-bench "понимание среды" проявлялось в 26% прогонов.
Ограничения: высокая вычислительная стоимость и риск галлюцинаций исключают мониторинг длинных контекстов.
Метод применялся в аудите Claude Mythos Preview и Opus 4.6 перед релизом. Код и часть весов опубликованы на GitHub. Демо можно посмотреть на Neuronpedia.
anthropic.com
Институт Аллена представил EMO - MoE-модель с семантической маршрутизацией токенов.
В стандартных MoE токены маршрутизируются независимо и эксперты группируются вокруг поверхностных языковых паттернов. В EMO токены одного документа направляются в общий пул модулей: в результате сеть самостоятельно распределяет экспертов по смысловым доменам без разметки.
Это открывает гибкий деплой: ненужные эксперты отсекаются под конкретную задачу. Одна базовая EMO заменяет десятки доменных моделей. Веса и код опубликованы в открытом доступе.
allenai.org
Perplexity выпустила macOS-приложение Personal Computer - автономный агент с прямым доступом к локальным файлам, приложениям, интернету и серверам компании.
В связке с браузером Perplexity Comet агент управляет веб-инструментами без настройки отдельных коннекторов. Задачи можно запускать удалённо с iPhone, пока данные и вычисления остаются на домашнем или рабочем Mac. Для always-on-сценариев рекомендован выделенный Mac mini.
Приложение уже доступно для скачивания. Старый десктопный клиент Perplexity будет помечен как устаревший в ближайшие недели.
PerplexityAI в сети Х
Франко-американский стартап представил базовую модель для управления роботами GENE-26.5 и собственную человекоразмерную роботизированную руку.
Модель совместима как с изделиями Genesis, так и с роботами сторонних производителей. Рука повторяет анатомию человеческой кисти, что позволяет напрямую переносить данные о движениях оператора в обучающий датасет. В демо модель выполняет нарезку помидоров, разбивание яиц, сборку кубика Рубика и игру на пианино.
Для сбора данных разработана телеметрическая перчатка: по данным компании, она в 100Х дешевле аналогов и в 5 раз эффективнее традиционной телеоперации. Перчатку можно носить в рабочих условиях, превращая ежедневные операции в обучающий датасет.
genesis.ai
Cloudflare объявила о первом массовом сокращении более 1100 сотрудников (~20% штата) за 16-летнюю историю компании. На фоне рекордных результатов по выручке в первом квартале 2026 года под увольнение попал саппорт во всех подразделениях и регионах.
Руководители объяснили решение переходом на агентно-ориентированную операционную модель: внутреннее использование ИИ в Cloudflare выросло более чем на 600% за последние 3 месяца.
Пакет выходных выплат: зарплата и медстраховка до конца 2026 года, плюс вестинг акций продлён до 15 августа.
cloudflare.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔36👍19❤15👏6🔥5💯2🤬1🌭1💘1
This media is not supported in your browser
VIEW IN TELEGRAM
😁182🤣64🤔52👏14🔥7🤬7❤6👍4😢3
Через 2 дня после релиза ZAYA1-8B Zyphra опубликовала превью более крупной модели ZAYA1-74B.
Это промежуточная веха: модель прошла претрейн, мидтрейн и расширение контекста, но RL-постобучения и инстракт-тюнинга на ней ещё не делали.
Zyphra ставит ZAYA1-74B-Preview рядом с полноценными моделями и приводит 2 метрики - avg@1 и pass@4.
По pass@1 модель ожидаемо отстаёт, а pass@4 уже подбирается к лидерам. Zyphra трактует это как сигнал того, что в базовой модели достаточно разнообразия и способностей, чтобы RL вытащил их в финальные цифры.
В подтверждение этой логики Zyphra ссылается на опыт ZAYA1-8B
Там между чекпойнтами с похожими pass@k и финальной версией разрыв оказался большим: +20.8 на AIME'26, +32.4 на HMMT'26, +10.0 на LiveCodeBench-v6, +11.7 на GPQA-Diamond, +19.0 на IFEval.
То же CCA-внимание, но каждый второй слой заменён на внимание со скользящим окном размером 4K.
Со слов Zyphra, это почти вдвое сокращает KV-кеш без потерь на длинном контексте. Чтобы трюк сработал, при расширении контекста в слоях со скользящим окном сохранили исходное основание RoPE, а у глобальных - растянули.
Претрейн занял около 15T токенов в две фазы: сначала общие веб-данные, затем больше математики, кода и науки. Мидтрейн - 3 фазы примерно по 1T токенов: расширение контекста, ввод reasoning-трасс и фокус на агентных задачах.
На ZAYA1-8B этот режим работал слабее, поэтому в корпус 74B-Preview добавили больше агентного материала. Первые цифры на τ-bench Zyphra описывает как многообещающие.
Авторы при этом оговариваются, что pass@k плохо отражает многошаговые сценарии, там важнее следование инструкциям, удержание состояния и устойчивость к промежуточным ошибкам, и значительная часть этих способностей появляется только после агентного RL.
Старшую ZAYA1, кстати, тоже обучали исключительно на AMD . Полноценный RL уже идёт, финальную версию 74B Zyphra планирует выпустить в ближайшие недели.
@ai_machinelearning_big_data
#AI #ML #LLM #ZAYA1 #ZYPHRA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍34🤩25❤21🔥11🤔1
Группа учёных Корнеллского университета под руководством профессора физики и аэрокосмической инженерии Джейн Ван опубликовала в журнале Proceedings of the National Academy of Sciences работу, описывающую механику устойчивого машущего полёта.
Результаты могут стать практической основой для разработки миниатюрных летательных аппаратов с машущими крыльями.
Модель сводит сложную трёхмерную аэродинамику к 5 ключевым параметрам: соотношению массы крыла и тела, нагрузке на крыло, положению шарнира крыла, частоте и амплитуде взмахов.
Анализ этого "пятимерного пространства" дал 2 формулы, по которым можно определить, при каких сочетаниях форма и кинематика сами обеспечивают устойчивость в воздухе без активной коррекции со стороны нервной системы.
Авторы называют этот режим состоянием антирезонанса: при определённом соотношении инерции крыла и движения тела насекомое удерживает равновесие при воздушных возмущениях.
До сих пор считалось, что большинство насекомых пассивно неустойчивы и сохраняют полёт за счёт быстрой нейронной обратной связи (у плодовых мушек, по более ранним данным, корректировка происходит примерно каждые 4 миллисекунды, на каждом взмахе крыла).
По словам Вана, расширение модели до большего числа возможных морфологий показало, что пассивная устойчивость встречается в природе шире, чем предполагалось.
Практический интерес исследования лежит прежде всего в области робототехники.
Создание летающих машин размером с насекомое десятилетиями упирается в необходимость датчиков и быстрых контуров обратной связи: микродроны слишком малы, чтобы нести подобную электронику без потери полезной нагрузки.
Если конструкцию удаётся подобрать так, чтобы устойчивость возникала из геометрии и частоты взмахов, требования к управлению заметно снижаются.
Авторы отмечают, что их работа - вычислительная модель и её предсказания ещё предстоит сопоставить с поведением реальных видов и инженерных прототипов.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍101🤓74👏16❤10🔥8🤔7
Anthropic запустила новую систему персонализированных уведомлений для модели Mythos v5.
Система будет предупреждать о найденных багах и напоминать о превышении дневных лимитов в Сlaude Code.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔109👍44👏21😁18🤗8👾8❤4🤬4🗿2🥱1😨1
This media is not supported in your browser
VIEW IN TELEGRAM
POV: я открываю новый чат с Claude, потому что память забилась, но он снова понятия не имеет, кто я такой.
@ai_machinelearning_big_data
@ai_machinelearning_big_data
😁118🤨43🤔17❤13😐12🤷♂7👍5👌1🫡1
Модели становятся все умнее и умнее и скоро мы не сможем адекватно проверять их выдачу - ни сами, ни другими моделями-судьями. Появляется реальный риск сандбэггинга: когда мощная нейронка специально косит под дурочку (или прячет баги в коде), чтобы обмануть слабого проверяющего и скрыть свои настоящие возможности.
Группа исследователей
Схема эксперимента заключалась в противостоянии "Красные против Синих" с общей метрикой - насколько Синие смогли вытащить реальную производительность модели.
Красные - не соперник, который что-то выигрывает. Их роль чисто инструментальная: собрать максимально устойчивую модель-саботажника, чтобы Синим было что ломать.
Красные натаскали GPT-OSS-120В сандбэггить по скрытому флагу в системном промпте: выдавать правдоподобный бред, когда флаг включён, и работать честно, когда выключен.
Синие должны были вытащить из неё реальные способности, имея в качестве судей модели заведомо слабее - GPT-4o-mini и Llama 3.1 8B. Эталонных ответов у Синих почти не было (всего 10 штук на весь датасет).
Если модель упорно сандбэггит, RL по слабому судье уходит в ревард хакинг (учится генерить ответы, которые красиво выглядят для судьи, но задачу по факту не решает). На олимпиадной математике и Super GPQA так слились почти все запуски.
Дотюн на ответах слабого судьи сбивает спесь и роняет сандбэггинг почти до нуля. Но если судья совсем кривой, такой SFT постепенно убивает общие способности GPT-OSS-120b - она начинает тупить наравне со своим учителем.
Сначала короткий SFT-дотюн на 80–100 шагов, которого хватает, чтобы сбить паттерн саботажа и заставить модель хотя бы начать пробовать в правильные ответы. А дальше уже добивка через RL по слабому сигналу награды.
Связка SFT+RL вытягивает из саботажника 86–99% его реальной производительности на жёстких бенчмарках (Super GPQA, олимпиадная математика, Code Contests), даже когда проверяющим работала откровенно слабая сетка.
Кстати, выяснилось, что 10 эталонных примеров для SFT уже достаточно, чтобы вернуть модели мозги почти полностью (83–99% по разным задачам).
Магия работает только до тех пор, пока модель не может отличить тестовые прогоны от продакшна.
Авторы проверили сценарий, где Красные дают модели полное знание о том, какие задачи относятся к обучающей выборке, а какие к деплою (распределения при этом остаются одинаковыми, отличие только в том, что модель знает, где она).
При таком раскладе модель меняет поведение : ведёт себя ок во время SFT и RL, собирает все реворды, а в проде снова начинает дурить.
На олимпиадах элиситация в среде прода просела с 88% до 36%, на Super GPQA - с 99% до 60%, на Code Contests - с 93% до 66%.
Как поведёт себя естественно зародившийся схематозник, у которого склонность к обману пробилась через претрейн или большой RL - вопрос открытый. Авторы сами это проговаривают как главное ограничение работы.
Выбить дурь из ИИ пока можно базовыми пайплайнами без эзотерических методов, и это хорошая новость.
Но если нейронка хоть как-то понимает, что она на тестовом стенде - она будет мимикрировать . Единственный выход - делать тренировку максимально неотличимой от продакшна.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #Alignment
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🤔38❤26👏11💯6👀6🔥5🤓3