Data Secrets
80K subscribers
6.44K photos
669 videos
20 files
2.72K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
OpenAI немного переборщили с маркетингом и опозорились на весь Твиттер

Помните, мы рассказывали, что GPT-5 "решила" открытую задачу по математике из списка Эрдёша? Кратко освежаем память: решить-то модель задачу решила, вот только решение было не ее. Она откопала его в литературе 20-летней давности. То есть задача уже была кем-то решена кучу лет назад, просто люди об этом забыли и пометили ее как "нерешенную".

Ну так вот. У истории появилось продолжение, и при этом не совсем приятное. Ровно таким же образом GPT-5 "решила" еще 10 задачек из того же списка AKA нашла их решение в забытой литературе. И вроде бы все норм: моделька молодец, умеет качественно серчить материал, честно сообщает об источниках и все такое.

Вот только сотрудники OpenAI почему-то решили запостить это вот с такими словами: "GPT-5 нашла решения еще 10 открытых задач по математике".

И да, с одной стороны, где-то там они сослались на прошлые твиты, в которых прямо говорили, что решения были найдены именно в литературе, а не выдуманы моделью. С другой стороны, если читатель не знаком с предысторией (что очень вероятно), то для него это однозначно звучит как "ИИ открыл новую математику".

Невольно появляется ощущение, что OpenAI на то и рассчитывали, и выбрали такую формулировку специально, чтобы похайпиться. Но Твиттер подобного не прощает, и в итоге вместо хайпа они заслужили только волну насмешек и обвинений. Даже нобелевский лауреат из Google Демис Хассабис прокомментировал ситуацию как "Это позор".

В итоге твит с неудачной формулировкой был удален, а авторы оправдались тем, что ничего такого в виду не имели. Верим 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2694714🤯12🗿11🕊5👍3❤‍🔥2🤔11
Маск предложил Андрею Карпаты дуэль по AI кодингу с Grok-5

Он сравнил это с соревнованием Deep Blue против Каспарова. На такое мы бы, конечно, посмотрели.

Но Карпаты только отшутился и сказал, что он скорее объединится с Grok-5, чем будет играть против него.

Напоминаем, что Илон считает, что Grok-5 может стать AGI. А пару дней назад он также заявил, что модель будет учиться почти мгновенно, как люди, благодаря динамическому обучению с подкреплением.
😁209🔥35👍2011🤨88👏3🤯3🗿32🐳2
Вдохновляемся на рабочую неделю
1😁345👍3223👌4🤨4
Alibaba нашли способ сократить потребность в GPU на 82%

Немножко контекста. Чаще всего в облаке, на котором хостится несколько моделей, каждую модель привязывают к определенным GPU. Например, Llama-70B → 8× A100.

И даже если к модели в данный момент никто не обращается, видеокарта все равно остается зарезервированной и простаивает, потому что веса уже подгружены.

В Alibaba выяснили, что такой невинный простой на самом деле кушает море ресурсов. Оказалось, что на их облаке 17.7% всех GPU были заняты моделями, которые обрабатывали лишь 1.35% всех запросов. Во-первых, это жутко неэффективно. Во-вторых, такую систему очень сложно масштабировать, если появятся еще модели.

Поэтому китайцы взялись за оптимизацию и предложили штуку под названием Aegaeon (не спрашивайте, как это выговаривать). Это система, в которой вместо однозначного сопоставления «модель-видеокарта», каждая GPU может обрабатывать несколько моделей одновременно.

Это чем-то похоже на Kubernetes: кластер превращается в единый пуллинг, который умеет динамически выделять и освобождать память.

Основная идея в том, что система переключается на уровне токенов, а не целых запросов. Обычно модель загружается в память целиком и работает, пока не закончит ответ. Aegaeon же разбивает процесс на prefill и decode, и чередует их между моделями прямо во время генерации.

Это происходит без полной инициализации: планировщик кэширует нужные части в VRAM, а остальное подгружает при необходимости. Так что задержки есть, но минимальные – в пределах 3-5%.

Сейчас Aegaeon уже работает непосредственно в Alibaba Cloud. И инженеры заявляют, что им удалось снизить количество необходимых GPU с 1192 до 213. Это минус 82%!

Голь на выдумку хитра, а уж китайцы, которым запретили ввоз GPU, тем более 🍿

dl.acm.org/doi/10.1145/3731569.3764815
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28953👍20😁172🤯1
Ситуация в AWS прямо сейчас
2😁34337🕊28🔥13😎422🤔2👍1🗿11
DeepSeek снова выпустили что-то очень интересное: у них вышла OCR модель, но непростая

Она не просто распознает текст. Это в какой-то степени система для оптического сжатия контекста.

Как работает обычный OCR: получает картинку с текстом или PDF -> распознает символы -> возвращает текст.

Что делает DeepSeek OCR: получает документ -> сжимает его как зрительный объект -> восстанавливает в текст.

Глобально моделька состоит из двух частей – DeepEncoder и DeepSeek-3B-MoE Decoder. DeepEncoder здесь главная звезда. Он оптически сжимает изображения, превращая его в набор vision токенов.

Под капотом тут SAM + CLIP. SAM извлекает главную структуру и символы: буквы, главы, подписи, картинки, формулы. А CLIP добавляет глобальное понимание контекста и того, о чем вообще этот документ.

Их выходы затем проходят через сверточное сжатие и вот тут – центральный момент. Свертка уменьшает количество токенов в 10–20 раз, не теряя при этом смысла. То есть вместо 1000 токенов мы получаем, например, 100, а точность при этом сохраняется на уровне 97%. Если сжать в 20 раз – то на уровне 60%.

Дальше все в целом как обычно – сжатые визуальные токены отправляются в LLM, и та расшифровывает их в итоговый текст.

То есть: DeepSeek по сути придумали, как нам хранить в памяти модели в 10 раз больше информации при том же количестве токенов. DeepSeek-OCR может хранить не сам текст, а его сжатое визуальное представление: например, вместо 10 страниц сырого текста в памяти будет 1 страница его visual эмбеддингов, а информативность при этом не пострадает.

Чем вам не замена RAG, например? При этом все это работает в том числе с формулами, сложными структурами, чертежами, картинками и прочим. Полная мультимодальность. Плюс, на практике модель способна обрабатывать 200 000+ страниц в день на одной A100 GPU (ничего себе, как бы).

Ну и метрики. На OmniDocBench обходит GOT-OCR2.0, используя 2.5 раз меньше токенов,
и превосходит MinerU2.0, используя в 9 раз меньше ресурсов. По факту, SOTA. И по точности, и по эффективности.

Все в опенсорсе под лицензией MIT

github.com/deepseek-ai/DeepSeek-OCR
5825176👍58🔥40😁4🤯4🐳2❤‍🔥1
Media is too big
VIEW IN TELEGRAM
Anthropic запустили новый инструмент Claude Life Sciences

Это надстройка над существующей экосистемой Claude, предназначенная специально для биомедицинских и фармацевтических задач.

По сути, взяли Claude, немного потюнили его на соответствующие задачки (возможно) и прикрутили кучу полезных инструментов. Поддерживается работа с PubMed, PDB и другими огромными базами данных, а также есть интеграция с лабораторными системами ELN и LIMS.

И вуаля: вот вам готовый инструмент, которым из коробки могут пользоваться фармацевты. Буквально Claude Code для медиков.

Пока платформа еще доступна только ограниченному числу организаций, но с начала 2026 должна выйти в более широкий доступ

www.anthropic.com/news/claude-for-life-sciences
1🕊6154👍29🔥3😁31
Data Secrets
DeepSeek снова выпустили что-то очень интересное: у них вышла OCR модель, но непростая Она не просто распознает текст. Это в какой-то степени система для оптического сжатия контекста. Как работает обычный OCR: получает картинку с текстом или PDF -> распознает…
Очень понравился комментарий Андрея Карпаты ко вчерашней статье от DeepSeek

Сделали для вас перевод:

Мне достаточно сильно понравилась новая статья про DeepSeek-OCR. Там есть нюансы с датасетом и прочим, но это неважно.

Для меня гораздо интереснее (особенно как для CV-инженера, временно притворяющегося NLP-специалистом) вопрос о том, не лучше ли подавать в LLM не текст, а пиксели. Может быть, текстовые токены вообще неудачный и расточительный вариант для инпута?

Может, правильнее было бы, если все входы для LLM всегда были изображениями. Даже если у нас чисто текстовый ввод, можно ведь просто отрендерить его и подать как картинку. Получается:

– Более высокая степень сжатия информации → короче контекстные окна, выше эффективность.

– Более универсальный поток данных → не только текст, но и жирный шрифт, цвет, произвольные изображения и другие визуальные элементы.

– Можно использовать bidirectional attention по умолчанию, а не авторегрессию, и это гораздо мощнее.

Можно выкинуть токенизатор!
Я уже не раз говорил, насколько ненавижу токенизаторы. Они уродливы, тащат за собой весь ужас Unicode, исторического мусора и даже проблемы безопасности. Токенизация должна умереть.

OCR это лишь одна из полезных vision2text задач. Получается, что любую text2text задачу можно превратить в vision2text. Но не наоборот.

Теперь мне приходится сдерживать соблазн сделать версию nanochat, которая принимает на вход только изображения


Наш разбор статьи читайте здесь
63277🔥101👍55🤔18🗿128😁7
Все еще недочинили, кстати
😁319🫡37219🕊33🍓2🔥1
Не совсем про ИИ, но новость интересная: ученые из Массачусетса впервые разработали искусственный нейрон, который работает на мощностях, близких к настоящим нейронам

Обычно искусственные нейроны и нейроморфные схемы работают на значительно более высоких напряжениях и потребляют куда больше энергии, чем живые нейроны. С этим связано море ограничений имплантов, например.

И вот впервые людям удалось получить устройство, которое работает при напряжении порядка ~0.1В. Это очень близко к биологическому аналогу.

Испытания показали, что такой искусственный нейрон может напрямую взаимодействовать с живыми клетками и интерпретировать их состояние. Также, как и реальный нейрон, он реализует фазу интеграции, затем выброс (спайк), затем реполяризацию и рефрактерную паузу.

Дискеймер: ни на какой искусственный мозг намека все еще нет. Но шаг большой.

Статья в Nature
165🔥80🤯20👍126🤔2
Media is too big
VIEW IN TELEGRAM
OpenAI выпустили собственный ИИ-браузер ChatGPT Atlas

Если вы пользовались Comet от Perplexity, то вот: это то же самое, но от OpenAI. То есть – глобальный агент, который может как в принципе выполнять за вас какие-то действия в браузере, так и подключаться локально для ответов на вопросы, анализа веб-страниц и тд.

Формально, тот же Computer Use, который уже был, но в новой удобной обертке.

Интересный момент: у агента будет память, как в ChatGPT. Для более точных ответов он будет пользоваться и предыдущими диалогами в ChatGPT, и собственной историей взаимодействий с юзером.

Уже можно скачать на MacOS бесплатно. Скоро обещают завезти и в остальные ОС, включая iOS и Android

Погнали тестить, что-ли
85👍35🔥21🤨10🗿5👌2
Data Secrets
OpenAI выпустили собственный ИИ-браузер ChatGPT Atlas Если вы пользовались Comet от Perplexity, то вот: это то же самое, но от OpenAI. То есть – глобальный агент, который может как в принципе выполнять за вас какие-то действия в браузере, так и подключаться…
Пост для всех, кто пишет, что ChatGPT Atlas убил Chrome

ChatGPT Atlas – это и есть Chrome. Ну или, точнее, Chromium. Так или иначе, это просто обертка над проектом Google.

Сюрприз-сюрприииз 😧
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3304315🗿7👍5
LLMs Can Get Brain Rot: статья о том, что модельки тоже деградируют от думскролинга

Исследователи из Техаса выпустили ну очень интересную работу, вызвавшую волну обсуждений. Они показали, что если LLM начать дообучать на низкокачественных данных из соцсетей (коротких, популярных, кликабельных постах), то она начинает терять свои когнитивные способности. Примерно так же, как человек теряет внимание и память, когда слишком много думсерфит.

Разбираемся, почему так, с технической точки зрения.

По факту, эксперимент был следующий. Взяли Llama 3 8B Instruct и начали дообучать на (а) коротких и очень популярных постах, у которых много лайков, ретвитов и реплаев; и (б) на контенте с низкой смысловой ценностью: кликбейт, конспирология, все такое. После этого замерили метрики и сравнили с результатами до дообучения. Итоги:

– Качество ризонинга упало с 74.9 до 57.2
– Понимание длинного контекста – с 84.4 до 52.3
– На элаймент-тестах выяснилось, что у модели развился нарциссизм, макиавеллизм и психопатия

Даже после дополнительного тюнинга на чистых данных деградация не исчезала полностью.

Но дело в том, что никакого глобального открытия тут нет. Объясняется все это простым сдвигом распределения. При дообучении на коротких, популярных, эмоционально окрашенных твитах модель видит совсем другой статистический ландшафт, чем во время исходного претрейна на книжках, статьях и тд.

Это смещает распределение в пространстве эмбеддингов и меняет attention-паттерны. Модель постоянно видит короткие тексты без логической цепочки, и, естественно, маски внимания начинают больше фокусироваться на последних нескольких токенах и терять долгосрочные зависимости, которые раньше и обеспечивали качественный CoT.

Градиентная динамика тут тоже играет против нас. Лосс просто-напросто минимизируется за счет поверхностных корреляций, а параметры, отвечающие за долгие причинно-следственные связи, почти не получают обновлений. Вот и получается, что моделька теряет способность длинно рассуждать. Авторы называют этот феномен thought-skipping.

Вот так. Просто еще одно доказательство, что данные – наше все. Теперь можно идти дальше листать рилсы ☕️

arxiv.org/pdf/2510.13928
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥149😁8844👍215🤔2🗿2111
Коллеги, кто свой код потерял?
😁4594743129😎55🔥4🗿4🤩1
Data Secrets
Уже известные вам alphaXiv завезли в свой инструментарий Research агента, который сможет помочь исследователям с их статьями Напоминаем, что alphaXiv – это зеркало arXiv на ИИ-максималках. На платформе уже есть бесплатный агент для Deep Research, агент для…
Уже начали появляться прикольные кейсы применения новой DeepSeek OCR

Создатели alphaXiv (помните таких?) вот сделали такую вещь: они прогнали через модель 500к+ статей по ИИ и извлекли из таблиц и диаграмм данные о самых популярных бенчмарках и датасетах.

Обошлось это всего в 1000 долларов. Для сравнения, с Mistral OCR (которая до этого считалась сотой по цена/качество) процесс встал бы в $7500.

Если интересно, получившийся лидерборд можно посмотреть здесь. Проект больше игрушечный, конечно, но как демо модели – занятно.

Плюс, это видимо просто разминка. На следующей неделе alphaXiv пообещали релизнуть датасет со статьями с архива, сразу переведенными из pdf в формат markdown (опять же, с помощью дипсика). И вот это уже действительно ультра полезно.

Наш разбор статьи про DeepSeek OCR здесь
126🔥65🤯21👍12👌3😁1
Media is too big
VIEW IN TELEGRAM
Quantum Echoes: Google впервые в истории продемонтрировали верифицируемое квантовое превосходство

Сегодня в Nature вышла очень громкая статья от Google под названием "Наш алгоритм Quantum Echoes – это большой шаг на пути к реальным прикладным задачам квантовых вычислений". В ней, по сути, описано первое в истории выполнение физически осмысленного и верифицируемого алгоритма на квантовом чипе.

Эксперимент провели на чипе Willow. Мы о нем вот тут подробно рассказывали, он тоже в свое время был прорывом. Сам алгоритм называется Quantum Echoes и суть его вот в чем:

В систему из 105 кубитов запускают некоторый сигнал – длинную последовательность операций. Эти операции перемешивают состояния кубитов и создают сложную квантовую суперпозицию.

После этого один конкретный кубит слегка возмущают (например, применяют к нему фазовый сдвиг). Это наш источник ошибки и событие, от которого мы хотим отследить распространение.

Теперь выполняется обратная эволюция: те же самые операции, но в обратном порядке. Если бы возмущения не было, система бы вернулась точно в исходное состояние. Но квантовые вычисления – это хаос, и наш возмущенный кубит может очень быстро заразить остальные. Тогда информацию уже просто так не восстановишь.

После обратной эволюции мы измеряем разницу между исходным состоянием и итоговым. И вот тут кроется главный прорыв: Google доказали, что их система впервые оказалась настолько стабильна, чтобы даже после возмущения сохранять информацию с достаточной точностью.

Раньше подобное работало только на игрушечных системах до 10 кубитов. 105 кубит – совсем другой уровень. К тому же, на обычных суперкомпьютерах такие вычисления провести уже почти невозможно: это заняло бы в 13000 раз больше времени.

А еще это воспроизводимый результат, что само по себе тоже редкость для квантовых систем.

Все это значит, что понемногу мы приближаемся к возможности моделировать сложные квантовые явления, от молекул до черных дыр.

Например, Google вместе с UC Berkeley уже попробовали запустить Quantum Echoes для моделирования пары молекул на 15 и 28 атомов. Результаты совпали с традиционной НМР-спектроскопией, но дополнительно дали информацию, обычно недоступную НМР. Получится этакий квантовый микроскоп на минималках, который на горизонте может стать абсолютным прорывом в материаловедении и поиске лекарств.

www.nature.com/articles/s41586-025-09526-6
Please open Telegram to view this post
VIEW IN TELEGRAM
3169🤯5935👍35🔥15❤‍🔥9😁3