Data Secrets
80.1K subscribers
6.44K photos
669 videos
20 files
2.72K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
У Дваркеша Пателя вышло огромное интервью с Андреем Карпаты

Естественно, там есть что обсудить. Поехали по самым ярким цитатам и мыслям:

⚪️ До AGI еще десятилетия, несмотря на то, что прогнозируют нам CEO стартапов. Агенты еще долго не смогут никого заменить полноценно: не хватает интеллекта, мультимодальности, надёжного компьютер-юза, долгой памяти/континуума обучения.

⚪️ RL – костыль. Он работает «через соломинку»: слишком мало полезного сигнала для слишком большого количества действий. То есть мы совершаем длинную цепочку действий, а в конце получаем в качестве реварда всего одно число. Этот сигнал размазывается на всю последовательность, даже если некоторые шаги были удачные, а другие нет. Получается огромный шум и слабое обучение.

⚪️ Скайнета не будет, но из-за ИИ человечество рискует потерять контроль. По мере автоматизации люди будут все меньше и меньше принимать решения, и в конце концов мы вообще перестанем понимать, что происходит: весь мир станет для человечества черным ящиком. Think about it, как говорится.

Обязательно смотрим полностью здесь -> youtu.be/lXUZvyajciY
Please open Telegram to view this post
VIEW IN TELEGRAM
2193👍50🔥24166🤔6🗿4💯3😁1🤯1
Школа Высшей Математики открывает набор на курс по созданию AI агентов

Обычно подобные курсы часто заканчиваются на этапе теории (ну либо вся практика – это просто no-code инструменты). Но ШВМ сделали практично и хардово, так что смело можно рекомендовать.

– Начнется все с быстрого напоминания того, что вообще такое LLM – с акцентом на особенности и ограничения их как алгоритма
– Дальше будет подробный разбор RAG, алгоритмов векторного поиска и метрик
– А потом начнется основная часть и все самое актуальное: мультиагентные системы, LangGraph и LangChain, MCP, обучение и подкреплением и так далее.

Что особенно нравится: каждую тему объясняют буквально From first principles, то есть математично. Например, когда вы будете проходить мультиагентные системы, то будете анализировать их совместные статистические распределения. Настоящая редкость в индустрии курсов.

Ну и практика, практика, и еще раз практика. В рамках курса вы сами напишете несколько агентных систем – в том числе для ваших собственных задач.

Автор курса и спикер – исследователь данных в Sber, Глеб Шевчук-Генне. Он много занимался файн-тюнингом LLM (в т.ч. GigaChat), внедрением RAG в корпоративные системы, а также проектами в области NLP, CV и мультиагентных систем.

Регистрироваться нужно здесь: ссылка

P.S. Для наших подписиков дали промокод на -25%: DS25 🎁
Please open Telegram to view this post
VIEW IN TELEGRAM
😁53🗿3015👍7🤔31
Как Google оптимизируют датацентры с помощью ИИ

Вспомните тетрис. Там нужно уложить фигурки как можно плотнее, чтобы не было пустого места. В облачных датацентрах типа Google Cloud возникает очень похожая задача.

Есть физические сервера, на которых запускаются виртуальные машины для разных задач. Эти ВМ появляются, работают какое-то время и исчезают. При этом кто-то берет ВМ под тест, и она работает 15-20 минут, а кто-то хостит на ней БД месяцами.

Заранее узнать, сколько будет жить ВМ, нельзя. При этом есть конкретная опиимизационная задача: уложить их так, чтобы максимально эффективно и плотно использовать ресурсы. Как в тетрисе.

Простая оптимизация тут не сработает именно из-за наличия неопределенности. Так что Google подумали и прикрутили вероятностную ML-модель.

Она предсказывает распределение вероятностей срока жизни ВМ, основываясь на генеральном распределении (оно, кстати, сильно скошенное), метаданных ВМ, поведении пользователя, способе создания и тд. На выходе мы получаем что-то типа «С вероятностью 80% эта ВМ проживет час, с вероятностью 15% – день, и 5% – дольше недели». Это называется survival analysis.

Занятно, что прогноз динамический и обновляется со временем. Например, если виртуалка всё ещё работает через 10 дней, модель пересматривает оценку.

И вот основываясь на таком предсказанном распределении уже работают опимизационные алгоритмы. Например, планировщик, который пытается переложить несколько одинаковых ВМ на один сервер, чтобы освободить его полностью позже. Или алгоритм, который наоборот ставит короткоживущие ВМ на сервера с долгоживущими, чтобы заполнить мелкие пробелы, которые иначе были бы потеряны.

Ну и метрики. Google уже протестили подход на своих серверах и (внимание!) простои оборудования снизились в среднем на 5%. Представьте, сколько это в долларах 🙂

Отличная работа и крутой кейс

research.google/blog/solving-virtual-machine-puzzles-how-ai-is-optimizing-cloud-computing/
Please open Telegram to view this post
VIEW IN TELEGRAM
151👍5517🔥12🤯93😁11
OpenAI немного переборщили с маркетингом и опозорились на весь Твиттер

Помните, мы рассказывали, что GPT-5 "решила" открытую задачу по математике из списка Эрдёша? Кратко освежаем память: решить-то модель задачу решила, вот только решение было не ее. Она откопала его в литературе 20-летней давности. То есть задача уже была кем-то решена кучу лет назад, просто люди об этом забыли и пометили ее как "нерешенную".

Ну так вот. У истории появилось продолжение, и при этом не совсем приятное. Ровно таким же образом GPT-5 "решила" еще 10 задачек из того же списка AKA нашла их решение в забытой литературе. И вроде бы все норм: моделька молодец, умеет качественно серчить материал, честно сообщает об источниках и все такое.

Вот только сотрудники OpenAI почему-то решили запостить это вот с такими словами: "GPT-5 нашла решения еще 10 открытых задач по математике".

И да, с одной стороны, где-то там они сослались на прошлые твиты, в которых прямо говорили, что решения были найдены именно в литературе, а не выдуманы моделью. С другой стороны, если читатель не знаком с предысторией (что очень вероятно), то для него это однозначно звучит как "ИИ открыл новую математику".

Невольно появляется ощущение, что OpenAI на то и рассчитывали, и выбрали такую формулировку специально, чтобы похайпиться. Но Твиттер подобного не прощает, и в итоге вместо хайпа они заслужили только волну насмешек и обвинений. Даже нобелевский лауреат из Google Демис Хассабис прокомментировал ситуацию как "Это позор".

В итоге твит с неудачной формулировкой был удален, а авторы оправдались тем, что ничего такого в виду не имели. Верим 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2694714🤯12🗿11🕊5👍3❤‍🔥2🤔11
Маск предложил Андрею Карпаты дуэль по AI кодингу с Grok-5

Он сравнил это с соревнованием Deep Blue против Каспарова. На такое мы бы, конечно, посмотрели.

Но Карпаты только отшутился и сказал, что он скорее объединится с Grok-5, чем будет играть против него.

Напоминаем, что Илон считает, что Grok-5 может стать AGI. А пару дней назад он также заявил, что модель будет учиться почти мгновенно, как люди, благодаря динамическому обучению с подкреплением.
😁209🔥35👍2011🤨88👏3🤯3🗿32🐳2
Вдохновляемся на рабочую неделю
1😁345👍3223👌4🤨4
Alibaba нашли способ сократить потребность в GPU на 82%

Немножко контекста. Чаще всего в облаке, на котором хостится несколько моделей, каждую модель привязывают к определенным GPU. Например, Llama-70B → 8× A100.

И даже если к модели в данный момент никто не обращается, видеокарта все равно остается зарезервированной и простаивает, потому что веса уже подгружены.

В Alibaba выяснили, что такой невинный простой на самом деле кушает море ресурсов. Оказалось, что на их облаке 17.7% всех GPU были заняты моделями, которые обрабатывали лишь 1.35% всех запросов. Во-первых, это жутко неэффективно. Во-вторых, такую систему очень сложно масштабировать, если появятся еще модели.

Поэтому китайцы взялись за оптимизацию и предложили штуку под названием Aegaeon (не спрашивайте, как это выговаривать). Это система, в которой вместо однозначного сопоставления «модель-видеокарта», каждая GPU может обрабатывать несколько моделей одновременно.

Это чем-то похоже на Kubernetes: кластер превращается в единый пуллинг, который умеет динамически выделять и освобождать память.

Основная идея в том, что система переключается на уровне токенов, а не целых запросов. Обычно модель загружается в память целиком и работает, пока не закончит ответ. Aegaeon же разбивает процесс на prefill и decode, и чередует их между моделями прямо во время генерации.

Это происходит без полной инициализации: планировщик кэширует нужные части в VRAM, а остальное подгружает при необходимости. Так что задержки есть, но минимальные – в пределах 3-5%.

Сейчас Aegaeon уже работает непосредственно в Alibaba Cloud. И инженеры заявляют, что им удалось снизить количество необходимых GPU с 1192 до 213. Это минус 82%!

Голь на выдумку хитра, а уж китайцы, которым запретили ввоз GPU, тем более 🍿

dl.acm.org/doi/10.1145/3731569.3764815
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28953👍20😁172🤯1
Ситуация в AWS прямо сейчас
2😁34337🕊28🔥13😎422🤔2👍1🗿11
DeepSeek снова выпустили что-то очень интересное: у них вышла OCR модель, но непростая

Она не просто распознает текст. Это в какой-то степени система для оптического сжатия контекста.

Как работает обычный OCR: получает картинку с текстом или PDF -> распознает символы -> возвращает текст.

Что делает DeepSeek OCR: получает документ -> сжимает его как зрительный объект -> восстанавливает в текст.

Глобально моделька состоит из двух частей – DeepEncoder и DeepSeek-3B-MoE Decoder. DeepEncoder здесь главная звезда. Он оптически сжимает изображения, превращая его в набор vision токенов.

Под капотом тут SAM + CLIP. SAM извлекает главную структуру и символы: буквы, главы, подписи, картинки, формулы. А CLIP добавляет глобальное понимание контекста и того, о чем вообще этот документ.

Их выходы затем проходят через сверточное сжатие и вот тут – центральный момент. Свертка уменьшает количество токенов в 10–20 раз, не теряя при этом смысла. То есть вместо 1000 токенов мы получаем, например, 100, а точность при этом сохраняется на уровне 97%. Если сжать в 20 раз – то на уровне 60%.

Дальше все в целом как обычно – сжатые визуальные токены отправляются в LLM, и та расшифровывает их в итоговый текст.

То есть: DeepSeek по сути придумали, как нам хранить в памяти модели в 10 раз больше информации при том же количестве токенов. DeepSeek-OCR может хранить не сам текст, а его сжатое визуальное представление: например, вместо 10 страниц сырого текста в памяти будет 1 страница его visual эмбеддингов, а информативность при этом не пострадает.

Чем вам не замена RAG, например? При этом все это работает в том числе с формулами, сложными структурами, чертежами, картинками и прочим. Полная мультимодальность. Плюс, на практике модель способна обрабатывать 200 000+ страниц в день на одной A100 GPU (ничего себе, как бы).

Ну и метрики. На OmniDocBench обходит GOT-OCR2.0, используя 2.5 раз меньше токенов,
и превосходит MinerU2.0, используя в 9 раз меньше ресурсов. По факту, SOTA. И по точности, и по эффективности.

Все в опенсорсе под лицензией MIT

github.com/deepseek-ai/DeepSeek-OCR
5825176👍58🔥40😁4🤯4🐳2❤‍🔥1
Media is too big
VIEW IN TELEGRAM
Anthropic запустили новый инструмент Claude Life Sciences

Это надстройка над существующей экосистемой Claude, предназначенная специально для биомедицинских и фармацевтических задач.

По сути, взяли Claude, немного потюнили его на соответствующие задачки (возможно) и прикрутили кучу полезных инструментов. Поддерживается работа с PubMed, PDB и другими огромными базами данных, а также есть интеграция с лабораторными системами ELN и LIMS.

И вуаля: вот вам готовый инструмент, которым из коробки могут пользоваться фармацевты. Буквально Claude Code для медиков.

Пока платформа еще доступна только ограниченному числу организаций, но с начала 2026 должна выйти в более широкий доступ

www.anthropic.com/news/claude-for-life-sciences
1🕊6154👍29🔥3😁31
Data Secrets
DeepSeek снова выпустили что-то очень интересное: у них вышла OCR модель, но непростая Она не просто распознает текст. Это в какой-то степени система для оптического сжатия контекста. Как работает обычный OCR: получает картинку с текстом или PDF -> распознает…
Очень понравился комментарий Андрея Карпаты ко вчерашней статье от DeepSeek

Сделали для вас перевод:

Мне достаточно сильно понравилась новая статья про DeepSeek-OCR. Там есть нюансы с датасетом и прочим, но это неважно.

Для меня гораздо интереснее (особенно как для CV-инженера, временно притворяющегося NLP-специалистом) вопрос о том, не лучше ли подавать в LLM не текст, а пиксели. Может быть, текстовые токены вообще неудачный и расточительный вариант для инпута?

Может, правильнее было бы, если все входы для LLM всегда были изображениями. Даже если у нас чисто текстовый ввод, можно ведь просто отрендерить его и подать как картинку. Получается:

– Более высокая степень сжатия информации → короче контекстные окна, выше эффективность.

– Более универсальный поток данных → не только текст, но и жирный шрифт, цвет, произвольные изображения и другие визуальные элементы.

– Можно использовать bidirectional attention по умолчанию, а не авторегрессию, и это гораздо мощнее.

Можно выкинуть токенизатор!
Я уже не раз говорил, насколько ненавижу токенизаторы. Они уродливы, тащат за собой весь ужас Unicode, исторического мусора и даже проблемы безопасности. Токенизация должна умереть.

OCR это лишь одна из полезных vision2text задач. Получается, что любую text2text задачу можно превратить в vision2text. Но не наоборот.

Теперь мне приходится сдерживать соблазн сделать версию nanochat, которая принимает на вход только изображения


Наш разбор статьи читайте здесь
63277🔥101👍55🤔18🗿128😁7
Все еще недочинили, кстати
😁319🫡37219🕊33🍓2🔥1
Не совсем про ИИ, но новость интересная: ученые из Массачусетса впервые разработали искусственный нейрон, который работает на мощностях, близких к настоящим нейронам

Обычно искусственные нейроны и нейроморфные схемы работают на значительно более высоких напряжениях и потребляют куда больше энергии, чем живые нейроны. С этим связано море ограничений имплантов, например.

И вот впервые людям удалось получить устройство, которое работает при напряжении порядка ~0.1В. Это очень близко к биологическому аналогу.

Испытания показали, что такой искусственный нейрон может напрямую взаимодействовать с живыми клетками и интерпретировать их состояние. Также, как и реальный нейрон, он реализует фазу интеграции, затем выброс (спайк), затем реполяризацию и рефрактерную паузу.

Дискеймер: ни на какой искусственный мозг намека все еще нет. Но шаг большой.

Статья в Nature
165🔥80🤯20👍126🤔2
Media is too big
VIEW IN TELEGRAM
OpenAI выпустили собственный ИИ-браузер ChatGPT Atlas

Если вы пользовались Comet от Perplexity, то вот: это то же самое, но от OpenAI. То есть – глобальный агент, который может как в принципе выполнять за вас какие-то действия в браузере, так и подключаться локально для ответов на вопросы, анализа веб-страниц и тд.

Формально, тот же Computer Use, который уже был, но в новой удобной обертке.

Интересный момент: у агента будет память, как в ChatGPT. Для более точных ответов он будет пользоваться и предыдущими диалогами в ChatGPT, и собственной историей взаимодействий с юзером.

Уже можно скачать на MacOS бесплатно. Скоро обещают завезти и в остальные ОС, включая iOS и Android

Погнали тестить, что-ли
85👍35🔥21🤨10🗿5👌2
Data Secrets
OpenAI выпустили собственный ИИ-браузер ChatGPT Atlas Если вы пользовались Comet от Perplexity, то вот: это то же самое, но от OpenAI. То есть – глобальный агент, который может как в принципе выполнять за вас какие-то действия в браузере, так и подключаться…
Пост для всех, кто пишет, что ChatGPT Atlas убил Chrome

ChatGPT Atlas – это и есть Chrome. Ну или, точнее, Chromium. Так или иначе, это просто обертка над проектом Google.

Сюрприз-сюрприииз 😧
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3304315🗿7👍5
LLMs Can Get Brain Rot: статья о том, что модельки тоже деградируют от думскролинга

Исследователи из Техаса выпустили ну очень интересную работу, вызвавшую волну обсуждений. Они показали, что если LLM начать дообучать на низкокачественных данных из соцсетей (коротких, популярных, кликабельных постах), то она начинает терять свои когнитивные способности. Примерно так же, как человек теряет внимание и память, когда слишком много думсерфит.

Разбираемся, почему так, с технической точки зрения.

По факту, эксперимент был следующий. Взяли Llama 3 8B Instruct и начали дообучать на (а) коротких и очень популярных постах, у которых много лайков, ретвитов и реплаев; и (б) на контенте с низкой смысловой ценностью: кликбейт, конспирология, все такое. После этого замерили метрики и сравнили с результатами до дообучения. Итоги:

– Качество ризонинга упало с 74.9 до 57.2
– Понимание длинного контекста – с 84.4 до 52.3
– На элаймент-тестах выяснилось, что у модели развился нарциссизм, макиавеллизм и психопатия

Даже после дополнительного тюнинга на чистых данных деградация не исчезала полностью.

Но дело в том, что никакого глобального открытия тут нет. Объясняется все это простым сдвигом распределения. При дообучении на коротких, популярных, эмоционально окрашенных твитах модель видит совсем другой статистический ландшафт, чем во время исходного претрейна на книжках, статьях и тд.

Это смещает распределение в пространстве эмбеддингов и меняет attention-паттерны. Модель постоянно видит короткие тексты без логической цепочки, и, естественно, маски внимания начинают больше фокусироваться на последних нескольких токенах и терять долгосрочные зависимости, которые раньше и обеспечивали качественный CoT.

Градиентная динамика тут тоже играет против нас. Лосс просто-напросто минимизируется за счет поверхностных корреляций, а параметры, отвечающие за долгие причинно-следственные связи, почти не получают обновлений. Вот и получается, что моделька теряет способность длинно рассуждать. Авторы называют этот феномен thought-skipping.

Вот так. Просто еще одно доказательство, что данные – наше все. Теперь можно идти дальше листать рилсы ☕️

arxiv.org/pdf/2510.13928
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥149😁8844👍215🤔2🗿2111