Data Secrets
90.7K subscribers
7.02K photos
788 videos
20 files
3.16K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
От 30 до 50% инженеров из ключевых продуктовых команд Meta* теперь размечают данные

Повальное число экспертов компании на этой неделе перевели во внутренний отдел ADO (Agent Data Optimisation), где они занимаются разметкой. Например, просматривают репозитории, сгенерированные ИИ, и дают обратную связь для RLHF.

Больше всего пострадали кибербезопасники и инженеры из инфраструктурных и продуктовых команд. В общей сложности сейчас примерно каждый пятый или шестой инженер в компании занимается разметкой на фул-тайм.
😁202🤯92🫡2113😎3👍2😍2🤔1💯1🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
1 июля в Москве пройдет большое мероприятие для всех, кому интересны рекомендательные системы и персонализация

Команда AI VK собирает на митап инженеров и исследователей, чтобы подробно обсудить технологии для рекомендательных систем в продуктах с многомиллионной аудиторией. В программе:

Доклады о трансформерных моделях и LLM-агентах для поиска и рекомендаций.

Рассказ о том, как внедряются технологии в продукты с помощью единой Discovery-платформы.

Презентация нового исследовательского направление в команде, AI VK Research, и проектов в области генеративных рекомендаций, графовых моделей, а также AI-инфраструктуры.

Неформальное общение с лидерами, исследователями и разработчиками AI VK.

Отличный шанс за один вечер собрать в голове актуальную картину мира рекомендательных систем и понять, что реально работает, куда движется индустрия и как все это выглядит в больших продуктах на практике.

1 июля, ДК «Кристалл» в Москве.

Регистрация – здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
😁49🗿277👍6🔥2🤯1😍1🏆1🍓1🎄1
Amazon внезапно отказался выпускать почти доснятый фильм про Сэма Альтмана

Речь про ту самую картину под названием Artificial про увольнение Сэма осенью 2023, в которой Альтмана играет Эндрю Гарфилд, а Илью Суцкевера – Юра Борисов. Изначально фильм снимался в партнерстве с Amazon, но те сначала откладывали выпуск, а теперь и вовсе разорвали контракт.

Забавное совпадение: Amazon отказались от выпуска фильма сразу после того как компания заключила с OpenAI крупную сделку на 50 миллиардов долларов.

Свой отказ они, фактически, не объяснили, заявив просто, что фильм «больше подойдет другому дистрибьютору».
1😁25152143🔥1🤔1😍1🍓1
Spotlight на ICML: ускоряем графовые нейросети

Начинается ежегодный марафон по чтению статей с ICML 2026, которая в этом году пройдет 6-11 июля. Приятно, что попадается много инженерных статей с практическими результатами.

Среди таких – работа Яндекса и ШАДа. Она получила статус Spotlight: это статьи, которым программный комитет дал самые высокие оценки. Таких работ на конференции всего 536, 2.2% от всех поданных заявок.

В статье исследователи из Yandex Research, команд ML-инфраструктуры и инференса и студенты ШАД работали над ускорением Graph Neural Networks. Дело в том, что вычисления на графах неэффективно ложаться на парадигму GPU-вычислений, данные лежат в памяти неравномерно, и поэтому видеокарта значительную часть времени ждет загрузки данных вместо того, чтобы выполнять вычисления, которые представляют собой достаточно простые операции. Как раз из-за этого скорость работы ограничена чтением и записью данных, и грамотная работа с GPU-памятью — это главный источник ускорения таких операций.

Авторы атакуют именно это узкое место, фактически минимизируя лишние перемещения данных между памятью и вычислительными блоками GPU. Также авторы переносят часть алгоритмов на тензорные ядра, что позволяет ускорится на графах с большой плотностью.

Они разработали новые готовые GPU-кернелы для популярных семейств графовых нейросетей, и добились потрясающего ускорения в 3–10 раз в зависимости от архитектуры. Потребление памяти в отдельных сценариях сокращается более чем на порядок.

Поздравляем команду с заслуженным Spotlight и прекрасной работой!

Статья уже доступна на arXiv, а код выложили вот здесь.
👍11335🔥24👌5😍4😁3🗿3🍓2🤔1
Data Secrets
Один из самых мощных и известных ученых Google DeepMind Ноам Шазир ушел в OpenAI Ноам – настоящий ветеран Google: он пришел в компанию в 2000 году и работал над ранними поисковыми системами, включая AdSense. В 2017 он стал одним из соавторов легендарной статьи…
Директор DeepMind Technologies ушел работать в Anthropic

Из Google уходит вторая легенда за два дня – Джон Джампер.

Это человек, который создал AlphaFold и в 2024 получил за это Нобелевскую премию вместе с Демисом Хассабисом и Дэвидом Бейкером. Ему, кстати, всего 39, он один из самых молодых обладателей Нобелевки.

Чем конкретно он займется в Anthropic, и кто встанет на его место в DeepMind – пока непонятно, но это однозначно крупнейшая потеря для Google
204🔥48🤯41🗿109🍾5😎43🎄3🤨2👨‍💻2
Директор робостартапа Figure AI объявил, что они произвели столько роботов, что их количество превзошло количество людей в компании 😐

Интересно, они Терминатора вообще смотрели?
Please open Telegram to view this post
VIEW IN TELEGRAM
195😁122🗿1711🔥7👍64🍓3💯21
Феномен GLM-5.2

Кажется, Z.ai – это новый DeepSeek. По крайней мере, их свежая модель GLM-5.2 навела не меньше шума, чем R1 в свое время.

Это реально опенсорс нового уровня: на арене модель обошла Opus 4.8 на кодинге, а на Design Arena (приготовьтесь) забрала первое место у Claude Fable 5.

Плюсом контекст до 1М токенов и отличные показатели при работе с длинными многошаговыми задачами.

Три варианта, как попробовать модель:

1. Если вдруг вы – обладатель 8хH100, то можете запустить локально, веса лежат вот тут под лицензией MIT.

2. В чате chat.z.ai, но только по подписке GLM Coding Plan.

3. Самый простой и дешевый вариант: в API. В нашем сервисе DS Lab API цена на GPM-5.2 прямо сейчас снижена в два раза, до 25 июня она ниже, чем у официального провайдера. Пользуйтесь: dslab.tech/ai/models/llm/glm-5.2
150🔥67🤯33👍17🗿13😁10😎7🤔6🎄42😍1
Sakana AI выпустили в общий доступ систему оркестрации агентов Fugu. В некоторых конфигурациях она превосходит Fable 5.

Sakana Fugu была анонсирована еще в апреле, мы подробно о ней писали вот тут: t.me/data_secrets/9104. Два месяца система провела в бете, и вот, наконец, ей можно свободно пользоваться.

https://sakana.ai/fugu/

Сама по себе Fugu является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor.

По поводу оплаты. Если вы используете обычный Fugu, то платите только за одну используемую топовую модель, . Fugu Ultra – тот самый, который обгоняет Fable и Mythos – стоит $5/$30 за миллион input/output. Плюс есть подписки.

В общем-то, довольно демократично. Ну и бенчмарки красивые. Надо пробовать.
78👍35🔥15😁8🍾3🗿322🤯1💯11
Потокенмаксили и хватит?
😁27438😎15🔥95🕊2🍓2👍1😍1💯1
Data Secrets
Sakana AI выпустили в общий доступ систему оркестрации агентов Fugu. В некоторых конфигурациях она превосходит Fable 5. Sakana Fugu была анонсирована еще в апреле, мы подробно о ней писали вот тут: t.me/data_secrets/9104. Два месяца система провела в бете…
⚡️ Обновления в DS Lab API: Fugu Ultra и новые цены

Добавили Sakana Fugu Ultra. Модели пока нет даже на OpenRouter. Цена: 500 ₽ / 3000 ₽ за 1M входных и выходных токенов.

Снизили цены на DeepSeek V4 Pro. Теперь 43 ₽ / 87 ₽ вместо 191 ₽ / 382 ₽ за 1M входных и выходных токенов.

До 1 июля DeepSeek V4 Flash доступна на 50% дешевле официальных цен. Стоимость составляет 4 ₽ / 8 ₽ за 1M входных и выходных токенов.

Пробуйте: dslab.tech/ai
Please open Telegram to view this post
VIEW IN TELEGRAM
50👍29🤯10🔥9🤨7🗿5🤩2🕊1🎄1
Интересно. Google DeepMind заключили партнерство с киностудией A24

Это та студия, которая выпустила «Марти Великолепный», «Все везде и сразу» и «Закулисье реальности».

Google вкладывают в них 75 миллионов долларов и объявили, что будут вместе заниматься разработкой ИИ-технологий для всех этапов производства кино.

Ждем Gemini Omni Pro…
2118👍32🔥22🗿8🤯43🍾2🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
Два твита == минус 250 миллиардов долларов

После того, как о своем уходе из DeepMind в OpenAI и Anthropic объявили два ключевых сотрудника (Ноам Шазир и Джон Джампер) акции компании упали аж на 6%. Это один из худших дней акций Alphabet за последний год.

F 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
😁15274🤯1514🐳5🔥3💯3😎3👍22🏆1
Выбираем железо для обучения и инференса моделей 🔝

Простая формула: чем больше у модели параметров, тем более мощное железо нужно для ее инференса. Найти решение для нейросетей разного масштаба можно в Selectel.

Более 15 моделей видеокарт — от RTX 4090 до B300 — доступны к аренде в облаке и на выделенных серверах. Облачные серверы подойдут для тех, кому нужна гибкость и быстрая масштабируемость, а выделенные — когда необходима физическая изоляция инфраструктуры, а нагрузки стабильные. Видеокарты в облаке можно арендовать даже на час, цена стартует от 5 рублей.

Выбирайте оптимальный сервер с GPU и арендуйте его от 5 рублей в час: https://slc.tl/aitoq

Реклама. АО "Селектел". erid:2W5zFJumeY9
12🤨6🔥4🐳4🗿3👍1😁1🏆1🍓1😎1
Обновленная GPT‑5.5‑Cyber обошла Mythos на поиске уязвимостей в коде

openai.com/index/daybreak-securing-the-world/

OpenAI объявили, что выводят модель из превью, и теперь партнерам и отдельным кибербезопасникам будет доступна полная версия GPT-5.5-Cyber.

На CyberGym – основном крупном бенче по работе с уязвимостями – модель набрала 85.6%. Mythos на нем же набирает 83.8%.

Самое интересное, что в списке партнеров, которым предоставляется модель, фигурируют не только американские компании. Наверное, правительство США должно это ограничить, как и в случае с Anthropic. Правда? Правда же?…
😁319🤯32🔥19👍1064👌44🍾2🍓1🤗1
Мы

Не отрицайте
😁52478🔥30💯1717👍4🫡32🤯2🍾2🆒1
Почему AI не ускорил разработку в 10 раз

Последние два года все обсуждают, как агенты пишут код. Но в реальных больших продуктах выясняется неожиданная вещь: даже после массового внедрения AI ускорение часто составляет не иксы, а только десятки процентов. Встает вопрос: почему?

Вот тут нашли совсем свежий интересный доклад на эту тему. Выступает Артур Василов, руководитель мобильной разработки Яндекс Браузера. Он рассказал, что они разными способами измеряли эффекты от ИИ, и увидели похожую картину: да, разработчики действительно работают быстрее, но нет, революции пока не произошло.

Причина в том, что кодинг – лишь одна часть большого конвейера. Помимо него есть менеджеры, дизайн, тестирование, кодревью, релизы и множество других этапов. Если ускорить только написание кода, узкое место просто смещается дальше по цепочке.

Поэтому глобально новый тренд в бигтехах, в том числе в Яндексе, не столько на ИИ-агентов как ассистентов, сколько на автоматизацию целых процессов. Команда выделяет повторяющиеся инженерные задачи, которые раньше никто не автоматизировал из-за высокой стоимости разработки, и автоматизирует их с помощью ИИ.

Например, в Яндексе куча людей работают над конфликтами и ошибками при выходе новых версий Chromium. Раньше почти вся эта работа выполнялась вручную. Теперь для таких сценариев строятся специализированные AI-пайплайны, которые помогают разбирать и исправлять подобные проблемы автоматически.

Именно в автоматизации вот таких больших кусков инженерной рутины и лежит основной резерв для ускорения разработки, и это уже действительно будет ускорение в разы.
🤔9328🗿27👍25💯6🤨5🤯3🔥21🕊1🆒1
Ходят слухи, что Anthropic собираются выпускать новую модель

Пару дней назад какие-то инсайдеры говорили, что у них якобы уже готов Mythos 5.1 и соответствующая версия Fable, но по понятным причинам эти модели пока будут жить только внутри стартапа.

Теперь пишут, что на этой неделе антропики собираются выпускать Sonnet 5: модель уже заметили в логах у некоторых провайдеров. Ожидаем 1М контекста, хорошие показатели в кодинге и выгодное соотношение цена/качество.

Решили долго не горевать, дистиллировать Fable в "Sonnet 5" и выпустить заново 👨‍🦯
Please open Telegram to view this post
VIEW IN TELEGRAM
😁26854👍2515😎3🤔2👌1💯1🎄1
Media is too big
VIEW IN TELEGRAM
Anthropic выпустили Claude Tag, и Андрей Карпаты назвал это третьим мощным редизайном UX в истории LLM

Теперь Claude можно добавить как члена команды в канал Slack, вызывать его через @ и делегировать ему задачи.

Он тут же пойдет выполнять таску и вернется с результатами в тот же чат, где можно продолжить диалог и смерджить готовый код, не отрываясь от основной переписки с коллегами. Причем разговор с Claude может перехватить любой человек из канала. Пример ⬆️

Обновление создано для более проактивного и бесшовного стиля работы агента. По словам Anthropic, теперь 65% кода внутри стартапа создается именно благодаря внутренней версии Claude Tag.

www.anthropic.com/news/introducing-claude-tag

А Андрей Карпаты написал про Claude Tag следующее:

Это новая парадигма для взаимодействия с Claude. Имхо, это 3-й крупный редизайн LLM UIUX. Первый заключался в том, что LLM - это веб-сайт, на который вы заходите; второй – в том, что это приложение, которое вы загружаете на свой компьютер. Третий же про то, что это автономная, стойкая, асинхронная сущность с общеорганизационными инструментами и контекстом, работающая вместе с командами людей. Понимание этого займет некоторое время, но это работает, и это потрясающе.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥14452🔥20🤯20😁14🤔10👍953🎉1🦄1
Многие ML-инженеры (инженеры машинного обучения) сталкиваются с одной и той же ситуацией: опыта становится больше, задачи — сложнее, а следующий карьерный шаг так и не происходит

Специалист уверенно работает с моделями, строит пайплайны (конвейер обработки данных), участвует в экспериментах, решает задачи своей команды. Но вакансии уровня ведущего специалиста или руководителя команды требуют опыта с системами и направлениями, которых в текущем проекте просто нет.

Поэтому многие делают ставку на дальнейшую специализацию: изучают новые архитектуры, глубже погружаются в модели и совершенствуют текущие навыки.

Но проблема в том, что переход на следующий профессиональный уровень часто связан не столько с углублением существующих компетенций, сколько с их расширением.

На более высоких позициях ценится не только умение обучать модели, но и понимание прикладных ML-систем: рекомендательные системы, ранжирование, эксперименты, MLOps (сопровождение машинного обучения), динамическое ценообразование и другие прикладные задачи, напрямую влияющие на продукт и бизнес.

Поэтому дополнительное обучение для опытных специалистов часто становится способом получить опыт в областях, до которых сложно дотянуться в рамках текущего проекта.

Этой задаче посвящен курс Валерия Бабушкина «Продвинутое машинное обучение» от karpovꓸcourses. Его особенность в том, что программу не обязательно проходить целиком. Можно выбрать только те блоки, которые нужны именно сейчас: рекомендательные системы, ранжирование, MLOps, A/B-тестирование, uplift-моделирование (моделирование прироста эффекта) или динамическое ценообразование.

Такой формат позволяет изучать только те компетенции, которые действительно нужны для следующего карьерного шага, экономя и время, и ресурсы на лишние учебные блоки.

Выберите направления, которых сейчас не хватает для интересующих вас ролей, а по промокоду JUNML15 получите скидку 15%: https://clc.to/erid_2W5zFJD9PUm

Реклама. ООО «КАРПОВ КУРСЫ». ИНН 7811764627. erid: 2W5zFJD9PUm
😁5917🤨14🗿116👍55🦄33🔥2🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
GLM-5.2 теперь можно запустить локально

Unsloth сделали отличные GGUF 2-bit и 4-bit. Модель 2-bit сохраняет ~82% точности модели и при этом уменьшает потребление памяти на 84%. Запускается на 256GB Mac.

Можно взять даже 1-bit, и все равно будет норм. На простом примере по сравнению с Claude 4.8 Opus и GPT-5.5 модель ведет себя удивительно хорошо ⬆️

huggingface.co/unsloth/GLM-5.2-GGUF

Инструкция по запуску
Please open Telegram to view this post
VIEW IN TELEGRAM
🕊8952👍32🔥21😁7🤨6🤔4🍾31💯1🫡1