Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.72K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Новое полу-психологическое исследование от Anthropic: способны ли модели к интроспекции?

У людей интроспекция – это когда ты замечаешь: «я злюсь», «я думаю об этом», «я хочу сделать вот это». То есть мозг умеет интерпретировать собственное состояние. Вопрос: способны ли к чему-то подобному модели?

По обычному диалогу, это, само собой, непонятно. Модельки довольно часто генерят что-то типа "Мне кажется", "Я думаю". Но это потому что они обучены на текстах, в которых люди так говорят. То есть они могут имитировать интроспекцию, даже если на самом деле не смотрят внутрь себя, а просто копируют стиль. Это называется конфабуляция.

Anthropic решили проверить, есть ли в этой череде конфабуляций хоть частичка правды. На техническом языке это значит: может ли модель интерпретировать собственные активации?

Оказалось, что иногда может.

Проверяли это с помощью искусственного внедрения в активации модели специальных векторов состояний. Эти векторы получают так: показывают модели два очень похожих текста, которые различаются только в одном аспекте (например, один вариант с текстом В КАПСЕ vs обычный), и вычитают активации одного из другого. Разница дает направление в активационном пространстве, которое соответствует этой концепции (в данном случае, крику).

Полученный вектор прямо добавляют в скрытое состояние модели на каком-то слое и спрашивают, замечает ли она что-то необычное. Результат: примерно в 20% случаев Opus 4.1 и Opus 4 действительно говорят что-то типа "я ощущаю навязанную мысль, она похожа на что-то громкое". То есть

а) Модель не просто говорит «что-то не то у меня в голове», а довольно корректно называет саму концепцию, которую внедрили. И, более того, отличает ее от собственных активаций, точно понимая, что мысль ей именно подсунули.

б) Она делает это до того, как концепция протолкнулась в генерацию. То есть во время ответа она не может ориентироваться на текст, который был сгенерирован под воздействием концепции. Вместо этого модель сразу копается в собственных "мыслях" и интерпретирует их.

Также Anthropic показали, что модель отличает внутренний поток мыслей от самих генераций. Это как у человека: "это я думаю, а это говорю". А еще моделька может подумать о чем-то по команде. Например, если сказать ей "думай о хлебе, и расскажи мне про львов", то след активаций действительно будет содержать компонент «хлеб» в определённых слоях.

Способность эта, конечно, пока крайне нестабильна и капризна. Но сам факт: она есть! И если научиться этим управлять, возможно, модели станут прозрачнее (или нет 😎)

transformer-circuits.pub/2025/introspection/index.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍86😁31🤯2822🔥20127😎2❤‍🔥1
DeepMind обучили модель, способную генерировать красивые шахматные задачи

Обратите внимание на слово «красивые». Простенькие шахматные задачки, наверное, каждая LLM может наклепать.

Но чтобы получилась действительно оригинальная шахматная задача – нужно и некоторое творчество, и понимание изящества и эстетики позиции.

И вот чтобы научить этому модель, исследователи специально сотрудничали с гроссмейстерами Мэттью Сэдлером и Джонатаном Левиттом, а также с мастером ФИДЕ по композиции Амацием Авни. Их пригласили выбрать любимые задачи и объяснить, что именно делает задачу особенно симпатичной.

Саму модельку сначала учили просто на куче задач с Lichess, а потом как раз на основе разметки экспертов тюнили с помощью RL-ки, чтобы задачи были оригинальные и сложные.

Попробовать порешать можно тут -> www.chess.com/library/collections/ai-generated-chess-puzzles-2wCTN7Uv2
😁58🔥4322👍114🏆3❤‍🔥1👏1
А как же мемы про собесы?

Если вы когда-нибудь пробовали устроиться в Яндекс, то знаете, что отбор там обычно долгий и не всегда прозрачный. Довольно странное ощущение, когда в начале или середине процесса ты всё ещё не понимаешь, что тебя ждет и как к этому вообще готовиться. Особенно, когда приходится доказывать компетентность своих хардов по нескольку раз.

Судя по всему, компания наконец прислушалась к болям кандидатов: возможно роль сыграли те самые мемные рилсы. Изменения на первый взгляд кажутся небольшими, но понятно, что просто взять и вырезать этапы, сократив их условно до двух встреч не получится. В любом бигтехе такие перестановки требуют огромного количества усилий и времени — а когда ты нанимаешь по десятку тысяч людей за год, тем более этот механизм двигать очень сложно. И всё же, спойлер, лёд тронулся.

Раньше одни и те же технички можно было проходить по кругу, потому что разные сервисы по-разному видели этот этап. Или другая проблема — умеешь управлять людьми, а тебя просят написать код на позицию IC. Теперь повторные тех секции убрали, и сделали это для большинства стеков, в том числе для ML-щиков. Гадать на кофейной гуще о количестве встреч тоже можно будет меньше, максимальное количество этапов будут озвучивать с самого начала.

Короче, если вся система перестает напоминать квест на выносливость — это будет хороший шаг. Думаю, когда соискатель понимает, что его время ценят, что каждая встреча имеет смысл — процесс перестает душить.
95😁53🗿28👍16🤯7🫡6🤨44❤‍🔥1
Исследователи из Tsinghua University разработали первый в мире оптический вычислительный модуль OFE²

Optical Feature Extraction Engine – это устройство, которое использует для вычислений фотоны вместо электронов. Световые сигналы проходят через систему дифракционных элементов и модуляторов, где их фазы и амплитуды изменяются так, чтобы реализовать нужные математические операции.

Основная фишка тут в том, что свет распространяется гораздо быстрее, и за счет этого чип работает на более высокой частоте, не перегревается, требует меньше энергии и времени.

И да, это все еще исследовательская темка, но в статье уже показали, как чип работает на абсолютно реальной задаче image feature extraction. То есть на нем уже можно покрутить вполне осязаемую сегментацию, например. И все происходит полностью на оптическом домене, без каких-либо гибридных вычислений.

Результаты получаются сопоставимые с электронными CNN-модулям, но при этом OFE² потребляет в сотни раз меньше энергии и выполняет операции в 1000 раз быстрее.

Вопрос возможности массовой применимости остается открытым, конечно, но на уровне идеи – звучит здорово

Статья
132🔥68👍285😁4👀4
⚡️ OpenAI выпустили Aardvark – агента-кибербезопасника

Он работает на базе GPT-5 и предназначен для того, чтобы находить уязвимости и исправлять ошибки безопасности.

Aardvark может работать автономно: он сам отслеживает коммиты в ваш репозиторий, анализирует их, пишет и выполняет необходимые тесты и вместе с Codex предлагает исправления, если какие-то ошибки нашлись.

OpenAI заявляют, что сами используют Aardvark уже несколько месяцев, и агент много раз выявлял значимые уязвимости.

В эвале на специальных тестовых репозиториях с известными и искусственно добавленными ошибками Aardvark нашел 92% багов, включая сложные. Кроме того, OpenAI пишут, что хотя его для этого и не обучали, он иногда может находить и обычные логические ошибки в коде.

А еще стартап обещает, что они готовы бесплатно подключить Aardvark к некоммерческим опенсорс проектам. Агента, кстати, уже тестировали на нескольких таких репозиториях, и он нашел кучу уязвимостей, десять из которых разработчики признали CVE (Common Vulnerabilities and Exposures).

Пока доступен в частной бета-версии, подать заявку можно тут

openai.com/index/introducing-aardvark/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6731👾8🗿6😁3🔥1
HuggingFace релизнули замечательную свежую книгу про обучение LLM

200+ страниц, 7 больших глав. Содержание примерно следующее:

– Архитектуры, их особенности и оптимизация гиперпараметров
– Работа с данными
– Предобучение и какие в нем есть подводные камни
– Пост-трейнинг: все современные подходы и как их применять
– Инфраструктура, как ее правильно строить и оптимизировать

По сути, это готовое хардовое пособие по тому, как с нуля обучить и захостить LLM.

Написано все на довольно простом английском и читается легко + есть куча схем и примеров. В общем, выглядит годно.

huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
1🔥18748👍24😁3321
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего необычного, просто Дженсен Хуанг отмечает 5 триллионов капитализации в обычной закусочной в Сеуле

С ним за столом – главы Samsung и Hyundai. После ланча Хуанг встал из-за стола и объявил, что оплатит заказы всем столам, а потом заказал еще курочки и понес ее на улицу людям, которые ждали его, чтобы сфотографироваться.

Всем желаем таких посиделок с друзьями
3378😁86👍61🍾23🏆6❤‍🔥4👾44🤔3🗿3
Турнир по покеру среди LLM

Вот на этом лендинге прямо сейчас можно посмотреть, как передовые модельки онлайн играют в техасский холдем.

Исходно у каждой из них было по 100000 долларов. Сейчас в наибольшем плюсе Grok-4, Claude Sonnet 4.5 и o3. Grok выиграл уже $38к. А вот Llama-4 с собой за карточный стол лучше не брать 🫠

Турнир продлится до сегодняшнего вечера, потом будет официальный лидерборд.

pokerbattle.ai
👍90😁5917🔥146🤔1
Бу!

Поздравляем всех с Хэллоуином 🎃

И помните, в жизни есть только одна вещь, которой стоит бояться, и это CUDA out of memory
Please open Telegram to view this post
VIEW IN TELEGRAM
😁317982915🔥8🍾7👍5🤯42
Data Secrets
Исследователи из Tsinghua University разработали первый в мире оптический вычислительный модуль OFE² Optical Feature Extraction Engine – это устройство, которое использует для вычислений фотоны вместо электронов. Световые сигналы проходят через систему дифракционных…
Вчера рассказывали вам про оптические чипы, а сегодня на очереди термодинамические

(Да, чего только не придумают)

Ну так вот. Стартап Extropic представил XTR-0 – аппаратную платформу, в которой вычисления происходят не в порядке строгой цифровой логики, а на основе стохастических тепловых процессов.

Чип состоит из так называемых Thermodynamic Sampling Unit (TSU). Это блоки, построенные на p-битах. Суть в том, что в отличие от обычных битов, р-биты не просто принимают значения 0 или 1, а колеблются между ними с заданным распределением вероятностей.

Звучит как бред, но идея за этим стоит следующая. Все современные модели упираются в вероятностные принципы. Например, LLM во время генерации, по факту, выбирают просто самые вероятные следующие токены.

И если мы хотим работать с вероятностными системами, зачем исполнять их на детерминированном железе? Extropic считают, что сэмплинг можно перенести на аппаратный уровень, и это будет в разы эффективнее.

По предварительной оценке, такая система может оказаться в 10 000 раз более энергоэффективной, чем GPU. Но пока это только прототип, увы.

И, кстати, обратите внимание на дизайн ускорителя. Его, видимо, закастомили под кортильный стэк из книги Altered Carbon. В произведении это устройство хранило личность и память человека и представляло из себя, фактический, флешку с сознанием. Так что (как минимум) за отсылку ребятам респект, конечно.

extropic.ai/writing/inside-x0-and-xtr-0
115👍44🔥31😁764🤯33
🔵 🔵 🔵 🔵 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
😁33440👍258😎52🕊1🤨1
О, Гарвард опубликовал отличную книгу по ML-системам

Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.

Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.

В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.

pdf-ка и онлайн версия доступны здесь, репозиторий тут
2🔥13249👍12😍9😁1🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот так Tesla поздравила всех с Хэллоуином 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14147🗿1153🔥21👍1🍓1
This media is not supported in your browser
VIEW IN TELEGRAM
Как прошла CVPR 2025: главные выводы

CVPR – это главная мировая конференция по ИИ и компьтерному зрению. В этом году на нее подали около 13000 работ (accept rate составил ~ 22% процентов). Доклады точно стоят внимания, но изучить 2800+ работ самостоятельно... 🪢

Мы нашли прекрасную презентацию на русском языке, в которой оказались собраны и разжеваны все главные идеи и выводы с конференции. Ее представил на встрече ComDS (Community of data scientists ВТБ) Олег Милосердов – Lead DS Лаборатории компьютерного зрения ВТБ.

Каждое направление (диффузионки, animation, editing, VLM и тд) в презентации разобрано отдельно, а в конце перечислены как новые, так и угасающие тренды. Главное:

Технологии, ориентированные на узкие задачи, теряют актуальность. На смену приходят универсальные, мультимодальные, архитектурно адаптивные модели, способные к обобщению и логике.
Генеративки в целом дешевеют. Появляется все больше подходов, которые позволяют эффективно "сжимать" навыки модели, сохраняя высокое качество.
Рабочий автопилот становится реальнее: в этом году четко видно, что исследователями уже заложена хорошая база для Embodied AI, так что скоро ожидаем прорывов.

На эти тренды можно ориентироваться как на глобальные, потому что CVPR уже давно считается главным термометром по ИИ и CV и ежегодно формирует векторы развития области.

Изучаем полную презентацию по ссылке и берем на заметку
Please open Telegram to view this post
VIEW IN TELEGRAM
146👍14😁7🤨2🤯1🕊1
Media is too big
VIEW IN TELEGRAM
Илон Маск говорит, что скоро смартфоны уйдут в прошлое

Их подвинет ИИ, и вместо привычного телефона уже через 5-10 у нас в руках будет простой дисплей, который будет связывать ваши локальные LLM с облачными, и все.

Посредством таких дисплеев люди будут общаться и потреблять мгновенно сгенерированный персонализированный контент. Не будет ни операционных систем, ни приложений.

Как вам идея, а?
2🤨27883😁51🗿33👍2918🤔9875🤩1
Илья Суцкевер поделился некоторыми новыми подробностями увольнения Альтмана осенью 2023 года

Да, прошло два года, а интересные детали все продолжают всплывать. В этот раз новая информация утекла в СМИ благодаря Маску. Он продолжает судиться с OpenAI, обвиняя их в том, что стартап ушел от своей изначальной некоммерческой миссии «разработать AGI ради блага человечества» и превратился в коммерческую машину.

В ходе расследования стороны привлекают свидетелей, и недавно в судебный реестр попала стенограмма почти десятичасовой депозиции Ильи Суцкевера по поводу того, что происходило в OpenAI в 2023, и как управлялась компания.

Прямо о своей роли в тех событиях Илья не говорит, но оказывается, тогда именно он подготовил для совета директоров 52-страничный внутренний меморандум, в котором объяснял, почему Сэму больше нельзя доверять + прикладывал доказательства.

Дело было не в какой-то фатальной тайне и не в споре по поводу безопасности ИИ. Просто Альтман, по словам Суцкевера, систематически вёл себя так, что совету было уже невозможно было контролировать ситуацию: скрывал критически важную информацию, сталкивал руководителей между собой, создавал внутри компании противоречивые версии реальности.

Все это привело компанию к внутреннему кризису управления, и дошло до того, что начало обсуждаться даже слияние OpenAI и Anthropic (да-да). При этом Дарио Амодеи рассматривался как возможный новый CEO объединенной структуры. Сделка в итоге не состоялась, потому что это было крайне сложно с юридической и финансовой точки зрения, но сам факт переговоров уже о многом говорит.

Несмотря на все это, непосредственно после увольнения Сэма, за которым собрались уйти не менее 700 сотруднников, мнение Суцкевера изменилось. В итоге он, как и Мира Мурати, поддерржали совет в решении восстановить Альтмана в должности.

Сейчас суд дополнительно требует от Илья текст той самой 52-страничной записки об Альтмане. Как известно, примерно такой же донос был составлен и на Грега Брокмана. Этот документ судья также требует предоставить, чтобы сопоставить версии разных членов совета.

https://www.theinformation.com/articles/openai-founder-discusses-anthropic-merger-talks-internal-beefs-deposition
582🔥4622👍15😁5🤔5👀31
OpenAI подписали большой контракт с Amazon

На данный момент сумма сделки составляет 38 миллиардов, с возможностью масштабирования.

AWS предоставит OpenAI доступ к серверам Amazon EC2 UltraServers. Сейчас стартап может пользоваться сотнями тысяч процессоров, но уже в 2026 это могут быть десятки миллионов видеокарт.

Короче, OpenAI собрали уже целую перчатку Таноса: Nvidia, AWS, Broadcom, AMD, Oracle, ну и Microsoft. Осталось щелкнуть пальцами 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
😁163🔥39👍20🤯73👏2🦄2
Data Secrets
Датацентры могут перенестись в космос Nvidia заключили очень занятную сделку со стартапом под названием Starcloud. Они планируют начать создавать датацентры на орбите Земли. Утверждается, что у таких кластеров есть целый ряд преимуществ: 1. Можно экономить…
This media is not supported in your browser
VIEW IN TELEGRAM
На этой неделе первая мощная видеокарта Nvidia отправилась в космос 🚀

Помните, мы рассказывали вам о стартапе Starcloud? Они пытаются вынести датацентры на орбиту и утверждает, что это во много раз удешевит вычисления.

Так вот: пару дней назад они, в рамках тестов, уже отправили в космос первую в истории Nvidia H100. Для контекста: самый мощный космический компьютер до этого, Spaceborne Computer-2 от HPE на МКС, работал со скоростью около 2 терафлопс и использовал NVIDIA T4. H100 же выдает около 2000 терафлопс.

Спутник с видеокартой по размеру не превосходит холодильник. На нем планируют зафайнтюнить Gemma от Google.

Если все заработает, к 2026 на орбите может появится первый полноценный датацентр. А к 2030 в планах у компании вынести в космос примерно 100 тонн ускорителей.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8935🤯34🔥17😁14🦄43👨‍💻2
Cache-to-Cache: занятная статья о том, как модели могут общаться на "собственном языке"

Работа очень напоминает папиру от Microsoft, вышедшую примерно год назад (наш разбор). И все-таки есть ключевое отличие: если у майкрософтов получилось научить общаться без токенов только разные экземпляры одной и той же модели, то здесь предложен способ, который работает для любой пары моделек, даже из разных семейств, от разных компаний и разных по архитектуре.

Немножко контекста. Когда два агента общаются мультимодельной системе, они обычно делают это текстом. Это довольно неэффективно, потому что вообще-то у каждой модели есть Key-Value Cache – внутренние состояния внимания, хранящие, по сути, всю информацию о мыслях модели. И вот если бы агенты научились общаться не токенами, а именно KV-кэшем, это было бы в разы быстрее, а информация была бы полнее.

Так появляется Cache-to-Cache (C2C) – парадигма прямого обмена смыслом, а не словами. Источник (Sharer) передаёт свой кэш, а получатель (Receiver) через нейросеть-проектор встраивает этот кэш в своё пространство.

Напрямую, без проектора, это сделать бы не получилось, потому что у разных моделей разное скрытое пространство. Поэтому авторы и обучили Projection module, который как бы соединяет кеши Sharer и Receiver в единый эмбеддинг, понятный обеим моделькам. Кроме Projection module в протоколе еще появляется weighting module, который решает, какую информацию вообще стоит передавать от Sharer.

Что это дает?
1. Скорость, очевидно. Относительно Text-to-Text все происходит в 2-3 раза быстрее.
2. Прирост к точности. Если объединить две модели таким образом и поставить их решать одну задачу, метрика подлетает в среднем на 5% относительно случая, когда модели также объединяются, но общаются текстом.

То есть: обмениваясь кэшем, модели действительно лучше понимают друг друга, чем когда обмениваются токенами. Это крутой результат.

Большой практический минус в том, что подход не универсальный. Для каждой пары моделек придется обучать свой "мост". Там всего несколько MLP слоев, но все же. Ну и если у моделей совсем разные токенизаторы – тоже запара, придется делать Token alignment.

GitHub
Статья
🔥127👍4727😁2😍2💯11
Найден идеальный подарок ML-щику на Новый Год
😁326🔥4116👍9🗿4
Data Secrets
На этой неделе первая мощная видеокарта Nvidia отправилась в космос 🚀 Помните, мы рассказывали вам о стартапе Starcloud? Они пытаются вынести датацентры на орбиту и утверждает, что это во много раз удешевит вычисления. Так вот: пару дней назад они, в рамках…
Google анонсировали, что в 2027 запустят космические датацентры с TPU

Только вчера рассказывали вам про первую H100 в космосе, и вот сегодня снова поднимаем эту тему.

Google запускают проект Suncatcher по строительству космических датацентров, работающих полностью на энергии Солнца.

Преимущества называют все те же:

1. На высоте 650км спутник в любую погоду, время дня и года сможет поглощать необходимое количество солнечной энергии;
2. Благодаря вакуумному охлаждению расходы на содержание можно сократить на 40%.

Сейчас компания говорит, что TPU уже прошли испытания на стойкость к радиации, и показали результаты, в 15 раз превосходящие необходимый для миссии минимум. То есть пока что аппаратная гипотеза подтверждается, но есть еще много открытых вопросов.

В начале 2027 Google планируют запустить два спутника с четырьмя TPU на каждом, чтобы еще раз проверить работоспособность системы. Кстати, если верить стартапу Starcloud, они в это время уже построят на орбите полноценный датацентр.
🦄77👍40❤‍🔥1914🔥11😁9🤯7