Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.72K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
В ближайшие полтора года OpenAI начнет продавать свои акции публично

К концу 2026 компания планирует подать документы, а к началу 2027 акции окажутся в продаже. Видимо, процесс запустился немедленно после недавней реструктуризации компании (она сделала OpenAI пригодной для публичного листинга).

Выход на биржу рассматривается с оценкой до $1 триллиона. Это один из крупнейших IPO в истории.

Для стартапа IPO – еще один способ привлечь капитал. Сейчас они ведут предварительные переговоры с инвесторами о вложениях минимум $60 миллиардов с возможным увеличением суммы на стадии размещения.

💸
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯75😁2810🤔8👍7🤩4🦄4🔥3🗿3
Nvidia официально достигла капитализации в 5 триллионов долларов

Компания стала первой в истории, кто преодолел этот рубеж на фондовом рынке: причем буквально через три месяца после достижения капитализации в 4 триллиона.

Динамика просто потрясающая. С момента релиза ChatGPT оценка выросла более чем в 10 раз, и рост продолжает ускоряться (сколько принесли одни только последние контракты с OpenAI и xAI).

У одного тайваньского бизнесмена сегодня хорошее настроение 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯101289🔥8😁8😎6👍1
Лучшие мемы прямо сейчас – это мемы про нового робота NEO
4😁309👍19174🔥3🫡1
MWS AI обновила свою модель Cotype Pro 2.5: свежая версия заняла первое место среди российских моделей на бенчмарке MERA

Теперь модель больше заточена под агентские сценарии. Ее можно связать с корпоративной базой знаний или кодовой базой, а также со всевозможными CRM, почтовыми сервисами, календарями и тд. Получается довольно глубокая агентная интеграция.

Кроме того, модель прокачали для многошаговых задач: теперь с ее помощью можно автоматизировать довольно сложные процессы, которые требуют, например, последовательной сверки с данными и автономной работы с разными корпоративными сервисами.

По заявлению компании, эффективность работы модели в таких сценариях превосходит Cotype Pro 2 в десять раз, а Qwen3-32B – в 2,5 раза. 

Количество юзкейсов для модели просто огромное. На ее базе МТС также планирует создавать уже готовых ИИ-ассистентов для бизнеса под разные задачи.
1🔥60😁3224👍13🗿9👏3🤯3❤‍🔥1
Новое полу-психологическое исследование от Anthropic: способны ли модели к интроспекции?

У людей интроспекция – это когда ты замечаешь: «я злюсь», «я думаю об этом», «я хочу сделать вот это». То есть мозг умеет интерпретировать собственное состояние. Вопрос: способны ли к чему-то подобному модели?

По обычному диалогу, это, само собой, непонятно. Модельки довольно часто генерят что-то типа "Мне кажется", "Я думаю". Но это потому что они обучены на текстах, в которых люди так говорят. То есть они могут имитировать интроспекцию, даже если на самом деле не смотрят внутрь себя, а просто копируют стиль. Это называется конфабуляция.

Anthropic решили проверить, есть ли в этой череде конфабуляций хоть частичка правды. На техническом языке это значит: может ли модель интерпретировать собственные активации?

Оказалось, что иногда может.

Проверяли это с помощью искусственного внедрения в активации модели специальных векторов состояний. Эти векторы получают так: показывают модели два очень похожих текста, которые различаются только в одном аспекте (например, один вариант с текстом В КАПСЕ vs обычный), и вычитают активации одного из другого. Разница дает направление в активационном пространстве, которое соответствует этой концепции (в данном случае, крику).

Полученный вектор прямо добавляют в скрытое состояние модели на каком-то слое и спрашивают, замечает ли она что-то необычное. Результат: примерно в 20% случаев Opus 4.1 и Opus 4 действительно говорят что-то типа "я ощущаю навязанную мысль, она похожа на что-то громкое". То есть

а) Модель не просто говорит «что-то не то у меня в голове», а довольно корректно называет саму концепцию, которую внедрили. И, более того, отличает ее от собственных активаций, точно понимая, что мысль ей именно подсунули.

б) Она делает это до того, как концепция протолкнулась в генерацию. То есть во время ответа она не может ориентироваться на текст, который был сгенерирован под воздействием концепции. Вместо этого модель сразу копается в собственных "мыслях" и интерпретирует их.

Также Anthropic показали, что модель отличает внутренний поток мыслей от самих генераций. Это как у человека: "это я думаю, а это говорю". А еще моделька может подумать о чем-то по команде. Например, если сказать ей "думай о хлебе, и расскажи мне про львов", то след активаций действительно будет содержать компонент «хлеб» в определённых слоях.

Способность эта, конечно, пока крайне нестабильна и капризна. Но сам факт: она есть! И если научиться этим управлять, возможно, модели станут прозрачнее (или нет 😎)

transformer-circuits.pub/2025/introspection/index.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍86😁31🤯2822🔥20127😎2❤‍🔥1
DeepMind обучили модель, способную генерировать красивые шахматные задачи

Обратите внимание на слово «красивые». Простенькие шахматные задачки, наверное, каждая LLM может наклепать.

Но чтобы получилась действительно оригинальная шахматная задача – нужно и некоторое творчество, и понимание изящества и эстетики позиции.

И вот чтобы научить этому модель, исследователи специально сотрудничали с гроссмейстерами Мэттью Сэдлером и Джонатаном Левиттом, а также с мастером ФИДЕ по композиции Амацием Авни. Их пригласили выбрать любимые задачи и объяснить, что именно делает задачу особенно симпатичной.

Саму модельку сначала учили просто на куче задач с Lichess, а потом как раз на основе разметки экспертов тюнили с помощью RL-ки, чтобы задачи были оригинальные и сложные.

Попробовать порешать можно тут -> www.chess.com/library/collections/ai-generated-chess-puzzles-2wCTN7Uv2
😁58🔥4322👍114🏆3❤‍🔥1👏1
А как же мемы про собесы?

Если вы когда-нибудь пробовали устроиться в Яндекс, то знаете, что отбор там обычно долгий и не всегда прозрачный. Довольно странное ощущение, когда в начале или середине процесса ты всё ещё не понимаешь, что тебя ждет и как к этому вообще готовиться. Особенно, когда приходится доказывать компетентность своих хардов по нескольку раз.

Судя по всему, компания наконец прислушалась к болям кандидатов: возможно роль сыграли те самые мемные рилсы. Изменения на первый взгляд кажутся небольшими, но понятно, что просто взять и вырезать этапы, сократив их условно до двух встреч не получится. В любом бигтехе такие перестановки требуют огромного количества усилий и времени — а когда ты нанимаешь по десятку тысяч людей за год, тем более этот механизм двигать очень сложно. И всё же, спойлер, лёд тронулся.

Раньше одни и те же технички можно было проходить по кругу, потому что разные сервисы по-разному видели этот этап. Или другая проблема — умеешь управлять людьми, а тебя просят написать код на позицию IC. Теперь повторные тех секции убрали, и сделали это для большинства стеков, в том числе для ML-щиков. Гадать на кофейной гуще о количестве встреч тоже можно будет меньше, максимальное количество этапов будут озвучивать с самого начала.

Короче, если вся система перестает напоминать квест на выносливость — это будет хороший шаг. Думаю, когда соискатель понимает, что его время ценят, что каждая встреча имеет смысл — процесс перестает душить.
95😁53🗿28👍16🤯7🫡6🤨44❤‍🔥1
Исследователи из Tsinghua University разработали первый в мире оптический вычислительный модуль OFE²

Optical Feature Extraction Engine – это устройство, которое использует для вычислений фотоны вместо электронов. Световые сигналы проходят через систему дифракционных элементов и модуляторов, где их фазы и амплитуды изменяются так, чтобы реализовать нужные математические операции.

Основная фишка тут в том, что свет распространяется гораздо быстрее, и за счет этого чип работает на более высокой частоте, не перегревается, требует меньше энергии и времени.

И да, это все еще исследовательская темка, но в статье уже показали, как чип работает на абсолютно реальной задаче image feature extraction. То есть на нем уже можно покрутить вполне осязаемую сегментацию, например. И все происходит полностью на оптическом домене, без каких-либо гибридных вычислений.

Результаты получаются сопоставимые с электронными CNN-модулям, но при этом OFE² потребляет в сотни раз меньше энергии и выполняет операции в 1000 раз быстрее.

Вопрос возможности массовой применимости остается открытым, конечно, но на уровне идеи – звучит здорово

Статья
132🔥68👍285😁4👀4
⚡️ OpenAI выпустили Aardvark – агента-кибербезопасника

Он работает на базе GPT-5 и предназначен для того, чтобы находить уязвимости и исправлять ошибки безопасности.

Aardvark может работать автономно: он сам отслеживает коммиты в ваш репозиторий, анализирует их, пишет и выполняет необходимые тесты и вместе с Codex предлагает исправления, если какие-то ошибки нашлись.

OpenAI заявляют, что сами используют Aardvark уже несколько месяцев, и агент много раз выявлял значимые уязвимости.

В эвале на специальных тестовых репозиториях с известными и искусственно добавленными ошибками Aardvark нашел 92% багов, включая сложные. Кроме того, OpenAI пишут, что хотя его для этого и не обучали, он иногда может находить и обычные логические ошибки в коде.

А еще стартап обещает, что они готовы бесплатно подключить Aardvark к некоммерческим опенсорс проектам. Агента, кстати, уже тестировали на нескольких таких репозиториях, и он нашел кучу уязвимостей, десять из которых разработчики признали CVE (Common Vulnerabilities and Exposures).

Пока доступен в частной бета-версии, подать заявку можно тут

openai.com/index/introducing-aardvark/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6731👾8🗿6😁3🔥1
HuggingFace релизнули замечательную свежую книгу про обучение LLM

200+ страниц, 7 больших глав. Содержание примерно следующее:

– Архитектуры, их особенности и оптимизация гиперпараметров
– Работа с данными
– Предобучение и какие в нем есть подводные камни
– Пост-трейнинг: все современные подходы и как их применять
– Инфраструктура, как ее правильно строить и оптимизировать

По сути, это готовое хардовое пособие по тому, как с нуля обучить и захостить LLM.

Написано все на довольно простом английском и читается легко + есть куча схем и примеров. В общем, выглядит годно.

huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
1🔥18748👍24😁3321
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего необычного, просто Дженсен Хуанг отмечает 5 триллионов капитализации в обычной закусочной в Сеуле

С ним за столом – главы Samsung и Hyundai. После ланча Хуанг встал из-за стола и объявил, что оплатит заказы всем столам, а потом заказал еще курочки и понес ее на улицу людям, которые ждали его, чтобы сфотографироваться.

Всем желаем таких посиделок с друзьями
3378😁86👍61🍾23🏆6❤‍🔥4👾44🤔3🗿3
Турнир по покеру среди LLM

Вот на этом лендинге прямо сейчас можно посмотреть, как передовые модельки онлайн играют в техасский холдем.

Исходно у каждой из них было по 100000 долларов. Сейчас в наибольшем плюсе Grok-4, Claude Sonnet 4.5 и o3. Grok выиграл уже $38к. А вот Llama-4 с собой за карточный стол лучше не брать 🫠

Турнир продлится до сегодняшнего вечера, потом будет официальный лидерборд.

pokerbattle.ai
👍90😁5917🔥146🤔1
Бу!

Поздравляем всех с Хэллоуином 🎃

И помните, в жизни есть только одна вещь, которой стоит бояться, и это CUDA out of memory
Please open Telegram to view this post
VIEW IN TELEGRAM
😁317982915🔥8🍾7👍5🤯42
Data Secrets
Исследователи из Tsinghua University разработали первый в мире оптический вычислительный модуль OFE² Optical Feature Extraction Engine – это устройство, которое использует для вычислений фотоны вместо электронов. Световые сигналы проходят через систему дифракционных…
Вчера рассказывали вам про оптические чипы, а сегодня на очереди термодинамические

(Да, чего только не придумают)

Ну так вот. Стартап Extropic представил XTR-0 – аппаратную платформу, в которой вычисления происходят не в порядке строгой цифровой логики, а на основе стохастических тепловых процессов.

Чип состоит из так называемых Thermodynamic Sampling Unit (TSU). Это блоки, построенные на p-битах. Суть в том, что в отличие от обычных битов, р-биты не просто принимают значения 0 или 1, а колеблются между ними с заданным распределением вероятностей.

Звучит как бред, но идея за этим стоит следующая. Все современные модели упираются в вероятностные принципы. Например, LLM во время генерации, по факту, выбирают просто самые вероятные следующие токены.

И если мы хотим работать с вероятностными системами, зачем исполнять их на детерминированном железе? Extropic считают, что сэмплинг можно перенести на аппаратный уровень, и это будет в разы эффективнее.

По предварительной оценке, такая система может оказаться в 10 000 раз более энергоэффективной, чем GPU. Но пока это только прототип, увы.

И, кстати, обратите внимание на дизайн ускорителя. Его, видимо, закастомили под кортильный стэк из книги Altered Carbon. В произведении это устройство хранило личность и память человека и представляло из себя, фактический, флешку с сознанием. Так что (как минимум) за отсылку ребятам респект, конечно.

extropic.ai/writing/inside-x0-and-xtr-0
115👍44🔥31😁764🤯33
🔵 🔵 🔵 🔵 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
😁33440👍258😎52🕊1🤨1