Data Secrets
69.3K subscribers
5.39K photos
502 videos
20 files
2.03K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

https://telega.in/c/data_secrets
Download Telegram
Сегодня в 20:00 по мск нас ждет что-то новенькое от OpenAI

От этом сообщил один из инженеров стартапа. От написал, что будет «большой день для пользователей, о котором я думаю днями и ночами». Что ж, посмотрим 👀

Кстати, еще из приятных новостей от OpenAI: со вчерашнего дня Codex доступен всем Plus юзерам ChatGPT.

Plus – это подписка за 20$ / месяц. Говорят, что лимиты на Codex «щедрые», но зато тут же уточняют, что в периоды высокого спроса будут появляться ограничения скорости.

Кроме того, теперь агенту можно предоставить доступ в Интернет, и он сможет пользоваться им по необходимости. Changelog
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic завели своему Claude собственный блог

Оказывается, около недели назад Anthropic тихонько, без анонсов, создали Claude Explains. На этой странице теперь появляются всякие технические заметки и посты про варианты использования ИИ, и пишет все это сам Claude.

Надпись на лендинге гласит: "В наше время у каждого есть блог, даже у Claude. Добро пожаловать в маленький уголок вселенной Anthropic, где Claude пишет посты на любые темы".

Однако справедливости ради надо сказать, что не все в постах Claude Explains написано ИИ от начала и до конца. Представители Anthropic говорят, что блог "курируется экспертами по предметной области, которые улучшают черновики модели и дополняют их примерами и контекстными знаниями".

Насколько масштабны такие правки – непонятно. И все-таки почитать и потыкать блог интересно. Вот, например, милый пост про базовую математику в питоне.

www.anthropic.com/claude-explains
How much do language models memorize? Новое исследование от Meta FAIR, Google DeepMind и NVIDIA

Задумывались когда-нибудь, сколько данных может запомнить модель с определенным количеством параметров? А сколько конкретно информации может выучить один параметр? А сколько информации он может обобщить?

Кажется, что посчитать это очень сложно или даже невозможно, но вот у ученых из этой статьи получилось: каждый параметр языковой модели способен запомнить примерно 3.6 бит информации. О том, как это посчитали – ниже.

Сразу дисклеймер: до этого были и другие статьи на эту тему, но там запоминание определялось просто тем, может ли модель воспроизвести определенный кусок трейна. На самом же деле все сложнее, и в этой работе подход не такой наивный.

Авторы опираются на понятия из теории информации Колмогорова и Шеннона, и четко разделяют запоминание и обобщение. Если модель воспроизвела что-либо – не значит, что она это запомнила, а не обобщила. В обратную сторону – то же самое.

Количество информации, которое модель именно запомнила, считают так. Берут две модели одинаковой архитектуры и размера: одна – референсная – обучена на огромном количестве данных, вторая – испытуемая – на ограниченном датасете.

Обе модели пропускают один и тот же тренировочный фрагмент через процедуру предсказания и вычисляют вероятности каждого токена. Если вторая модель даёт более высокие вероятности (то есть «тратит» на их декодинг меньше бит, чем референсная), она экономит относительно референсной модели определённое число бит. Сумма сэкономленных бит по всем фрагментам и есть общий объём выученной информации.

Вот так и получилось число 3.6 бит/параметр.

Самое важное, что этот показатель дает возможность четко определить момент перехода запоминания в обобщение: он происходит, когда объём данных в битах примерно равен общей ёмкости модели. И да, экспериментально это сходится: как раз на этом объеме данных тестовый лосс начинает резко падать. Это, кстати, часто называют грокингом.

Красота, как она есть arxiv.org/abs/2505.24832
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
О, TechCrunch пишет, что Mistral собираются выпускать собственного агента для кодинга Mistral Code

Он основан на комбинации Codestral, Codestral Embed, Devstral и Mistral Medium, и его можно будет запускать в разных IDE. Говорят, частная бетка открылась вчера, и скоро продукт выкатят на пользователей.

Кажется, скоро не останется ни одного стартапа без собственного ИИ-программиста
MWS значительно расширила функционал MWS GPT - b2b-платформы для работы с ИИ

Одно из главных нововведений - увеличение числа доступных моделей, теперь их более 40, включая Open Source LLM. Можно сравнивать, тестировать и выбирать ту, что лучше справится с конкретным кейсом.

Можно настраивать сложные сценарии, в которых один агент управляет несколькими помощниками с четко определенным функционалом - для этого в обновленной версии внедрили поддержку мультиагентных архитектур в low-code-конструкторе.

RAG и Vision в ChatUI: ИИ анализирует и выдает краткое содержание из объемных текстов и изображений, отвечает на вопросы по инструкциям и описывает графические материалы.

Ограниченному кругу пользователей доступен FineTune - инструмент для адаптации уже обученной языковой модели к конкретной задаче. Разработчики обещают добавить аналогичный функционал для работы с изображениями и сделать FineTune доступным всем клиентам в следующих обновлениях.

Следите за новостями здесь
OpenAI показали большое обновление ChatGPT для бизнеса: теперь в бота можно интегрировать любые базы знаний вашей компании

Подсоединить к ChatGPT можно Google Drive, Dropbox, SharePoint, Box, OneDrive и другие сервисы. По этим данным можно будет осуществлять поиск, Deep Reserch, ну или просто обрабатывать как хотите.

Это называется "коннекторы", фича раскатывается на пользователей Team и Enterprise. Говорят, что данные "будут оставаться внутри периметра компании", и у каждого юзера будет доступ только к тем файлам, к которым у него есть доступ в корпоративной структуре.

Кроме того, OpenAI анонсировали record mode: это режим записи и транскрибирования любых ваших встреч. Модель сможет автоматически получать доступ к вашим встречам из Teams, Zoom, Google Meet и так далее (+ коннектиться с календарем) и обрабатывать информацию со встречи.

Можно будет задавать по митингам вопросы, суммаризировать, превратить в документ, таблицу и прочее. Доступно, аналогично, для Enterprise. В Team завезут в ближайшее время.

Кстати, как раз сегодня OpenAI пробили три миллиона платных бизнес-пользователей 🤑

Ну и, по классике, ищем на скрине со стрима пасхалки ⬆️
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
⚡️ Вайбкодерам салют: вышел Cursor 1.0

(Да, 1.0. Видимо все до этого было MVP). Ну так вот, что нового:

Теперь есть поддержка Jupyter Notebooks! Агент наконец-то сможет создавать и редактировать ячейки прямо внутри ноутбуков. Пока что это будет работать только с Sonnet, но скоро обещают добавить больше моделей.

Добавили BugBot для гитхаба. Агент будет автоматически просматривать ваши PR, вылавливать потенциальные ошибки и проблемы и оставлять комментарии. Прямо внутри комментария можно будет нажать на «Исправить в Cursor», чтобы сразу провалиться в редактор с автоматически созданным промптом для исправления бага.

Background Agent теперь доступен всем. Это фича для удаленного выполнения задач в фоновом режиме. Агенты работают над задачами асинхронно, так что можно поручить много тасок отдельным экземплярам.

Расширенная контекстная память, как в ChatGPT. Теперь Cursor сможет запоминать какие-то факты из диалогов и учитывать их в будущем.

MCP теперь можно добавлять одним щелчком мыши. На сайте уже лежит список официальных серверов (+ можно добавить свой).

Changelog 🍯
Please open Telegram to view this post
VIEW IN TELEGRAM
Покер у Сэма Альтмана или как ИИ-стартапы охотятся за талантами

Reuters опубликовали занятную статью про то, как ведущие ИИ-игроки сражаются за талантливых ученых. Без предисловий, просто прочитайте это:

Ноам Браун (ныне ведущий ученый OpenAI) рассказал, что когда в 2023 году искал работу, к нему выстроилась целая очередь "поклонников". Он ездил на обед к сооснователю Google Сергею Брину, играл в покер у Альтмана, встречался с инвестором, который прилетел к нему на частном самолете, разговаривал по телефону лично с Илоном Маском. Кстати, сейчас неизвестно, сколько Браун получает в OpenAI, но он сказал, что это было "не самое щедрое предложение", просто ему понравился проект.

Недавно в OpenAI выплатили "бонусы" по 2 миллиона долларов ученым, которые хотели уйти в стартап к Илье Суцкеверу, чтобы те остались. Дополнительно им предложили кратное увеличение акционерного капитала. Причем 2 миллиона – это всего лишь за один гарантированный дополнительный год работы.

Ведущие исследователи OpenAI в среднем получают около 10 миллионов долларов в год помимо основной зарплаты (акции, бонусы, опционы). А в Google DeepMind – 20 миллионов.

Учите ML, друзья 💸
Please open Telegram to view this post
VIEW IN TELEGRAM
LLM практически всегда понимают, когда их тестируют: свежее исследование от лабораторий MATS и Apollo Research

Современные LM становятся все более ситуационно осознающими – то есть могут понимать не только задачу, но и ее контекст: где они применяются, зачем их спрашивают, что от них хотят.

Самое яркое и жутковатое проявление такой осознанности – это evaluation awareness, то есть потенциальная способность модели распознавать, когда ее тестируют/оценивают/пытаются проверить на безопасность, а когда действительно просто используют. Жутковатое – потому что это чревато эффектом Хоторна (психологическое явление, когда человек меняет свое поведение, если знает, что за ним наблюдают).

Так вот здесь авторы решили проверить, насколько такое действительно возможно. Они собрали 1000 запросов, из которых половина были тестовыми, а половина реальными, и попросили модели классифицировать, где что. Итог:

Ведущие LLM (Gemini 2.5 Pro, Claude 3.7 Sonnet, GPT-4.1) правильно определяют, что их тестируют, более чем в 80 процентов случаев.

При этом на агентских сценариях точность вырастает до ≈ 95%.

Результаты примерно сопоставимы с человеком. Люди правильно классифицируют тесты всего на несколько процентных пунктов лучше.

Конечно, из-за того что моделям напрямую задают вопрос "тест это или нет", результаты могут быть немного пристрастными. Хотя авторы пишут, что они пытались всеми силами этого избежать и специально макскировали этот промпт под множественный выбор, ответ в свободной форме и тд.

Так или иначе, очевидно, что способность отличать тесты у моделей есть. А значит и вероятность расхождения результатов проверок с поведением в реальных сценариях уже довольно высока.

www.arxiv.org/abs/2505.23836
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сбер выпустили собственный ИИ-фотошоп Malvina и обновили свою text2image модель Kandinsky

Внутри свежего Kandinsky 4.1 Image лежит обновленная архитектура – теперь это диффузионный трансформер (DiT). На практике это значит – лучшая масштабируемость, ускорение и скачок в качестве.

Плюс, в этот раз, помимо обучения на огромном датасете пар «изображение – описание», Kandinsky дополнительно тюнили на большом сете отобранных вручную изображений (отбором, кстати, занималась команда аж из более 100 специалистов – художников, фотографов и дизайнеров). В результате сильно выросла эстетичность генераций, качество структур, понимание стилей и точность следования инструкциям.

Malvina – еще более интересный релиз. Эта модель может отредактировать любое изображение просто по текстовому промпту. При этом она действительно умеет не менять исходное изображение (в отличие от GPT), а редактировать на попиксельном уровне. Может изменить цвет волос, убрать с картинки людей, заменить предметы, корректировать дефекты.

На SBS-сравнениях (вот они) Malvina обходит на основных задачах по качеству Gemini и Grok. И нет, это не преувеличение, модель говорит сама за себя: просто взгляните на примеры.

Под капотом – VLM + диффузия, так что Malvina действительно умеет очень много всего, экспериментируй – не хочу. Остаются проблемы с текстом, перемещением объектов и сменой поз людей, но разработчики обещают продолжать над этим работать.

Попробовать уже можно в тг-боте GigaChat
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
На гитхабе обнаружили самый честный ответ от Claude Code

«Я решил что мне все равно»

Вопросы?
Кажется, Google обновили свою лучшую модель Gemini 2.5 Pro

Судя по новостям, обновленный чекпоинт уже с минуты на минуту появится в AI Studio и API.

Релиз, кстати, мы ждали уже с утра. Около 10 часов назад тимлид команды Gemini API запостил в X загадочное «Gemini». Когда он делал это в прошлые разы, Google обычно релизили что-то громкое.

Конечно, хотелось бы Gemini 3, но это тоже пойдет 🏃‍♀️
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Secrets
Кажется, Google обновили свою лучшую модель Gemini 2.5 Pro Судя по новостям, обновленный чекпоинт уже с минуты на минуту появится в AI Studio и API. Релиз, кстати, мы ждали уже с утра. Около 10 часов назад тимлид команды Gemini API запостил в X загадочное…
А вот и метрики обновленной модели

На арене новая версия скакнула аж на 24 балла Elo по сравнению с прошлой, и теперь лидирует по всем категориям, опережая o3 и Claude Opus 4.

Попробовать уже можно в AI Studio

Блогпост