Машинное обучение digest
60 subscribers
1.72K photos
226 videos
953 links
Download Telegram
🧠 UnsolvedMath - 1000+ открытых математических задач как бенчмарк для ИИ

Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.

Выложен датасет UnsolvedMath — это:
- 1000+ открытых математических проблем
- 600+ задач из списка Эрдёша
- аккуратно структурировано в machine-friendly формате

Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.

Почему это важно

Обычные тесты:
- часто содержат задачи, похожие на обучающие данные
- проверяют знание, а не исследовательское мышление

UnsolvedMath:
- требует построения новых гипотез
- проверяет глубину логики
- показывает, способна ли модель делать научно полезные инсайты

Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.

Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.

Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.

https://huggingface.co/datasets/ulamai/UnsolvedMath
🚀 Google Research представила GIST — новый этап в “умной” выборке данных

Google Research опубликовала блог-пост о GIST — алгоритме, который помогает выбирать высококачественную подвыборку данных из огромных датасетов так, чтобы она была и разнообразной, и полезной для обучения моделей.

📌 Зачем это нужно
При обучении современных моделей (LLM, CV) данные становятся слишком большими, и обрабатывать всё сразу дорого по памяти и времени. Часто выбирают подмножество данных, но это непросто: нужно найти баланс между:
- разнообразием (не выбирать похожие примеры), и
- полезностью (высокая информативность выбранных точек).

📌 Как работает GIST
Алгоритм GIST (Greedy Independent Set Thresholding) формулирует задачу как сочетание двух целей — максимизации полезности и минимизации избыточности. Он:
- строит граф, где точки данных слишком близкие по расстоянию считаются “связанными”,
- затем находит независимые подмножества, которые максимизируют полезность, не выбирая очень похожие данные.

📌 Гарантии и результаты
GIST — это не просто эвристика, а алгоритм с теоретическими гарантиями: он обеспечивает решение, близкое к оптимальному по комбинированной цели разнообразие+полезность. На практике он превосходит классические подходы на задачах вроде классификации изображений.

📊 Почему это важно
- Надёжная выборка данных критична для устойчивого обучения моделей.
- GIST помогает эффективно снизить объём данных, сохранив при этом ключевую информацию.
- Такой подход особенно ценен, когда данные дорогие или медленные для обработки.

*GIST - шаг к более умной и гарантированной выборке данных, что может ускорить обучение крупных моделей и снизить затраты на вычисления при сохранении качества обучения.*

https://research.google/blog/introducing-gist-the-next-stage-in-smart-sampling/
📌 ИИ в Давосе-2026.

Всемирный экономический форум в Давосе на этой неделе превратился в парад прогнозов про ИИ: лидеры топовых компаний поделились своими совершенно разными взглядами на будущее.

Вот что говорили отцы индустрии:

🟡Илон Маск (xAI)
К концу этого года у нас может появиться ИИ умнее любого человека, скажу, что не позже следующего года.

Будущее — это гуманоидная робототехника, и у каждого будет робот.

Есть проблема в энергоснабжении для ИИ, но в Китае этого не произойдет, так как он развертывает более 100 ГВт солнечной энергии в год.


🟡Дженсен Хуанг (NVIDIA)
ИИ — это уникальная возможность для Европы, которая может перепрыгнуть через программную эпоху и объединить свои производственные возможности для создания инфраструктуры ИИ.
  
ИИ создаст множество рабочих мест, связанных с ручным трудом: сантехников, электриков и строителей. Их зарплаты уже растут почти вдвое. Для этого не нужна докторская степень.


🟡Сатья Наделла, (Microsoft)
Мы как глобальное сообщество должны прийти к тому, чтобы использовать ИИ для чего-то полезного, что меняет жизнь людей, стран и отраслей.

Внедрение ИИ будет неравномерно распределено по всему миру, в первую очередь из-за ограничений, связанных с доступом к капиталу и инфраструктуре.


🟡Демис Хассабис (Google DeepMind)
Я ожидаю создания новых, более значимых рабочих мест. Студентам стоит использовать время для освоения новых инструментов, а не для стажировок — это даст скачок в развитии на 5 лет вперед.

После появления AGI рынок труда окажется на неизведанной территории.


🟡Дарио Амодей (Anthropic)
Не продавать чипы Китаю — это одно из важнейших действий, чтобы у нас было время справиться с риском выхода ИИ из-под контроля.

ИИ может уничтожить половину начальных позиций для белых воротничков.


🟡Джошуа Бенджио ("Крестный отец ИИ")
Многие люди взаимодействуют с ИИ с ложным убеждением, что они похожи на нас. И чем умнее мы их делаем, тем больше это будет так. Но ИИ не совсем человек.
Неясно, будет ли это хорошо.


Единственное общее мнение - "Мы развиваемся быстрее, чем понимаем, и последствия не будут ждать, пока мы разберемся в ситуации".


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Новые возможные модели OpenAI замечены в DesignArena 👀

В тестовой среде DesignArena появились сразу 4 новых имени моделей:
- Robin
- Robin (Medium)
- Robin (Low)
- Robin (None)

Что интересно

- Название Robin уже использовалось OpenAI раньше при тестировании GPT-5.2, но тогда это было в LMArena, а не в DesignArena.
- Суффикс (None) у “Robin (None)” выглядит знакомо: такой уровень reasoning-усилия сейчас встречается именно у моделей OpenAI в DesignArena - GPT-5.1 (None), GPT-5.2 (None).
- Это может намекать, что Robin - снова внутренняя тестовая маска для одной из GPT-линеек, а не совершенно новый бренд.

Но есть странности

- Модель формально активна, но практически не попадается в матчах - как будто подключена, но ещё не раскатана в реальный трафик.
- Повторное использование имени Robin выглядит необычно - обычно внутренние кодовые имена у OpenAI не крутят по кругу без причины.

Возможные сценарии

1) Robin - это ранний тест GPT-5.3 или промежуточной версии, где гоняют разные уровни “мышления” (None / Low / Medium).
2) Это не новая модель, а вариации инференс-режимов уже существующей GPT-5.x, которые тестируют под разной вычислительной нагрузкой.
3) Robin - чисто инфраструктурная заглушка для A/B-тестов, а не отдельная архитектура.

Пока подтверждений нет, но связка:
DesignArena + уровни reasoning + паттерны нейминга
выглядит очень “по-openai-шному”.

Следим - если Robin начнёт регулярно появляться в матчах, станет понятнее, это новая ступень GPT или просто новый режим работы старой модели.

https://x.com/AiBattle_/status/2015333058866487615
⚡️ OpenAI будет стримить митап на Youtube 28 января.

Сэм Альтман анонсировал в X, что на собрании разработчиков будет обсуждение "инструментов нового поколения", которые начинает создавать OpenAI.

Стрим нового формата (собрание с трансляцией в прямом эфире) запланирован на 3:00 МСК 28 января на Youtube.

Ваши ставки - что такое инструменты нового поколения?


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Yann LeCun ушёл от Цукерберга и выбрал войну идей.

И, похоже, он прав.

Мы снова наступаем на те же грабли: видим “сверхчеловеческий” результат в узкой задаче - и сразу кричим AGI.

Но это не общий интеллект.
Это просто очень прокачанный инструмент в очень узком месте.

И самое интересное - как быстро мы всё это начинаем считать нормой.

Покажи сегодняшние модели человеку из 2015 года - он бы сказал, что это суперинтеллект.

Генерация кода, картинок, голоса, видео, reasoning - всё в одном окне.
То, что вчера было магией, сегодня “ну ок”.

Проблема не в том, что прогресс медленный.
Проблема в том, что мы перестаём замечать, насколько он безумный.

AGI может ещё не здесь.
Но скорость, с которой инструменты становятся “сверхчеловеческими” в отдельных вещах - уже история.
Media is too big
VIEW IN TELEGRAM
📌 Tencent выкатили HunyuanImage 3.0-Instruct- нативную мультимодальную модель, заточенную под точное редактирование изображений.

И это уже не просто генератор картинок.
Это модель, которая сначала понимает изображение, потом думает, и только потом рисует.

Архитектура серьёзная:
80B параметров MoE (13B активных) - баланс между мощностью и эффективностью.
Глубокое понимание + фотореалистичная генерация в одной системе.

🧠 Модель "с мышлением"

Она не просто выполняет команды.
Внутри используется нативный Chain-of-Thought и алгоритм MixGRPO - модель реально "прокручивает" инструкцию перед генерацией.

Это даёт:
- точное следование намерению пользователя
- согласованность с человеческими предпочтениями
- меньше странных артефактов и нелогичных решений

🎨 Точное редактирование и фьюжн изображений

Вот где начинается магия:

- добавление объектов
- удаление элементов
- изменение деталей
- при этом всё остальное остаётся нетронутым

Плюс продвинутый multi-image fusion - модель может брать элементы из нескольких изображений и собирать единую сцену так, будто она всегда так и выглядела.

🏆 SOTA по качеству

По качеству и точности выполнения инструкций модель выходит на уровень ведущих закрытых решений.

Tencent явно нацелены не просто на демку, а на создание экосистемы вокруг foundation-модели для image generation.

💻 Попробовать можно тут:
https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct
🇨🇳 Китай разрабатывает ИИ-управляемое вооружение и рои дронов, вдохновлённые охотничьими стратегиями хищников.

Учёные моделируют поведение ястребов и волков, чтобы обучать дроны:

- отслеживать цель
- координировать действия в группе
- преследовать и окружать
- адаптироваться к изменениям в реальном времени

Смысл в том, что природа уже решила задачи коллективной охоты миллионы лет назад — теперь эти принципы переносят в алгоритмы.

Такие рои могут действовать как единый организм:
одни устройства обнаруживают, другие отвлекают, третьи наносят удар.

Это не просто автономные дроны.
Это распределённый интеллект на поле боя, где тактика рождается из взаимодействия агентов, а не из централизованных команд.

ИИ всё чаще учится не у людей, а у эволюции.

wsj.com/world/china/china-ai-weapons-hawks-wolves-2fcb58bb
🚀 Крупный IT-стартап на 1200 сотрудников сегодня выглядит так: стойка из десятков Mac mini, на которых круглосуточно крутится тот самый хайповый Clawdbot, про который уже отлично писали коллеги 😊

И это не шутка.

В Кремниевой долине сейчас настоящий мини-бум: разработчики, стартапы и даже целые команды массово скупают Mac mini, чтобы поднимать на них этого «опенсорсного Джарвиса».
Доходит до абсурда — в ряде магазинов «миники» начали уходить в дефицит именно из-за AI-инфраструктуры под локальные агенты.

Почему так происходит?

Потому что это уже не просто бот.
Clawdbot — это по сути цифровой сотрудник:
- пишет код
- помогает с инфраструктурой
- отвечает в рабочих чатах
- автоматизирует рутину
- подключён к инструментам

И всё это - self-hosted, под полным контролем команды.

Так что теперь наш штат выглядит примерно так:

Слева направо:
Clawdbot, Clawdbot и ещё немного Clawdbot.

Людей меньше не стало.
Просто теперь каждый человек работает в паре с агентом, а производительность команды умножается, а не складывается.

Это уже не «AI как инструмент».
Это AI как часть команды.

Код Clawdbot в опенсорсе: https://github.com/clawdbot/clawdbot

@machinelearning_interview
🚀 Крупный IT-стартап на 1200 сотрудников сегодня выглядит так: стойка из десятков Mac mini, на которых круглосуточно крутится тот самый хайповый Clawdbot, про который уже отлично писали коллеги 😊

И это не шутка.

В Кремниевой долине сейчас настоящий мини-бум: разработчики, стартапы и даже целые команды массово скупают Mac mini, чтобы поднимать на них этого «опенсорсного Джарвиса».
Доходит до абсурда — в ряде магазинов «миники» начали уходить в дефицит именно из-за AI-инфраструктуры под локальные агенты.

Почему так происходит?

Потому что это уже не просто бот.
Clawdbot — это по сути цифровой сотрудник:
- пишет код
- помогает с инфраструктурой
- отвечает в рабочих чатах
- автоматизирует рутину
- подключён к инструментам

И всё это - self-hosted, под полным контролем команды.

Так что теперь наш штат выглядит примерно так:

Слева направо:
Clawdbot, Clawdbot и ещё немного Clawdbot.

Людей меньше не стало.
Просто теперь каждый человек работает в паре с агентом, а производительность команды умножается, а не складывается.

Это уже не «AI как инструмент».
Это AI как часть команды.

Код Clawdbot в опенсорсе: https://github.com/clawdbot/clawdbot
📌 Банхаммер Anthropic: как потерять доступ к API, заставив Claude писать инструкции для Claude.

Любопытный кейс португальского разработчика Хуго Даниэля, который решил поиграть в жесткую автоматизацию с Сlaude Сode. и проиграл

Хуго был активным пользователем Сlaude, тратил 220 евро в месяц и однажды решил настроить генерацию шаблонных файлов для новых проектов двумя агентами. Схема была примерно такая:

🟢Claude A (в одном окне): отвечает за обновление файла CLAUDE.md. Это файл с контекстом и инструкциями, как вести себя модели в конкретном проекте.

🟢Claude B (в другом окне): пытается выполнять задачи внутри этого проекта, используя инструкции из CLAUDE.md.

🟠Loop: когда Claude B косячил, Хуго копировал ошибку, скармливал ее Claude A и говорил: "Поправь инструкции, чтобы этот дурак больше так не делал".

В какой-то момент Claude A, видимо, устал от тупости коллеги и начал генерировать инструкции капсом, чтобы жестко задать поведение - файл наполнился директивами, которые выглядели как System Prompts.

🟡На этом этапе Хуго и получил бан от Anthropic.

Гипотеза бана в том, что сработали эвристики защиты от Prompt Injection. Система безопасности Anthropic увидела, что пользователь генерирует и скармливает модели текст, который структурно и лексически выглядит как системные инструкции. Вобщем, для алгоритмов безопасности это выглядит как попытка джейлбрейка.

Ожидаемо, саппорт хранил молчание: ни через систему апелляции (она, кстати на Google Forms), ни письма в поддержку не дали результатов. Через насколько дней пришел только молчаливый возврат средств за подписку. Так что причины блокировки так и остались гипотезой.

🟡Автор справедливо замечает: хорошо, что это был не Google.

Если бы подобный эксперимент проводился у "Корпорации Добра" - сработал бы их вездесущий триггер на "злонамеренную активность", и человек мог бы потерять Gmail, Google Photos, документы и получить кирпич вместо Android-смартфона.

История Хуго - хорошее напоминание о том, что модерация в ИИ сейчас - это черный ящик.

Если вы занимаетесь авто-генерацией промптов, которые выглядят как системные инструкции (то, что называют meta-prompting и scaffolding) - вы ходите по минному полю.




@ai_machinelearning_big_data

#AI #ML #Story #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Qwen3-Max-Thinking - вышла самая мощная reasoning-модель Qwen на сегодня

Модель обучили на огромном масштабе и усилили продвинутым RL - в итоге модель сильна сразу в нескольких вещах:
- логика и сложные рассуждения
- знания и QA
- работа с инструментами
- агентные сценарии

Ключевые фишки
- Adaptive tool-use - сама понимает, когда подключать Search, Memory и Code Interpreter, без ручного выбора
- Test-time scaling - многокруговая самопроверка и рефлексия, по бенчмаркам обходит Gemini 3 Pro на reasoning
- отличная модель от сложной математики (98.0 на HMMT Feb) до агентного поиска (49.8 на HLE)

Попробовать: https://chat.qwen.ai/
Блогhttps://qwen.ai/blog?id=qwen3-max-thinking

@ai_machinelearning_big_data

#qwen #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 DeepPlanning - новый бенчмарк о QWEN для проверки долгосрочного агентного планирования в задачах, приближенных к реальности.

Это уже не игрушечные step-by-step задачки. Здесь важно, чтобы весь план целиком удовлетворял жестким глобальным ограничениям:

Временные лимиты
💰 Ограничения по бюджету
🧩 Комбинаторная оптимизация на уровне всего решения

Примеры задач:

✈️ Многодневные путешествия с расписанием по минутам + строгие лимиты по времени и деньгам
🛒 Сложные покупки с комбинированием купонов, наборами товаров и оптимизацией выгоды
🧠 Требуется активный сбор информации, локальное соблюдение ограничений и глобальная оптимальность плана

И вот где становится особенно интересно - даже топовые модели вроде GPT-5.2, Claude 4.5, Gemini и Qwen3 здесь заметно проседают.

Этот бенчмарк отлично показывает реальный уровень:
- Agent Planning
- Tool Use
- Long-Horizon Reasoning

То есть то, что действительно нужно автономным агентам, а не просто чат-ответам.

Paper: https://arxiv.org/pdf/2601.18137
Leaderboard: https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/
Hugging Face Dataset: https://huggingface.co/datasets/Qwen/DeepPlanning
ModelScope Dataset: https://modelscope.cn/datasets/Qwen/DeepPlanning

@data_analysis_ml