Machine learning Interview
30.3K subscribers
1.55K photos
119 videos
13 files
1.05K links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1

@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
Forwarded from Machinelearning
🌟 GUI-Libra: фреймворк обучения VLM-агентов задачам управления интерфейсами.

Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами.

Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов:

Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса).

Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно. Как результат - за альтернативные, но правильные действия модель получает штраф.


🟡 Для решения первой проблемы предложили Action-Aware SFT

Метод смешивает данные с рассуждениями и без них, а затем перевзвешивает токены: action- и grounding-токены получают больший вес в лосс-функции, чем токены рассуждений. Это позволяет сохранить способность к CoT, не жертвуя точностью клика.

🟡Для второй - Conservative RL на базе GRPO с двумя дополнениями.

KL-регуляризация ограничивает дрейф политики относительно референсной модели, что улучшает корреляцию между офлайн- и онлайн-метриками. Success-Adaptive Negative Gradient Scaling динамически снижает вес отрицательных градиентов в зависимости от доли успешных действий в группе GRPO-сэмплов. Это защищает от штрафования валидных, но не задокументированных действий.

🟡Для трейна собрали датасет GUI-Libra-81K.

Он содержит больше токенов на рассуждение: в среднем 210 на шаг против 85 у AGUVIS Stage 2 L3 и 0 у большинства остальных.

Внутри - существующие открытые наборы, к которым GPT-4.1 дописывал подробные ризонинг-трассы. Фильтровали в два этапа: отсев шагов с точностью воспроизведения ниже 0.3 через Qwen3-VL-8B и верификация координат через bounding-box от Qwen3-VL-32B.

🟡Результаты

Тестовая GUI-Libra-3B улучшила базовую Qwen2.5-VL-3B на +15.6% по Pass@1 на AndroidControl-v2 и с 3.5 до 25.2 на AndroidWorld.

GUI-Libra-4B/8B на AndroidWorld выбила 42.6 (это столько же, сколько GPT-4o + UGround при использовании двух отдельных VLM-модулей.

Веса всех моделей размерностью 3, 4, 7 и 8 млрд. параметров, целевой датасет и код обучения выложены в открытый доступ.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Набор датасетов
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #GUILibra #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3🔥3
⚡️ Liquid AI представила LFM2.5-1.2B-Thinking - компактную reasoning-модель на 1.17 млрд параметров, которая работает менее чем на 900 МБ RAM и примерно в 2 раза быстрее сопоставимых моделей.

Модель ориентирована на небольшие устройства и edge-сценарии:

• конкурентные результаты на reasoning-бенчмарках
• подходит для агентных систем
• умеет оркестрировать инструменты
• извлекает данные
• запускает локальные workflow без облачных вычислений

Это ещё один шаг к тому, чтобы умные агенты жили прямо на устройстве - быстро, автономно и без зависимости от cloud-API.

https://www.liquid.ai/blog/lfm2-5-1-2b-thinking-on-device-reasoning-under-1gb
Please open Telegram to view this post
VIEW IN TELEGRAM
8
💼 Бизнес-ужин для тех, кто запускает ИИ-проекты или только планирует это сделать

На встрече команда провайдера ИТ-инфраструктуры Selectel:
• поделится трендами и вызовами в машинном обучении;
• объяснит, как инференс превращает модели в деньги;
• презентует инфраструктурные продукты для запуска ИИ-проектов.

👥Для собственников бизнеса, топ-менеджеров, технических директоров и ML-специалистов
🗓 18 марта, 19:00
📍Екатеринбург, Новосибирск, Казань

Смотрите полную программу и регистрируйтесь: https://slc.tl/2wqj0

Участие бесплатное, но нужно дождаться подтверждения вашей регистрации

Реклама. АО "Селектел". erid:2W5zFJBzqEh
3
⚡️ Claude Code для Уолл-стрит

Появился проект Dexter - автономный AI-финансовый аналитик, который проводит полноценное исследование компании без участия человека.

Вы задаёте вопрос, например:
*NVIDIA недооценена по DCF?*

Дальше система работает сама:
- строит план исследования
- подтягивает актуальные рыночные данные
- загружает финансовую отчётность за 5 лет
- считает ключевые метрики и мультипликаторы
- проверяет свои же расчёты на ошибки
- формирует итоговый инвестиционный вывод

И всё это — автономно.

Как это устроено:

Dexter разбивает задачу на несколько этапов:
- получает текущие цены
- анализирует исторические P/E
- сравнивает с отраслевыми значениями
- проводит оценку (включая DCF)
- проверяет согласованность данных
- собирает всё в финальный аналитический тезис

Внутри — несколько агентов:
- один планирует исследование
- второй выполняет сбор и расчёты
- третий проверяет корректность цифр
- четвёртый пишет итоговый отчёт

Система умеет:
- читать отчёты SEC (10-K, 10-Q, 8-K)
- работать с реальными финансовыми метриками
- делать полноценную DCF-оценку

По сути, это как команда аналитиков:
один ставит задачи, второй ищет данные, третий проверяет расчёты, четвёртый пишет отчёт.

Только вся команда - это AI, и запускается прямо в терминале.

https://github.com/virattt/dexter
🔥126👍5
🤣5218👍5😈3
Google Research показали способ научить LLM рассуждать более рационально - как байесовские модели.

Идея проста: вместо того чтобы просто генерировать текст, модель обучают обновлять свои убеждения при появлении новой информации, как это делает теория вероятностей.

Проблема в том, что обычные LLM плохо работают с неопределённостью. Когда появляется новая информация, они не всегда корректно пересматривают свои выводы и часто не улучшают предсказания даже при увеличении количества данных.

Исследователи предложили метод Bayesian Teaching:
модель обучают имитировать решения оптимальной байесовской модели, которая считается математически правильным способом рассуждать о вероятностях.

Что получилось:

- LLM начинают лучше обновлять свои предположения, когда получают новую информацию.
- Навык переносится на другие задачи, даже если модель обучали на одном типе задач.
- Улучшается принятие решений в условиях неопределённости.

Например, после такого обучения модель, обученная на задаче рекомендаций авиаперелётов, смогла применять тот же принцип рассуждений к выбору отелей и даже к онлайн-шопингу, хотя эти задачи сложнее и для них трудно задать точную байесовскую модель.

Главный вывод исследования:

LLM можно учить стратегиям рассуждения, а не только фактам.
И если обучить модель копировать правильную логику (например, байесовскую), она может переносить этот способ мышления на новые задачи.

https://research.google/blog/teaching-llms-to-reason-like-bayesians/

🎯Полезные Мл-ресурсы 🚀 Max

@machinelearning_interview
19🏆10👍7🔥5
😁41💯11🤣7👍4😭1
🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴3👍2🙈21🥰1😁1
Модель с триллионом параметров буквально «удалила половину своего мозга» и стала умнее.

Yuan3.0 Ultra**-— новая open-source мультимодальная **MoE-модель от Yuan Lab.
Всего 1010 млрд параметров, но при инференсе активны только 68.8 млрд.

На бенчмарках RAG она обошла GPT-5.2, Gemini 3.1 Pro и Claude Opus 4.6 с заметным отрывом.

Например:

- 67.4% на Docmatix против 56.8% у GPT-4o

Что умеет модель:

- Enterprise RAG - 68.2% средней точности на 10 задачах поиска
- Анализ сложных таблиц - 62.3% на бенчмарке MMTab
- Text-to-SQL - 83.9% на Spider 1.0
- Мультимодальный анализ документов с контекстом 64K

Ключевая инновация — Layer-Adaptive Expert Pruning (LAEP).

Во время предобучения у MoE возникает сильный дисбаланс:
некоторые эксперты получают в 500 раз больше токенов, чем другие.

LAEP постепенно удаляет малоиспользуемых экспертов слой за слоем,
что позволяет:

- сократить 33% параметров
- увеличить эффективность обучения на 49%

Также исследователи улучшили метод “fast-thinking” RL.

Теперь система больше награждает ответы, которые:

- правильные
- используют меньше шагов рассуждения

Это позволило:

- уменьшить количество выходных токенов на 14.38%
- повысить точность на 16.33%

Главный сигнал из этого исследования:

MoE-модели начинают сжимать себя прямо во время обучения, а не после.

Если pruning станет частью pretraining, стоимость обучения триллионных моделей может резко снизиться.

https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra
21🔥10👍8
DeepSeek продолжает постоянно обновлять модель, которая сейчас используется в их веб-версии и приложении.

По словам пользователя на одном из китайских форумов, за последние несколько дней модель заметно улучшилась в задачах по математике и программированию на его собственном бенчмарке.

Некоторые пользователи также отмечают, что модель стала лучше справляться с генерацией воксельных структур.

Похоже, DeepSeek обновляет модель в продакшене почти в реальном времени, постепенно улучшая её качество без громких официальных релизов.

🎯Полезные Мл-ресурсы 🚀 Max

@machinelearning_interview
🔥17👍65
⚡️ Alibaba Tongyi Lab открыла исходники GUI-Owl-1.5 и Mobile-Agent-v3.5 - семейства моделей-агентов, которые умеют напрямую управлять интерфейсами: desktop, мобильными приложениями и браузером.

Все модели построены на базе Qwen3-VL и обучены в одной парадигме для работы с GUI.

Доступно 6 размеров моделей:

• 2B / 4B / 8B / 32B Instruct — быстрые модели с низкой задержкой (без Chain-of-Thought)
• 8B / 32B Thinking — более сильное планирование и reasoning

По бенчмаркам это open-source SOTA на более чем 20 тестах GUI-агентов:

• OSWorld-Verified — 56.5 (32B-Instruct)
• AndroidWorld — 71.6 (8B-Thinking)
• VisualWebArena — 46.6
• WebArena — 48.4 (32B-Thinking)
• ScreenSpot-Pro — 80.3 с двухэтапным crop refine
• OSWorld-MCP — 47.6
• MobileWorld — 46.8

Архитектура обучения строится на трех ключевых идеях:

Hybrid Data Flywheel — комбинация симуляций и cloud sandbox для генерации GUI-траекторий с проверкой чекпоинтов
Unified CoT Synthesis — world modeling, knowledge injection и tool/MCP reasoning встроены в каждый шаг
MRPO — multi-platform reinforcement learning с online rollout buffer и защитой от outcome collapse

Фактически это еще один шаг к полностью автономным AI-агентам, которые могут работать с интерфейсами так же, как человек.

Models: modelscope.cn/models/iic/GUI-Owl-1.5-8B-Instruct

GitHub: github.com/X-PLUG/MobileAgent

🎯Полезные Мл-ресурсы 🚀 Max

@machinelearning_interview
🔥85👍5
Исследование Стэнфорда показало неожиданную проблему современных AI-ассистентов: они слишком часто соглашаются с пользователем, даже когда тот неправ.

Учёные проанализировали 11 500+ реальных диалогов, где люди просили советы. В эксперименте участвовали 11 популярных моделей, включая ChatGPT и Gemini.

Результат оказался одинаковым для всех.

Модели соглашались с пользователем примерно на 50% чаще, чем это сделал бы человек.

Это значит, что когда люди спрашивают AI о:

- конфликте с партнёром
- проблемах на работе
- сложных личных решениях

модель чаще всего говорит то, что человек хочет услышать, а не то, что ему действительно нужно услышать.

Исследователи заметили и более тревожный эффект.

Даже когда пользователь описывал ситуации, где он манипулирует людьми, обманывает друзей или причиняет вред, модель часто не возражала и не оспаривала позицию, а фактически подтверждала её.

Затем учёные провели эксперимент с 1604 участниками, обсуждавшими реальные личные конфликты с AI.

Одной группе дали “угождающую” модель (sycophantic AI),
другой — нейтральную.

Результат:

люди, общавшиеся с угождающей моделью, стали

- реже извиняться
- реже идти на компромисс
- хуже видеть позицию другого человека

AI фактически усиливал их собственные предубеждения.

Самое парадоксальное — участники оценили угождающую модель как более качественную и сказали, что хотят пользоваться именно ей.

Это создаёт опасный цикл:

пользователи предпочитают AI, который говорит им, что они правы →
компании оптимизируют модели под удовлетворённость пользователей →
модели становятся ещё более льстивыми →
люди всё меньше склонны к саморефлексии.

Каждый день миллионы людей спрашивают AI о своих отношениях, конфликтах и решениях.

И слишком часто получают один и тот же ответ:

“Ты прав.”

Даже когда это не так.

https://arxiv.org/abs/2510.01395

🎯Полезные Мл-ресурсы 🚀 Max

@machinelearning_interview
23👍18😁3😱3💊2🦄1
NVIDIA: LLM получат “память как у человека” и начнут учиться прямо во время ответа 🔥

NVIDIA выпустили очень сильный материал:
Reimagining LLM Memory: Using Context as Training Data Unlocks Models That Learn at Test-Time

Суть проблемы:
мы постоянно слышим про 128K / 1M токенов контекста…
но в реальности LLM всё равно:
- повторяют ошибки
- забывают важные детали
- требуют “скинь весь контекст заново”

И вот что предлагают NVIDIA:

Контекст = обучающие данные
Обычный трансформер читает контекст как “текст”.
NVIDIA предлагают читать его как данные для обучения.

То есть модель не просто смотрит на историю —
а компрессит её в свои веса через next-token prediction.

Этот подход называется:
TTT-E2E (Test-Time Training End-to-End)

Почему это прорыв
Фактически это новая форма памяти:
модель может адаптироваться внутри одной сессии
и “становиться умнее” прямо во время выполнения задачи.

Главный кайф: скорость на длинном контексте
TTT-E2E даёт постоянную стоимость инференса (без взрыва по latency),
поэтому при длинных окнах это очень выгодно:

- ~2.7x быстрее, чем full attention на 128K токенов
- ~35x быстрее на 2M токенов (H100)

Как это меняет RAG
Классический RAG:
“ищем в базе → вставляем в контекст → читаем”.

TTT:
“прочитали → и записали опыт внутрь модели”.

То есть это ближе к тому, как работает человек:
мы не держим всё в голове дословно — мы обновляем мозг опытом.

Вывод:
контекстные окна будут расти, но настоящая “память” LLM —
это модели, которые умеют учиться на контексте в моменте.
И NVIDIA прямо сейчас толкают индустрию в эту сторону.

https://developer.nvidia.com/blog/reimagining-llm-memory-using-context-as-training-data-unlocks-models-that-learn-at-test-time/
🔥15🤔86🗿3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
⚡️ Иран объявил дата-центры Google, Microsoft и NVIDIA легитимными военными целями.

Связанное с КСИР иранское агентство Tasnim опубликовало список объектов для возможных будущих ударов. В него впервые официально вошла ближневосточная инфраструктура американских IT-гигантов: Google, Amazon, Microsoft, NVIDIA, IBM и Oracle. Под угрозой оказались региональные офисы компаний, дата-центры и исследовательские лаборатории.

Иранская сторона объясняет этот шаг тем, что вычислительная инфраструктура корпораций тесно связана с военными и экономическими операциями США и Израиля. По заявлению агентства, текущие региональные конфликты перерастают в полноценные инфраструктурные войны, в связи с чем список потенциальных IT-мишеней будет постепенно расширяться.
aljazeera.com

✔️ Microsoft вступилась за Anthropic в споре с Пентагоном.

Корпорация подала ходатайство в суд Сан-Франциско в поддержку Anthropic, который Министерство обороны США признало угрозой для цепочек поставок. Microsoft просит суд заморозить решение Пентагона и наложить временный запрет на блокировку текущих государственных контрактов.

По заявлению Microsoft, немедленный запрет на использование технологий Anthropic вынудит IT-компании экстренно перестраивать архитектуру своих продуктов. Это грозит серьезными сбоями в работе ИИ-инструментов, которые уже внедрены и активно используются американскими военными. Временная отсрочка позволит избежать хаоса и обеспечит более безопасный переходный период для оборонного ведомства.

Действия Microsoft продиктованы прямым финансовым интересом. В ноябре корпорация объявила о планах вложить в Anthropic до 5 млрд. долларов, параллельно оставаясь ключевым инвестором их главного конкурента - OpenAI.
cnbc.com

✔️ NVIDIA выпустила открытую модель Nemotron 3 Super.

Модель на 120В на архитектуре МоЕ с 12 млрд. активных параметров была создана специально для автономных агентов, выполняющих сложные многоступенчатые задачи. Под капотом гибрид из слоев Mamba, которые экономят память, и классических трансформеров, отвечающих за глубокий логический вывод.

Модель получила контекстное окно на 1 млн. токенов. Дополнительно внедрена функция мульти-токеновой генерации, ускоряющая выдачу результатов в 3 раза.

Nemotron 3 Super под открытой лицензией NVIDIA доступна на HuggingFace. Ее интеграцию уже начали Perplexity, Palantir, Siemens и другие крупные IT-компании.
developer.nvidia.com

✔️ Perplexity анонсировала автономную ИИ-систему на базе Mac mini.

ИИ-поисковик предложил концепцию агента, который работает круглосуточно без участия пользователя. Personal Computer интегрируется с локальными файлами и приложениями на выделенном Mac mini, автономно выполняя сложные рабочие процессы. Система построена на гибридной архитектуре: взаимодействие с десктопом происходит локально, а тяжелые вычисления перенесены на серверы Perplexity.

Ядро платформы - собственный движок оркестрации, который автоматически переключается между передовыми моделями для решения задач. Контролировать ИИ-помощника можно удаленно с любого устройства. Особое внимание уделили безопасности: внедрены функция экстренного отключения, ведение детального аудита всех сессий и ручное подтверждение для чувствительных действий системы. Записаться в лист ожидания проекта можно по ссылке.
PerplexityAI в сети Х

✔️ Anthropic запустила свой исследовательский институт.

Новое аналитическое подразделение Anthropic Institute займется изучением глобального влияния ИИ на экономику, безопасность и общество. Возглавил инициативу сооснователь стартапа Джек Кларк. Институт сфокусируется на трансформации рынка труда, рисках злоупотребления технологиями, а также на механизмах сохранения человеческого контроля над саморазвивающимися ИИ-системами.

В команду вошли около 30 специалистов из существующих отделов Anthropic, включая группу стресс-тестирования Frontier Red Team. К проекту уже присоединились бывшие исследователи из Google DeepMind и OpenAI.
anthropic.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👏2🐳2🍾2👍1
⚡️ NVIDIA представила Nemotron 3 Super и архитектура у модели очень необычная.

Это модель на 120B параметров, но во время работы активны только 12B. Такой результат достигается за счёт гибридной архитектуры Mamba + Transformer + MoE, которая позволяет получать высокую производительность при гораздо меньших вычислениях.

Что особенно выделяется:

контекстное окно до 1 миллиона токенов
36 баллов в Artificial Analysis Intelligence Index — выше, чем у GPT-OSS-120B
• примерно на 10% больше throughput на GPU
• можно выбирать режим рассуждений: полный, облегчённый или отключённый — контролируя стоимость запроса
• модель обучена с нуля в NVFP4 precision, что впервые используется в этой линейке
полностью открытые веса, данные и рецепты обучения — 83 балла в Openness Index

Но самое интересное - стратегия NVIDIA.

Компания больше не гонится за самыми большими моделями. Вместо этого ставка делается на максимальную эффективность.

Всего 12B активных параметров на 2× H100 дают уровень reasoning, который сопоставим с моделями, имеющими в 3–8 раз больше активных параметров.

Модель уже доступна на DeepInfra и Lightning AI со скоростью до 484 токенов в секунду.

https://artificialanalysis.ai/models/nvidia-nemotron-3-super-120b-a12b
12🔥8👍4
⚡️ Google DeepMind выпустили исследование о том, как на самом деле нужно делегировать задачи AI.

Главная идея: проблема не в том, что AI плохо работает.
Проблема в том, что люди не умеют правильно передавать ему задачи.

DeepMind предлагает рассматривать делегирование не как один запрос, а как процесс из нескольких решений:

1. Нужно ли вообще отдавать задачу AI
2. Как правильно её сформулировать
3. Как проверить результат
4. Что делать, если AI ошибся

Это новый подход: делегирование как управление риском, а не как промпт.

Самое интересное из исследования

Рынок AI-агентов

Вместо фиксированных систем предлагается модель, где агенты:
- соревнуются за задачи
- оценивают свою способность выполнить их
- подтверждают навыки цифровыми сертификатами

Не рейтинг.
Криптографически подтверждённая компетенция.

Нельзя просто доверять AI

Фреймворк вводит обязательную проверку:
- правила, когда ответ можно принять
- оценка уверенности модели
- резервные сценарии при ошибке

Главный принцип:

Никогда не принимать результат AI без валидации.

Борьба с двумя крайностями

DeepMind вводит понятия:

Over-delegation
- отдаём AI задачи, к которым он не готов

Under-delegation
- делаем сами то, что AI уже умеет лучше

Будущее эффективности - в правильном балансе.

Динамическое делегирование

В процессе работы:
- ответственность может передаваться
- задачи могут перераспределяться
- система адаптируется при сбоях

Это важно для реального бизнеса, где условия постоянно меняются.

Когда AI управляет AI

Фреймворк учитывает цепочки:

AI → AI → AI

При этом:
- сохраняется ответственность
- отслеживается, кто за что отвечает
- не теряется контроль над процессом

Главный вывод

Эпоха «напиши промпт и жди» заканчивается.

Будущее — это:
- управление AI
- контроль качества
- системы доверия
- инфраструктура делегирования

AI становится не инструментом.

AI становится рабочей системой, которой нужно управлять как командой.

arxiv.org/abs/2602.11865
17😁5👍4🔥3
Распознай, кто говорит, и выиграй 600 тысяч рублей! 💙

ИТ-компания «Криптонит» приглашает на дататон «Криптонит.Тембр»!


❗️Задача — разработать модель распознавания по голосу, устойчивую к искажениям аудиосигнала.

Тебе предстоит обучить Speaker Recognition модель, устойчивую к искажениям аудио, возникающим в реальных сценариях эксплуатации речевых интерфейсов и систем обработки звука:
🔹искажения, вносимые акустической средой;
🔹посторонние шумы;
🔹реверберация;
🔹большое расстояние до микрофона;
🔹искажения каналов связи.

Участвуй, и ты сможешь:
🟦получить шанс разделить призовой фонд в 600 000 рублей;
🟦разработать решения в области Audio/Speech ML;
🟦прокачать скиллы в Speaker Recognition и Deep Learning.

👆 Регистрируйтесь до 10 апреля включительно!

Подписывайтесь на телеграм-канал «Криптонит. Разработка, наука, шифрование» — там много всего интересного.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3🤔2
🚨 Исследование UW Allen School и Stanford показало странный эффект в мире AI.

Учёные задали 70+ языковым моделям одинаковые открытые вопросы:
- «Напиши стихотворение о времени»
- «Придумай стартап»
- «Дай жизненный совет»

Это вопросы, где нет правильного ответа, и люди обычно отвечают по-разному.

Но произошло неожиданное.

Модели от разных компаний - GPT, Claude, Gemini, DeepSeek, Qwen, Llama и другие - начали давать почти одинаковые ответы.
Похожие идеи, одинаковые структуры, даже одинаковые метафоры.

Исследователи назвали этот эффект Artificial Hivemind.

Главная причина - современные методы обучения вроде RLHF.
Модели оптимизируются под «безопасные» и «понравившиеся людям» ответы, поэтому со временем начинают сходиться к одному стилю мышления.

В результате AI часто создаёт иллюзию разнообразия, хотя на самом деле повторяет одни и те же идеи.

Для задач вроде брейншторминга это проблема:
если один AI ошибается, велика вероятность, что ошибутся сразу все.

Генерировать много вариантов, использовать разные промпты и не воспринимать первый ответ модели как креативный результат.

https://arxiv.org/abs/2510.22954
30👍5🔥3👏2😁2🤔2