Data Science | Machinelearning [ru]

Prism: OpenAI делает «Claude Code», но для науки

Короче, OpenAI выкатили Prism — бесплатное рабочее пространство для учёных на базе GPT-5.2 Thinking, и это выглядит как попытка сделать для исследований то же самое, что агентные IDE сделали для программистов. Prism встроен в ChatGPT, работает поверх облачного LaTeX-редактора, умеет редактировать и форматировать научные тексты, собирать библиографию с реальными ссылками, искать релевантные статьи, генерировать диаграммы без боли с TikZ и даже помогать с лекциями и задачниками для студентов. Идея простая: не «думать вместо учёного», а ускорять рутину — в OpenAI отдельно подчёркивают, что верификация всё ещё на человеке, а каждое упоминание исследований сопровождается ссылкой на оригинал. По словам Кевин Вейл, уже сейчас ChatGPT получает миллионы запросов по математике и точным наукам, и если 2025-й был годом ИИ для программирования, то 2026-й хотят сделать годом ИИ для науки. Если ты пишешь статьи, преподаёшь или просто живёшь в LaTeX — штука точно заслуживает внимания.

Data Science

❤14🐳1

3.62K views19:07

Data Science | Machinelearning [ru]

Мультиагентные системы: где команда помогает, а где только мешает

Идея собрать команду ИИ-агентов звучит как логичный апгрейд. Ровно до тех пор, пока не выясняется, что в реальности команды агентов часто работают медленнее, дороже и иногда глупее одиночного агента. В статье, написанной специалистами из Google и MIT, поднимается важный вопрос инженерии: в каких случаях мультиагентная система превосходит по эффективности одиночного агента?

Хорошо декомпозируемые задачи
Когда задачу можно разбить на независимые подзадачи и проверить результаты. Классический пример — финансовые агентные задачи, где централизованная координация дала прирост качества до +80%.

Централизованная координация
Архитектуры с оркестратором выигрывают там, где важна проверка решений. Ошибки ловятся на уровне системы, а не размножаются между агентами.

Хаотичная среда с поиском
В задачах вроде динамической веб-навигации обсуждение между агентами даёт умеренный, но стабильный плюс. Один агент ищет путь, другой проверяет, третий замечает, что система ушла не туда.

Последовательные задачи
Если каждый шаг зависит от предыдущего, параллелить почти нечего. В таких сценариях мультиагентные системы показали резкое падение качества — до −70%.

Дорогая координация
Переговоры между агентами почти всегда стоят дорого:
— независимые агенты: +58% токенов
— децентрализованные: +263%
— централизованные: +285%
— гибридные: до +515%

При фиксированном бюджете это значит одно — токены уходят на разговоры, а не на решение задачи.

Усиление ошибок
Ошибка одного агента легко становится общей. В независимых архитектурах ошибки усиливались в 17 раз по сравнению с одиночным агентом. Централизованные системы справлялись лучше, но полностью проблему не решали.

Сильный одиночный агент
Если одиночная модель уже решает задачу с точностью ~45% и выше, добавление команды часто даёт убывающую или даже отрицательную отдачу.

Что отличает разумное использование команд

— Чёткое понимание, можно ли задачу распараллелить
— Контроль накладных расходов на координацию
— Архитектура с валидацией, а не «демократией ошибок»
— Осознание, что больше агентов ≠ лучше результат

Команда ИИ-агентов — это не универсальный апгрейд. Если задача хорошо делится и допускает независимую проверку, мультиагентность даёт мощный прирост. Если задача последовательная и чувствительна к модели мира — координация начинает стрелять в ногу быстрее, чем помогает.

Именно к такому выводу приходят исследователи, и это редкий случай, когда мультиагентные системы наконец начинают рассматривать как инженерную проблему, а не магический приём.

Data Science

❤5🔥2👀2

3.47K views17:37

Data Science | Machinelearning [ru]

Agentic Vision: Google превращает зрение модели в рабочий процесс

Google quietly выкатили Agentic Vision для Gemini 3 Flash, и это довольно важный сдвиг в том, как модели работают с изображениями. Вместо привычного «посмотри на картинку и ответь» теперь используется полноценный цикл Think–Act–Observe: модель сначала анализирует изображение и строит план, потом запускает код для обработки — детекцию, расчёты, измерения — и только после этого возвращается к рассуждению уже с новыми данными в контексте. Проще говоря, картинка превращается не в статичный вход, а в рабочее пространство для мышления. Типовой пример — подсчёт пальцев: модель не угадывает число, а реально детектит каждый палец, считает боксы и выводит результат. Лучше всего это заходит на сложных таблицах, схемах и мелких деталях, где обычное «визуальное понимание» раньше сыпалось. По метрикам прирост относительно обычной Gemini 3 Flash — в среднем 5–10%, а попробовать фичу уже можно и через API, и в AI Studio.

Data Science

👍8👀2

3.46K views12:37

Data Science | Machinelearning [ru]

Маск vs Лекун: очередной раунд старого спора про ИИ и роботов

Илон Маск снова сцепился с Ян Лекун, и это тот случай, когда оба говорят не просто ради твитов. Лекун заявил, что ни одна из современных робототехнических лабораторий толком не понимает, как делать по-настоящему полезных роботов, на что Илон Маск довольно ядовито ответил, что Ян «просто сам не знает, что делать, и думает, что никто не знает». Но Лекун быстро вернул подачу: по его словам, он как раз знает и что делать, и как — просто не теми методами, на которые сейчас ставит индустрия. Его ставка — JEPA, world models и планирование, а не текущий мейнстрим. И вишенка на торте: «в какой-то момент ты поймёшь, что я прав». Старый добрый конфликт подходов — масштабирование и инженерия против фундаментальных моделей мира — снова вышел на поверхность, и, кажется, это спор не на один год.

Data Science

🔥6👍2

3.62K views19:07

Data Science | Machinelearning [ru]

ML-модель пересобирает логику ранжирования маршрутов

В Яндекс Картах изменился принцип выбора маршрута, который показывается первым. Раньше это по дефолту был самый быстрый. Теперь порядок определяет ML-модель, которая учитывает не только время в пути, но и множество других факторов: количество поворотов, сложность маневров, историю сходов на участке, предсказуемость движения и другие поведенческие сигналы. Второе важное изменение — переход от задачи ранжирования к задаче выбора (Softmax + one-hot таргет). Модель больше не отвечает на вопрос «какой маршрут лучше в рейтинге?» — она учится угадывать единственный вариант, по которому пользователь действительно поедет. Фактически навигация сместилась от абстрактной оптимизации ETA к предсказанию реального выбора водителя — как если бы система пыталась угадать, какой маршрут человек сам бы выбрал, взглянув на карту. Почему выбрали в итоге не классический для такой задачи YetiRank — в разборе команды на Хабре.

Data Science

❤17🔥5👀3👎1

2.81K viewsedited 15:07

Data Science | Machinelearning [ru]

1:06

Media is too big

VIEW IN TELEGRAM

ИИ-анимация: где генерация реально тащит, а где без людей всё развалится

DeepMind показали сгенерированный мультфильм. Короткометражку представили на Sundance, называется она «Dear Upstairs Neighbors» и рассказывает историю девушки с бессонницей и галлюцинациями из-за шумных соседей.

На бумаге звучит как обычный арт-проект, но это хороший пример того, где генеративный ИИ реально ускоряет продакшн, а где сам по себе пока бесполезен. Давай разберёмся.

Сложные визуальные стили
Режиссёр Конни Хи из Pixar нарисовала образы, которые в классической анимации потребовали бы месяцев ручной работы. ИИ здесь выступил как усилитель, а не замена художника.

Сокращение времени производства
Фильм собрали за несколько недель. Без генерации это был бы долгий и дорогой процесс.

Гибкость в итерациях
Модели позволяли быстро пробовать варианты сцен, ритма и образов, не перерисовывая всё с нуля.

Необычный сюжет
История оказалась слишком нешаблонной для «из коробки» генераторов. Без донастройки модели просто не тянули нужную драматургию.

Чистый ИИ не справляется
Сам по себе генератор не может держать стиль, эмоцию и нарратив на протяжении всего фильма. Чтобы всё заработало, понадобилась команда из 45 инженеров DeepMind, которые отдельно тюнили Veo и Imagen, плюс инструменты для локального редактирования кадров.

Что отличает рабочую схему

— Человек задаёт стиль и историю
— Модель оживляет и ускоряет
— Человек снова правит и доводит
— ИИ — инструмент, а не автор

Именно эта петля «аниматор → модель → аниматор» и дала результат.

Будущее анимации не в «ИИ рисует всё сам». Оно в том, что сложные, дорогие и долгие процессы внезапно ужимаются до недель, если ИИ встроен в пайплайн правильно.

Будущее, как обычно, подкралось не громко, а рабочим коммитом.

Data Science

👍8

2.51K views19:37

Data Science | Machinelearning [ru]

Forwarded from xCode Journal

😁 Неделя из жизни IT-конторы

💥

xCode Journal

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁22❤1🔥1

2.43K views11:07

Data Science | Machinelearning [ru]

Данные для обучения ИИ в 2026

Идея «интернет как бесконечный датасет» больше не работает. Графики по StackExchange и Stack Overflow выглядят тревожно: поток новых вопросов рос до середины 2010-х, потом застыл, а после 2022–2023 начал резко падать. А ведь именно Q&A-площадки были идеальным топливом для LLM: вопрос → контекст → решение → обсуждение → правки.

Давай разберёмся, на чём нейросети будут учиться в 2026-м и где данные всё ещё тащат, а где quietly превращаются в проблему.

Где данные всё ещё — это win

• Очищенный веб вместо «сырого интернета»
CommonCrawl никуда не делся, но в обучение идут уже не сырые скрейпы, а сильно отфильтрованные корпуса. Примеры вроде FineWeb и FineWeb-Edu на Hugging Face показывают новый стандарт: меньше объёма, больше смысла, жёсткая дедупликация и фильтрация AI-мусора.

• Код и инженерные следы
Даже если вопросов становится меньше, разработчики продолжают писать код. Репозитории, PR, issue-дискуссии, changelog’и и migration-гайды — стабильный источник свежего прикладного знания, особенно для reasoning и tool-use.

• Книги и архивы public domain
Происходит тихий разворот к «старым» источникам. Они качественнее случайного веба и юридически безопаснее. Например, корпус public-domain книг от Harvard University — это почти учебник для будущих моделей.

• Логи взаимодействий с продуктами
Диалоги пользователей с ассистентами, оценки «полезно / не полезно», исправления — золото для instruction-tuning и RL. Именно здесь появляется знание о том, как моделью реально пользуются.

Где начинаются выстрелы в ногу

• Исчезновение бесплатных Q&A
Знания уходят в закрытые чаты, корпоративные базы, Slack и Discord. Публичный слой интернета беднеет, а модели теряют источник «живых» инженерных кейсов.

• AI-засорение веба
Самоповторы, SEO-копипаст и синтетика поверх синтетики. Без жёсткой фильтрации это прямой путь к деградации качества.

• Синтетические данные без тормозов
Синтетика дёшева и удобна, но перекорм приводит к замыканию на собственных ошибках и стилю «копия копии». Рабочие пайплайны держатся только на смеси: реальное + синтетика + фильтры.

• Юридические риски
Компании всё меньше готовы «скрейпить и разбираться потом». Лицензирование и партнёрства становятся нормой — как у OpenAI с Stack Overflow.

Что отличает устойчивые датасеты будущего

— Курирование вместо гонки за объёмом
— Model-based filtering и дедупликация
— Чёткое происхождение данных
— Смесь источников, а не ставка на один
— Версионирование и воспроизводимость

Будущее обучения ИИ — это меньше данных, но больше инженерии вокруг них. И если раньше узким местом были модели, то в 2026-м им станет именно качество и происхождение датасетов.

Data Science

👍11❤3

2.6K views19:37

Data Science | Machinelearning [ru]

Ищем Data Scientist специалиста в команду RecSys в 2ГИС

Делаем рекомендательные сервисы для всех продуктов компании:
— рекомендации заведений на карте
— улучшение поиска по категориям
— персональные подборки для пользователей

Что будешь делать:
• Писать сервисы для команды рекомендательных систем;
• Разрабатывать системы мониторинга качества рекомендательных систем;
• Настраивать мониторинг и алертинг качества данных;
• Писать unit тесты (pytest), тесты для различных участков ML пайплайна, участвовать в код ревью.

Что важно:
• 3+ года опыта полного ML-цикла
• Сильный Python и SQL
• Классический ML + один из DL-фреймворков (torch / tensorflow / keras)
• Понимание RecSys: подходы, метрики, A/B-тесты
• Опыт с инструментами разработки и CI/CD

Удалёнка или офис. Аккредитованная IT-компания, белая зарплата, конференции, свобода в технологиях.
👉 Откликайся

Другие инженерные инсайты от 2ГИС → в Telegram-канале RnD

2.39K views09:37

Data Science | Machinelearning [ru]

Галлюцинации LLM: где модель помогает, а где уверенно врёт

Большие языковые модели выглядят как всезнающие эксперты. Текст гладкий, уверенный, логичный. Ровно до тех пор, пока не выясняется, что все это были галлюцинации. Давай разберёмся, где галлюцинации — это ожидаемое поведение модели, а где они quietly превращаются в серьёзную проблему.

1. Где галлюцинации — это «нормально»

Модель не знает, она продолжает
LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину.

Недостаток или неоднозначность данных
Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения.

Креативные задачи
В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде.

2. Где начинаются проблемы

Фактические вопросы
Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду.

Генерация кода
• Функции, которых не существует.
• API, которых никогда не было.
• Код выглядит правильно — пока не запускаешь.

Критические домены
Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа.

Уверенный тон без знаний
Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается.

3. Что реально снижает галлюцинации

RAG (привязка к данным)
Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий.

Дообучение и выравнивание
RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой.

Чёткие инструкции:
— отвечай только по контексту
— если не знаешь — скажи
— обоснуй каждый шаг

Иногда этого уже достаточно.

• Пост-проверки и правила
• Тесты для кода
• Проверка ссылок
• Фильтры на запрещённые паттерны

Попросить модель:
— проверить себя
— оценить уверенность
— пересмотреть ответ

4. Что отличает надёжную систему от «просто LLM»

— Модель не единственный источник истины
— Есть данные, проверки и ограничения
— Ошибка ловится до пользователя
— Уверенность ≠ корректность

Галлюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать.

Data Science

❤17🐳2

2.53K views07:37

Data Science | Machinelearning [ru]

Accuracy - худшая метрика в классификации

Accuracy - самая популярная метрика в ML.
И одновременно - самая опасная.

Звучит провокационно? Давай разберёмся.

Почему все любят Accuracy?

Формула максимально простая:

Accuracy = (количество правильных предсказаний / общее количество объектов)

Если модель угадывает 90% объектов - кажется, что всё отлично.

Но есть одна проблема 👇

Когда Accuracy полностью врёт

Представим задачу:

👉 1000 клиентов
👉 950 — не уйдут (класс 0)
👉 50 — уйдут (класс 1)

Модель, которая всегда предсказывает «0», получит:

👉 950 правильных предсказаний
👉 Accuracy = 95%

95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.

Проблема №1 — дисбаланс классов

Accuracy не чувствительна к перекосу данных.

В задачах:

👉 Fraud detection
👉 Churn prediction
👉 Medical diagnosis

дисбаланс — это норма, а не исключение.

И accuracy начинает вводить в заблуждение.

Проблема №2 — разные ошибки стоят по-разному

В медицине:

👉 False Negative → пациент болен, модель сказала «здоров»
👉 False Positive → пациент здоров, модель сказала «болен»

Цена ошибок совершенно разная. Accuracy этого не учитывает.

Что использовать вместо Accuracy?

Зависит от задачи.

Если важен поиск редкого класса:

👉 Recall
👉 Precision
👉 F1-score

Если важен баланс:

👉 ROC-AUC
👉 PR-AUC

Если классы несбалансированы:

👉 Balanced Accuracy

Когда Accuracy всё-таки можно использовать?

👉 Когда классы сбалансированы
👉 Когда стоимость ошибок одинакова
👉 Когда это baseline

Во всех остальных случаях - это иллюзия качества.

Вывод

Accuracy - не плохая метрика.
Плохой - слепой выбор метрики.

Метрика должна соответствовать бизнес-задаче.
Иначе вы оптимизируете красивую цифру, а не реальную пользу.

❤18👍3👎3🔥2

2.52K views17:07

Data Science | Machinelearning [ru]

2:03

Media is too big

VIEW IN TELEGRAM

Project Genie: Google даёт поиграться с генеративными мирами

Google запустили Project Genie — и это первая нормальная возможность для обычных пользователей потрогать Genie-3 руками. По сути, это генератор интерактивных миров: ты отдельно задаёшь промпт для окружения и для персонажа (или просто кидаешь картинку), сначала получаешь превью мира от Nano Banana, правишь детали, а уже потом «заходишь» внутрь. Фантазия вообще ничем не ограничена — можно, например, сделать мир “34th Street–Penn Station” и играть за “Discarded pack of cigarettes”, буквально управляя пачкой сигарет в метро. Плюс есть ремиксы: берёшь персонажа из одного мира, окружение из другого, или копаешься в галерее чужих миров и перекраиваешь их под себя. В итоге это выглядит как песочница между игрой, генеративным артом и прототипированием будущих виртуальных миров — залипнуть реально легко. Единственный минус: доступ пока только для подписчиков Ultra за $250, так что это скорее взгляд в будущее, чем массовый релиз.

Data Science

❤5

2.65K views11:37

Data Science | Machinelearning [ru]

Forwarded from xCode Journal

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

😎 Сеньор-разработчик перепрыгивает с созвона одной валютной удаленки на созвон другой валютной удаленки:

💥

xCode Journal

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12😁2❤1

2.24K views11:07

Data Science | Machinelearning [ru]

Transformer простыми словами

Если объяснить максимально просто:
Transformer — это модель, которая понимает контекст через механизм внимания.

Именно на ней построены современные LLM.

Проблема старых моделей

До Transformer были:
👉 RNN
👉 LSTM
👉 GRU

Они читали текст последовательно — слово за словом.

Проблемы:
👉 плохо запоминали длинный контекст
👉 обучались медленно
👉 не параллелились

Нужно было что-то принципиально другое.

Главная идея Transformer — Attention

Transformer не читает текст по порядку.

Он смотрит на всё предложение сразу
и решает, какие слова важны друг для друга.

Например:

«Я положил ноутбук на стол, потому что он был тяжёлый»

Что значит «он»?

Transformer вычисляет, к какому слову это относится,
через механизм внимания.
Это называется Self-Attention.

Что такое Self-Attention интуитивно

Представь, что каждое слово:
👉 смотрит на остальные слова
👉 решает, кому доверять больше
👉 взвешивает их влияние

Математически это:
👉 Query
👉 Key
👉 Value
👉 Softmax
👉 взвешенная сумма

Интуитивно — это просто умное распределение внимания.

Почему это революция

👉 модель видит весь контекст сразу
👉 можно обучать параллельно
👉 отлично работает с длинными последовательностями
👉 хорошо масштабируется

Именно поэтому после статьи
Attention Is All You Need
всё изменилось.

Из чего состоит Transformer

Если сильно упростить:
👉 Embedding
👉 Positional Encoding
👉 Multi-Head Attention
👉 Feed Forward Network
👉 Residual + LayerNorm

И всё это повторяется много раз слоями.

Почему LLM — это просто большой Transformer

Потому что если:
👉 увеличить количество слоёв
👉 увеличить размерность
👉 увеличить объём данных

получается модель, способная:
👉 писать код
👉 объяснять физику
👉 переводить языки
👉 вести диалог

В одном предложении

Transformer — это архитектура,
которая понимает текст через внимание ко всему контексту сразу.

❤21

2.36K views19:07

About

Blog

Apps

Platform