Machine learning Interview

🧭 LinkedIn запускает новую систему поиска людей на базе ИИ — для всех своих 1.3 млрд пользователей.

Как это работает:
- ИИ переводит обычный запрос в связанные навыки и области.
Например, запрос *«curing cancer»* найдёт не только учёных, но и экспертов в онкологии и геномике — и при этом учитывает, насколько человек достижим в вашей сети.

Как обучали:
- Команда вручную собрала “золотой” набор из нескольких сотен–тысяч пар «запрос–профиль».
- На нём сгенерировали синтетические данные и обучили 7B модель-судью.
- Затем дистиллировали её в 1.7B учителя релевантности и отдельных учителей для пользовательских действий (connect, follow).
- Итоговая модель обучалась на мягких оценках через KL-дивергенцию.

Как устроен поиск:
- Первый этап — широкая выборка с помощью 8B модели.
- Второй — компактный ранкер, который обеспечивает точность и при этом дешёв в продакшене.
- Ранкер ужали с 440M до 220M параметров с потерей менее 1% качества — это позволило держать систему дешёвой на таком масштабе.

Технические решения:
- Индексацию пришлось перенести с CPU на GPU — граф людей ведёт себя иначе, чем поиск вакансий.
- RL-сжатие контекста уменьшает ввод почти в 20 раз, а связка ранкера и сжатия даёт ускорение в 10 раз.
- Отдельный LLM-router решает, использовать ли семантический стек или откатиться к классическому лексическому поиску.

Источник: venturebeat.com/ai/inside-linkedins-generative-ai-cookbook-how-it-scaled-people-search-to-1-3

👍12❤5🥴4💊3😱1

2.77K views11:45

Machine learning Interview

⚡️ OpenAI представила новый экспериментальный LLM, который раскрывает, как на самом деле работает ИИ.

Команда создала интерпретируемую модель - намного прозрачнее обычных трансформеров, которые ведут себя как «чёрный ящик».
Это важно, потому что такая модель помогает понять, почему ИИ галлюцинирует, ошибается или действует непредсказуемо в критичных ситуациях.

Новый LLM - разреженный трансформер: он намного меньше и проще современных GPT-5, Claude или Gemini. По уровню он ближе к GPT-1, но его цель не конкурировать, а быть максимально объяснимым.

Как это работает:
- модель обучают так, чтобы внутренние схемы становились разрежёнными,
- большинство весов фиксируется в 0,
- каждый нейрон имеет не тысячи связей, а лишь десятки,
- навыки отделяются друг от друга более чистыми и читаемыми путями.

У обычных плотных моделей нейроны связаны хаотично, признаки пересекаются, и понять логику сложно.
Здесь же для каждого поведения можно выделить маленькую схему:
достаточную, потому что она сама выполняет нужную функцию,
и необходимую, потому что её удаление ломает поведение.

Главная цель - изучить, как работают простые механизмы, чтобы лучше понять большие модели.

Метрика интерпретируемости здесь - размер схемы,
метрика способности - pretraining loss.
При увеличении разрежённости способность падает чуть-чуть, а схемы становятся намного проще.

Обучение «больших, но разрежённых» моделей улучшает оба показателя: модель становится сильнее, а механизмы легче для анализа.

Некоторые сложные навыки, например переменные в коде, пока разобраны частично, но даже эти схемы позволяют предсказать, когда модель корректно читает или записывает тип.

Главный вклад работы - рецепт обучения, который создаёт механизмы,
которые можно *назвать, нарисовать и проверить абляциями*,
а не пытаться распутывать хаотичные признаки постфактум.

Пределы пока есть: это маленькие модели и простые поведения, и многое остаётся за пределами картируемых цепочек. Но это важный шаг к настоящей интерпретируемости больших ИИ.

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

❤20👍8👏2🤔2🥰1

2.54K views10:01

Machine learning Interview

🔥 Подборка полезных ресурсов для программистов.

Здесь ты найдёшь всё это - коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!

AI: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Devops: t.me/DevOPSitsec
Собеседования DS: t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_1001_notes
Java: t.me/java_library
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy
Папка Linux:https://t.me/addlist/w4Doot-XBG4xNzYy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy

Сохрани себе, чтобы не потерять!

❤5

2.19K views09:39

Machine learning Interview

🧠 Почему у моделей пропадает «рандомность» во время RL-обучения - и как это чинится

Новая работа разбирает, почему у моделей во время RL для reasoning рушится энтропия (то есть исчезает разнообразие ответов) - и что с этим делать.

Главные выводы:

- 📉 Хорошего набора в ~600 задач хватает, чтобы догнать обучение на 17 000.
Ключ - разнообразие, а не размер датасета.

- 🎯 Reward сужает модель.
При обучении она начинает повторять несколько самых “прибыльных” токенов → энтропия падает → исследование ухудшается.

- 🔄 Меньше энтропии → меньше разнообразия, но измеренная энтропия по промптам почти не коррелирует с точностью.

- ⚙️ Адаптивный энтропийный регуляризатор удерживает «случайность» на целевом уровне, при этом точность продолжает расти.

- 🧪 Off-policy обновления усиливают коллапс, поднимают reward и ломают обобщение — классический overfitting.

- 🧩 Низкое разнообразие данных ускоряет коллапс, но маленький *разнообразный* датасет иногда работает так же хорошо, как полный.

- 🔧 Клиппинг и reweighting позитивных advantage-токенов (например, Progressive Advantage Reweighting) помогают управлять энтропией и борот

arxiv.org/abs/2511.05993

👍14❤3

2.29K views11:01

Machine learning Interview

За 2,5 часа прокачаем маркетинг с нейросетями

Технари, проходите мимо — здесь эфир для ребят из маркетинга.

25 ноября приходите на онлайн-интенсив по AI. Вас ждет:

📈 Кейс-стади. COFIX, CDEK, Звук и Gulliver расскажут, как оптимизировали маркетинг с ML и LLM. С результатами в цифрах!

Например, Cofix ускорил обработку клиентских отзывов в 7000 раз. А Gulliver удвоил CTR товарных карточек на маркетплейсах.

👨‍🏫 Воркшоп по промптингу. Эксперты в прямом эфире помогут сегментировать клиентов, персонализировать рассылки и рекламу с ChatGPT.

📅 25 ноября, 11:00–13:30 мск
💻 Онлайн, бесплатно

Зарегистрироваться

Реклама. ООО «Майндбокс», ИНН: 7713688880, erid: 2W5zFGW2iDn

❤4😁4

1.92K views08:02

Machine learning Interview

🤖 Как объединить десятки экспертных моделей в одну универсальную- без дообучения и утечки данных?

Исследователи из CAS, HKISI-CAS, Sun Yat-sen и Peking представили новый подход: RobustMerge — метод бес-тренировочного, параметро-эффективного объединения моделей.

Проблема:
Каждая экспертная модель умеет своё — одна для OCR, другая для зрения, третья для диалога, четвёртая для кода.
Но как собрать их в одно универсальное MLLM так, чтобы:

- не было утечки данных
- не пришлось обучать всё заново
- не потерялась точность
- модель не развалилась из-за конфликтующих весов

🧠 Что делает RobustMerge
Метод сохраняет *direction robustness* - устойчивость направлений веса — с помощью двух ключевых техник:

- low-rank analysis — выделяет главное направление знаний
- cross-task normalization — нормализует вклад разных задач так, чтобы одна модель не «забивала» другую

Итог:
Разные специализированные модели становятся одним универсальным MLLM, который продолжает хорошо работать по всем направлениям и даже улучшает обобщение.

🚀 Почему это важно
Это решает главную боль индустрии: как собрать десятки экспертов в единую систему без огромных затрат на переобучение и без риска смешать приватные данные.

🔬 Подробности
Paper: arxiv.org/abs/2502.17159
Code: github.com/AuroraZengfh/RobustMerge

👍11❤6🆒3

2K views10:03

Machine learning Interview

Как обучить свою первую ML-модель — и не утонуть в теории?

Машинное обучение звучит сложно — пока вы не попробуете на практике. 24 ноября в 18:00 МСК на открытом уроке вы обучите модель для задачи классификации прямо во время занятия.

Разберём:
– как работает алгоритм дерева решений;
– как решать задачи классификации на Python;
– что нужно, чтобы перейти от экспериментов к реальной работе с ML.

Вы шаг за шагом создадите первую модель, увидите, как она принимает решения, и поймёте, как из простого кода рождается интеллект.

➡️ Открытый урок проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь — начните путь в Data Science с практики, а не с теории:

https://otus.pw/2np3/?erid=2W5zFJegj1J

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

🤣3

1.38K views07:04

Machine learning Interview

🚀 Uni-MoE-2.0-Omni - новый прорыв в омнимодальных моделях

Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия.

✨ Главное нововведение

Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно.

🧠 Архитектура

1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE
- Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях
- Динамически распределяет вычисления в зависимости от сложности задачи

2️⃣ Глубоко слитый мультимодальный encoder-decoder
- Любые комбинации входных и выходных модальностей
- Настоящее омнимодальное взаимодействие и генерация

🛠️ Тренировка

1️⃣ Прогрессивная стратегия обучения
Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение
- Масштабирует плотные LLM в MoE-модели
- Всего 75B токенов
- Стабильная сходимость, особенно на RL

2️⃣ Языковая основа для задач понимания и генерации
- Все задачи сводятся к языковой генерации
- Пробивает барьеры между модальностями

🎨 Возможности

✔ Генерация и взаимодействие через речь
✔ Генерация и редактирование изображений
✔ Понимание изображений и видео
✔ Аудиовизуальное рассуждение
✔ 10+ мультимодальных задач

🔥 Результаты

Модель превзошла Qwen2.5-Omni (1.2T токенов) в 50+ из 76 задач, имея всего 75B токенов:
- Видео-понимание: +5%
- Омнимодальное понимание: +7%
- Speech QA: +4.3%
- Обработка изображений: +7%

🌍 Open Source

Model: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code: https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage: https://idealistxy.github.io/Uni-MoE-v2.github.io/

❤7👍5

1.24K views08:10

About

Blog

Apps

Platform