Machine learning Interview

🚀 PageIndex - умный индекс документов для reasoning-RAG (без векторов)

PageIndex от VectifyAI - open-source система, которая помогает работать с длинными документами (PDF, тексты, правила и т.д.) так, как это сделал бы эксперт-человек, а не обычный поисковик.

В отличие от традиционных RAG-систем, которые разбивают текст на куски и используют vector search (векторное сопоставление), PageIndex создаёт иерархическое дерево структуры документа и позволяет моделям ИИ логически искать ответы через reasoning и tree search.

📄 Основная идея
- Длинные документы индексируются как семантическое дерево — похожее на умный «оглавление»
- Структура сохраняет контекст и древовидную иерархию секций
- При запросе модель обходит дерево через reasoning-поиск, как человек, который листает книгу по разделам, а не просто ищет по похожести текста
- Не нужны: векторная база данных, chunking и top-K-селекция, что снижает потери контекста и повышает точность поиска

🧠 Почему это важно
✔️ Лучше для сложных и больших документов (финансовые отчёты, юридические тексты, технические мануалы)
✔️ Сохранение структуры означает, что ИИ может понимать, где именно в документе находится нужная информация
✔️ В отличие от vector-RAG, здесь решение не основано на похожести, а на пошаговом анализе структуры документа

🔧 Что внутри
- Скрипты и Jupyter-ноутбуки для генерации дерева из PDF или Markdown
- Возможность делать reasoning-RAG напрямую без внешних Vector DB
- Примеры использования и cookbooks для практических сценариев

PageIndex - это не просто индекс, а иерархический, reasoning-ориентированный RAG-фреймворк. Он позволяет ИИ читать и анализировать документы, как эксперт, обходя ограничения простого векторного поиска в больших текстах.

▪ Github: https://github.com/VectifyAI/PageIndex
▪ Blog post: https://vectify.ai/blog/Mafin2.5

👍13🔥7🥰2

2.4K views13:01

Machine learning Interview

🚀 Kimi K2.5 - Open-Source Visual Agentic Intelligence

Moonshot представили Kimi K2.5 - это полноценный визуальный агент, заточенный под сложные задачи, код и мультимодальность.

Что по бенчмаркам

🔹 Глобальный SOTA на агентных тестах
- HLE full set - 50.2%
- BrowseComp - 74.9%

🔹 Open-source лидер по зрению и коду
- MMMU Pro - 78.5%
- VideoMMMU - 86.6%
- SWE-bench Verified - 76.8%

Фишка, которая выделяет K2.5

🎨 Code with Taste — модель превращает чаты, изображения и видео в эстетичные сайты с анимацией и выразительным движением, а не просто сухой HTML.

🤖 Agent Swarm (Beta)
Самонаправленные агенты, работающие параллельно:

- До 100 суб-агентов
- До 1 500 вызовов инструментов
- До 4.5x быстрее по сравнению с одиночным агентом

Это уже ближе к распределённой системе ИИ-исполнителей, чем к одному «умному боту».

Где попробовать

🥝 K2.5 доступен на http://kimi.com
- Chat mode
- Agent mode

🥝 Agent Swarm — бета для пользователей высокого уровня

🧑‍💻 Для продакшн-разработки можно связать с Kimi Code
https://kimi.com/code

Для разработчиков

🔗 API - https://platform.moonshot.ai
🔗 Тех-блог - http://kimi.com/blogs/kimi-k2-5.html
🔗 Веса и код - https://huggingface.co/moonshotai/Kimi-K2.5/tree/main

K2.5 - это шаг к мультиагентным ИИ-системам, где модель не просто отвечает, а организует работу, использует инструменты и действует в визуальной среде.

🔥6👍5❤4

1.89K views06:40

Machine learning Interview

🦾 Тестирование AI-агентов: от RAG-прототипа к управляемой системе

Красивые ответы в прототипе не означают готовность к продакшену. Галлюцинации, ложная уверенность и деградация качества проявляются при работе с реальными пользователями.

На уроке разберём:
— Архитектуру AI-агента как объект тестирования: LLM, RAG, промпты, данные.
— Ключевые ошибки: галлюцинации, нерелевантность, ложная уверенность.
— Метрики для оценки качества и цикл: тестирование → улучшение → валидация.
— Практическую демонстрацию валидации RAG-агента.

🗓 10 февраля, 20:00 МСК
Регистрация на открытый урок курса «LLM Driven Development»: https://otus.pw/5SdN/?erid=2W5zFJeYMiY

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

❤4🔥3

1.98K views07:33

Machine learning Interview

🚀🚀🚀 Tencent открыли HPC-Ops — продакшн-библиотеку операторов для LLM-инференса, выжимающую максимум из GPU

HPC-Ops — это библиотека операторов от Tencent HY, созданная для достижения пиковых показателей производительности на массовых inference-картах. Решает главную боль продакшена: стандартные библиотеки часто не доходят до реального потолка железа.

Главные плюсы

🔹 +30% к пропускной способности
- До +30% QPM для моделей Tencent HY
- +17% для DeepSeek в реальных продакшн-сценариях

🔹 Оптимизация под железо
С нуля написано на CUDA + CuTe, чтобы максимально загрузить GPU и убрать узкие места типичных стеков.

🔹 SOTA по ядрам

- Attention — до 2.22× быстрее, чем FlashInfer / FlashAttention
- GroupGEMM — до 1.88× быстрее, чем DeepGEMM
- FusedMoE — до 1.49× быстрее, чем TensorRT-LLM

🔹 Готово к продакшену

- Поддержка ключевых операторов: FusedMoE, GroupGEMM
- Многонодовая коммуникация
- Чистая абстракция для кастомизации под свои пайплайны

Библиотека уже используется в крупномасштабных инференс-сервисах Tencent.

Если вы крутите LLM в проде и упёрлись в пределы производительности — это как раз тот слой, где можно вытащить дополнительные десятки процентов без смены железа.

🔗 GitHub: https://github.com/Tencent/hpc-ops

❤8👍5🔥3👏2

2.32K views08:40

Machine learning Interview

Google Research представили ATLAS — Practical scaling laws for multilingual models 🌍📈

Это практическая методика масштабирования многоязычных моделей, которая помогает понять, как правильно сочетать размер модели, объём данных и набор языков при обучении — не только для английского, а для сотен языков сразу.

Что сделали исследователи
• Провели 774 тренировки моделей от 10M до 8B параметров
• Охватили 400+ языков
• Тестировали качество на 48 языках

ATLAS вводит адаптивные scaling laws, которые учитывают не только размер модели и данные, но и количество языков в обучении. Это важно, потому что в мультилингвистических моделях появляется эффект «curse of multilinguality» — когда слишком много языков начинают конкурировать за ограниченную ёмкость модели.

Чем это ценно на практике

— Помогает понять, когда добавление языков даёт положительный трансфер, а когда начинает вредить
— Показывает, как распределять данные между языками для лучшего качества на целевых
— Дает ориентиры, когда выгоднее обучать модель с нуля, а когда дообучать уже существующую

Также вводится кросс-языковая матрица трансфера, показывающая, какие языки усиливают друг друга, а какие — конфликтуют при совместном обучении.

По сути ATLAS — это data-driven фундамент для проектирования многоязычных LLM:
сколько параметров нужно, сколько данных давать и какие языки смешивать, чтобы получить максимум качества без лишних затрат.

Шаг в сторону более эффективного и менее англоцентричного AI.

https://research.google/blog/atlas-practical-scaling-laws-for-multilingual-models/

👍8❤3🔥1

2.19K views13:01

Machine learning Interview

🚀 Масштабируем эмбеддинги, а не только экспертов - новый путь к более эффективным LLM

Главная идея: в режимах высокой разреженности (sparsity) использование N-граммных эмбеддингов дает более выгодный Pareto-баланс, чем простое наращивание числа MoE-экспертов.

На этом инсайте построена LongCat-Flash-Lite - первая open-source модель такого типа.

⚙️ 68.5B параметров всего (из них 37.13B не эмбеддинги)
Активно на токен: ~2.9B–4.5B
📊 Бенчмарки:
SWE-Bench - 54.4
τ²-Bench - 72.8
TerminalBench - 33.75

📃 Контекстное окно - 256K (на базе YARN)
✨ Оптимизирована под агентные задачи и кодинг, сильна и в общем рассуждении
⚡ Пиковая скорость инференса - около 700 токенов/с

Итог - модель достигает конкурентного качества в своем классе при заметно меньших затратах и задержках.

▪Hugging Face: huggingface.co/meituan-longcat/LongCat-Flash-Lite
▪Технический отчёт: huggingface.co/meituan-longcat/LongCat-Flash-Lite/blob/main/tech_report.pdf

🔥4🤔2❤1

1.49K views13:04

Machine learning Interview

Forwarded from ML Underhood

Назад в 2016: ты помнишь, как всё начиналось…

Судя по соцсетям, 2016-й был золотым годом. ML активно набирал обороты: TensorFlow в опенсорсе, Jupyter-ноутбуки, scikit-learn и матч AlphaGo — Ли Седоль (свело олдскулы?). Присоединяемся к тренду и вспоминаем ML-проекты Яндекса десятилетней выдержки.

Поисковый алгоритм «Палех»

Раньше поисковые системы работали по большей части как инвертированный индекс: запрос сопоставлялся со страницами, где встречались те же слова. Со временем в поиск начали добавлять клики, поведение пользователей и ссылочные факторы — всё это объединили в алгоритме ранжирования MatrixNet. А «Палех» стал следующим шагом: в поиске использовали нейросеть на базе DSSM, чтобы учитывать смысл запроса, а не только совпадение слов. Подробнее о том, как всё работало, можно почитать на Хабре.

Перевод текста с изображения в Переводчике

Яндекс Переводчик научился распознавать текст прямо на картинках. Можно было загрузить изображение — комикс, график с подписями или скан документа — и сразу получить перевод. Функция работала даже в неидеальных условиях: если текст был под углом, растянут или снят «на бегу». Распознавание поддерживало 12 языков, а перевод — любой из 74 языков, доступных на тот момент. В основе лежали технологии компьютерного зрения Яндекса — те же, что использовались в поиске похожих картинок и определении марки автомобиля по фото. А о том, как в Яндексе в 2016 году решали задачу машинного перевода для редких языков, — тут.

Первая нейросеть для прогноза осадков с точностью до минут

В Яндекс Погоду добавили нейросетевой «наукастинг» осадков — краткосрочный прогноз дождя и снега с высокой точностью. Модель использовала данные метеорадаров и свёрточные нейросети, чтобы предсказывать движение осадков на ближайшие пару часов с детализацией до отдельных районов. На коротких интервалах подход оказался точнее классических методов и улучшил прогноз «здесь и сейчас». О том, как далеко шагнуло прогнозирование погоды с помощью нейросетей в 2026-м — писали здесь, а вспомнить, что было в 2016-м, можно тут.

Определение фишинга в Браузере с помощью ML

Традиционная защита браузеров от фишинга была основана на чёрных списках опасных сайтов. Но с автоматизированными атаками, где фишинг-страницы появляются быстрее, чем их вносят в списки, в 2016-м она уже не справлялась.

Стали прямо на устройстве пользователя анализировать самые разные признаки страницы — от технических параметров до визуального оформления — и оценивать её подозрительность. А компьютерное зрение использовали, чтобы сравнивать внешний вид сайтов с известными сервисами — так подделки находились даже без обращения к внешним спискам. Подробнее рассказали в хабростатье.

Вот такие технологии из дохайповых времён. Делитесь в комментариях своими воспоминаниями об ML в 2016 году.

ML Underhood

❤2😐1

847 views16:51

About

Blog

Apps

Platform