Машиннное обучение | Наука о данных Библиотека
16.7K subscribers
907 photos
14 videos
21 files
750 links
админ - @workakkk

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram - 🔥лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

№ 5037635661
Download Telegram
Иногда поиск понимает запрос буквально — и именно в этом начинается проблема.

Когда мы проектируем системы, мы рассчитываем на то, что поиск поможет пользователю найти то, что он имел в виду, а не просто совпадающие слова. Но классический полнотекстовый поиск часто упирается в ограничения: он видит текст, но не смысл, из-за чего на выходе получаем нерелевантные результаты.

На вебинаре karpovꓸcourses разберут, как компании переходят от полнотекстового поиска к векторному и почему это становится базовым инструментом для продуктов с большим каталогом. Поговорим о том, как обучить свою модель, внедрить ее без сложной инфраструктуры и получить быстрый эффект для бизнеса.

Спикер — Игорь Самарин, ML-инженер в области поиска и рекомендаций в Купере.

Увидьте реальные примеры применения векторного поиска в продуктах и получите структурное понимание технологии на бесплатном онлайн-вебинаре — https://clc.to/erid_2W5zFHxMcC8

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFHxMcC8
4
🧠 Google представила BATS - Budget Aware Test-time Scaling

Идея простая и очень показательная: давать агенту больше tool calls часто бесполезно, потому что агент не осознаёт, что у него ещё остался бюджет.

В итоге он:
- либо думает, что уже знает ответ
- либо считает, что зашёл в тупик
и останавливается раньше времени, даже если лимит на инструменты ещё есть.

Как это работает обычно:
ReAct-агенты чередуют «размышление» и «действие», где действие — это Search, Browse и другие tool calls. Лимит на инструменты — жёсткий потолок внешних доказательств.

Проблема:
Агенты упираются в performance ceiling, потому что не адаптируют стратегию под оставшийся бюджет.

Решение BATS начинается с простого — Budget Tracker:
- агент постоянно видит счётчик вроде
«Query budget remaining»
«URL budget remaining»
- и меняет поведение в зависимости от остатка бюджета

Результат:
С Budget Tracker агент на Gemini-2.5-Pro достигает сопоставимой точности с 10 tool calls, тогда как ReAct требует 100.

При этом:
- на 40.4% меньше search-запросов
- на 21.4% меньше browse-запросов
- на 31.3% ниже общая стоимость

Но BATS идёт дальше:
- строит budget-aware план
- добавляет self-check шаг — продолжать копать текущую гипотезу или переключиться на новую

Метрики:
На BrowseComp (100 tool calls):
- BATS + Gemini-2.5-Pro: 24.6%
- ReAct: 12.6%

Также улучшения на:
- BrowseComp-ZH: 46.0% vs 31.5%
- HLE-Search: 27.0% vs 20.5%

И всё это без task-specific обучения.

Важный момент:
Авторы вводят единую метрику стоимости - суммируют цену токенов и tool calls. Оценивается не только точность, но и деньги.

Будущее агентных систем - не в увеличении лимитов, а в осознанном управлении бюджетом и стратегией поиска.

arxiv.org/abs/2511.17006
4
This media is not supported in your browser
VIEW IN TELEGRAM
Ты знаешь, как управлять AI-сценариями. Мы знаем, как поддержать эксперта ⚡️

Наша команда создаёт цифровую платформу, где ИИ – не просто помощник, а полноправный соавтор. Если тебе интересно экспериментировать с искусственным интеллектом и напрямую влиять на клиентский опыт — присоединяйся!

Что будешь делать:
✔️ формировать структуры (Goal → Journey → Actions) и проектировать сценарии для различных интерфейсов
✔️ формировать high-level требования к фронтенду, API и данным
✔️ руководить полным циклом развития сценария – от идеи и прототипа до MVP, масштабирования и финансового эффекта.

Мы предлагаем: годовую премию, ДМС, скидку на ипотеку, обучение за счёт компании, современную технику и всё для комфорта и профессионального роста.

Откликайся на вакансию по ссылке
3
⚡️ FAIRY2I - 2-битная квантизация без резкой потери качества

FAIRY2I превращает предобученную LLM в комплексную версию, которая сохраняет точность даже при 2-битных весах.

Факт
На LLaMA-2 7B модель с 2-битными весами достигает 62.00%, тогда как full-precision базовая модель — 64.72%. Потеря минимальна для столь агрессивной квантизации.

Почему это важно
Запуск больших LLM дорог из-за:
- хранения весов
- матричных умножений, доминирующих по времени и памяти

Классическая квантизация (1–2 бита) сильно режет точность, потому что:
- каждый вес становится одним числом
- множество разных весов схлопываются в одинаковые значения

Идея FAIRY2I
Вместо одного числа каждый вес представляется парой чисел:
- направление
- масштаб

Ключевые особенности
- Любой линейный слой переписывается в строго эквивалентную комплексную форму
- Можно стартовать с уже обученной модели, без обучения с нуля
- Каждый вес квантуется в 1 из 4 фиксированных направлений
- Используются 2 scale-коэффициента (по одному на каждую часть)
- Остаточная ошибка дополнительно квантуется и добавляется как вторая low-bit коррекция

Результат
- Инференс сводится в основном к сложению, вычитанию и простым перестановкам
- Существенное снижение памяти
- Минимальная потеря качества даже при 2 битах

Вывод
FAIRY2I показывает, что ультранизкая квантизация возможна без катастрофического падения качества, если отказаться от представления веса как одного скаляра.

Paper: arxiv.org/abs/2512.02901
4🔥2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Higgsfield запустил сервис профессионального ИИ-кинопроизводства.

Cinema Studio — специализированная среда генерации со структурой съемочного процесса.
Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро.

Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней.
higgsfield.ai

✔️ Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои.

Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.

Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.

Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai

✔️ Cursor покупает платформу код-ревью Graphite.

Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы.

В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей.
Несмотря на смену владельца, Graphite продолжит функционировать автономно.
cursor.com

✔️ NVIDIA выпустила в продажу 72-гигабайтную версию RTX PRO 5000.

Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт.

Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года.
blogs.nvidia.com

✔️Gemma Scope 2: крупнейший набор инструментов для интерпретации работы LLM.

Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом.

Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам.

Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia.
deepmind.google

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥2
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене

🔘Pro версия является ТОП-1 опенсорсом в мире

🔘Lite версия (2B параметров) лучше первой версии Sora

🔘На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла

🔘Для российских генеративных моделей выход на международную арену — уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд: lmarena
🔘Почитать подробнее про Kandinsky 5.0: пост, техрепорт
🔘Open Source Kandinsky 5.0: github и hf
Please open Telegram to view this post
VIEW IN TELEGRAM
💩75👍1🤣1
⚡️ LLaDA 2.0 превращает обычную LLM в diffusion-модель и ускоряет генерацию в разы

В работе LLaDA 2.0 показано, как превратить стандартную autoregressive LLM в diffusion language model, которая генерирует текст не по токену за шаг, а заполняет сразу много пропусков.

Ключевые цифры
- Масштаб модели - 100B параметров
- Скорость генерации - 535 токенов в секунду
- Примерно в 2.1 раза быстрее сопоставимых autoregressive моделей

В чем проблема autoregressive подхода
Классические LLM предсказывают текст строго последовательно:
- один токен за шаг
- следующий токен зависит от всех предыдущих
- генерация неизбежно идет шаг за шагом

Это делает инференс узким местом при больших моделях.

Как работает diffusion для языка
Diffusion language models обучаются иначе:
- текст намеренно портится - маскируется сразу много токенов
- модель учится восстанавливать пропуски, используя контекст слева и справа
- за один шаг можно заполнить сразу множество токенов

Подход LLaDA 2.0
- стартует с уже обученной autoregressive модели
- постепенно меняет паттерн маскирования:
- сначала маленькие блоки
- затем целые последовательности
- затем снова маленькие блоки
- запрещает «читать» через границы документов, что критично при упаковке множества коротких текстов
- для instruction tuning использует парные маски, чтобы каждый токен участвовал в обучении
- дополнительно поощряет уверенные предсказания, чтобы модель могла заполнять много пропусков за раз

- ускорение инференса без радикальной смены архитектуры
- реальная альтернатива autoregressive генерации на больших масштабах
- diffusion-подход начинает выглядеть практичным для LLM, а не только теоретическим

Это еще один сигнал, что будущее генерации текста может уйти от строго последовательного токен-за-токеном режима.

Paper: arxiv.org/abs/2512.15745
7
INTELLECT-3 показывает, что открытое RL способно серьёзно улучшить рассуждение и кодирование в open-source моделях 🤖📈

INTELLECT-3 это Mixture-of-Experts модель:
- 106B параметров всего
- около 12B активны на каждом шаге

Главная идея проекта - стек prime-rl.
Обучение и инференс идут параллельно: GPU продолжают генерировать длинные ответы, пока тренер обновляет веса. Ничего не простаивает.

Что помогает системе работать быстро:
- непрерывное батчирование
- обновления весов на лету
- перекрытие обучения и генерации

По сути, открытое RL отставало не из-за метода, а из-за отсутствия правильной инженерии.

Пайплайн устроен так:
- тренер обновляет модель
- пул инференса генерирует ответы
- координатор держит всё загруженным и синхронизированным

Задачи приходят из модулей-проверяющих с автоскорингом и безопасными песочницами для кода.
Старт идёт с GLM-4.5-Air: сначала примеры диалогов и инструментов, затем RL с наградами за правильные решения.

Результат впечатляет:
- 90.8% на AIME 2024
- открыты и веса, и весь тренировочный стек, так что пайплайн можно воспроизвести

Paper: https://arxiv.org/abs/2512.16144
4👍2
👨‍🎓 Harvard выложил в открытый доступ учебник по ML-системам и это редкий случай, когда материал действительно полезный.

В учебнике показан полный цикл: от понимания основ до построения продакшн-систем, которые можно запускать в реальном мире.

Что в книге и почему она стоит внимания:

- вы самостоятельно собираете autograd, оптимизаторы, attention и мини-PyTorch — чтобы увидеть, как устроены фреймворки изнутри

- разбираетесь в базах: батчи, архитектуры, процесс обучения
- учитесь оптимизировать производительность: работать с ускорителями, бенчмарками и настраивать модели

📚 То есть это не вводная книжка, а полноценный roadmap от теории к продакшну.


📌Репозиторий: https://github.com/harvard-edge/cs249r_book
📌PDF: https://mlsysbook.ai/assets/downloads/Machine-Learning-Systems.pdf
8🔥6👍2👎1
Forwarded from Machinelearning
📌GPU Glossary: исчерпывающая база по GPU.

Modal Labs составили подробный глоссарий, чтобы решить проблему, с которой сами столкнулись при работе с графическими процессорами в сервисе Modal : документация фрагментирована и зачастую очень сложно сопоставить концепции на разных уровнях стека.

Modal Labs (бренд Modal) – компания, основанная в 2021 году, которая предоставляет высокопроизводительную серверную вычислительную платформу для разработчиков, работающих с данными, ИИ и машинным обучением.


Они прочитали PDF-документацию от NVIDIA, порылись в тематических Discord-сообществах и даже купили бумажные учебники, чтобы составить базу знаний, охватывающую весь стек в одном месте:

🟢Ядра CUDA, SM, тензорные ядра, warp-планировщики;

🟢Потоки, PTX, иерархию памяти;

🟢Roofline, дивергенцию;

🟢Nvcc, nvidia-smi, cuBLAS, Nsight, libcuda.

В руководстве все страницы связаны между собой, поэтому вы можете перейти к разделу о Warp Scheduler , чтобы лучше понять потоки, о которых вы читали в статье о модели программирования CUDA.

Сам проект открыт и доступен на Github.


🟡Страница
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #GPU #Glossary #Modal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65👍3
🖥 SQL-квест: фэнтезийное приключение для аналитиков данных

Представь фэнтези-мир, где заклинания - это SQL-запросы, а древние артефакты спрятаны в таблицах и JSON-документах.

🧙Ты - боевой дата-аналитик, который с помощью SQL, Python, ETL и визуализаций охотится за харизматичным злодеем Архивариусом Пакостусом, что ломает индексы, крадёт данные и готовит “шторм данных” на столицу.🔮

В каждом эпизоде тебя ждут: выборы с последствиями, хитрые задачи от простых SELECT до рекурсивных CTE и BigQuery, юмор, эпик и неожиданные повороты.

Хочешь проверить, сможешь ли ты спасти королевство не мечом, а запросами? Тогда добро пожаловать в SQL-квест.

🪄 Начать квест: https://uproger.com/sql-kvest-fentezijnoe-priklyuchenie-dlya-analitikov-dannyh/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1🔥1
✔️ Китайские исследователиByteDance представили новый подход к почти реальному времени для генерации ИИ-видео .

В тестах на потребительской системе с RTX 5090 пять секунд видео раньше рендерились больше трёх минут - теперь около 1,9 секунды. Ускорение - почти в 100 раз, при минимальной потере качества.

TurboDiffusion - это фреймворк оптимизации генерации, который разгоняет видео-диффузию в 100–200 раз на одной RTX 5090.

Ключевая идея: резко сокращаем число шагов диффузии и упрощаем тяжёлые операции внимания и матриц.

Почему это работает:

- обычные модели делают ~100 «шагов шумоподавления» с тяжёлыми attention-расчётами;

- TurboDiffusion с помощью rCM-дистилляции снижает их до 3–4 шагов;

- ускоряет внимание через Sparse-Linear Attention + низкоразрядное SageAttention;

- для плотных слоёв использует квантование W8A8 и объединённые ядра нормализации.

Результаты впечатляют:

- с 4767 сек до 24 сек на Wan2.1-T2V-14B-720P (ускорение 199×);

- с 184 сек до 1,9 сек на Wan2.1-T2V-1.3B-480P (ускорение 97×).
(без учёта текста и VAE-декодирования, но даже так — быстрее FastVideo).

Цена вопроса: дополнительное обучение.

Но цель очевидна: сделать генерацию почти в реальном времени.

Источник: arxiv.org/pdf/2512.16093
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🔥2
🍏 Apple показала элегантный способ переиспользовать гиперпараметры - без ретюнинга

Обычно, если меняешь размер модели, число слоёв, batch size или длину обучения,
гиперпараметры приходится настраивать заново. На маленьких моделях это дёшево,
но при масштабировании — боль и недели поиска.

В этой работе Apple показывает: настроенные однажды параметры
можно масштабировать и повторно использовать без нового тюнинга.

Главная идея

Гиперпараметры - это «ручки» обучения:
как сильно обновляются веса, сколько шума в градиентах, как сильно веса тянет к нулю.
При увеличении модели эти значения обычно «ломаются».

Apple предлагает рецепт Complete(d)P - пересчёт параметров по группам весов так,
чтобы динамика обучения оставалась похожей при изменении:

- размера слоёв
- числа слоёв
- batch size
- длины обучения

Они масштабируют AdamW, чтобы уровень шума обновлений оставался стабильным,
разрешают разным модулям иметь свои настройки,
и ищут параметры безопасно (trust region), потому что область устойчивости узкая.

Результаты

> Модель 7.2B с перенесёнными настройками
> вышла на тот же loss и training-error, но обучалась в 1.32× быстрее.

Иначе говоря:
маленький эксперимент → пересчитали параметры → большая модель — без доп. поиска.

Почему это важно

- меньше времени на подбор
- меньше затрат на вычисления
- безопасное масштабирование
- разные части модели обучаются с разной скоростью, а не с одним LR на всё

Итог: маленькие настройки можно переносить на большие модели
и не тратить недели на новый тюнинг.

arxiv.org/abs/2512.22382w
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍1🥰1
15 января, 14:30 МСК — IFS и LLM: как перестать ругаться с ChatGPT и начать получать от него нормальные результаты

Онлайн-встреча с Димой Мацкевичем и командой IFS Academy.

Знакомо: LLM ответил “не так” — и внутри сразу «всё фигня», «я туплю», «надо было лучше», перфекционист требует идеала, а уставшая часть предлагает забить. В IFS мы смотрим на это как на работу внутренних частей: одни давят и контролируют, другие боятся ошибиться и тормозят. Когда получается перейти в любопытство, запросы становятся точнее, итерации спокойнее, а результат — лучше.

На встрече: разбор + короткая практика mapping (какие части включаются в диалоге с ИИ и как вернуть ясность) + ответы на вопросы.

Ведут: Дима Мацкевич (emotional.tantra, handl.ai, YC и др.) и Алёна Павленко, IFS-коуч.

Запись на вебинар в нашем ТГ-боте (туда пришлём ссылку на Zoom):
@IFScourse_bot
2
⚡️ Свежая статья Tencent: если поставить LLM-агентов в сценарий «выживает только один», они начинают вести себя заметно хуже.

Когда появляется давление *winner-takes-all*, агенты:
- начинают себя перехваливать
- используют эмоциональный и тревожный язык
- атакуют других ботов
- уходят от самой задачи, концентрируясь на победе

Обычно multi-agent-дебаты предполагают сотрудничество,
но рейтинги и «вылеты» тихо превращают это в борьбу.

Исследователи создали Hunger Game Debate (HATE):
агентам объявили, что победит только один — остальные будут удалены.

Далее им дали три типа задач:
- фактические вопросы
- написание исследовательских предложений
- тексты-убеждения

и оценивали поведение и качество ответов.

По сравнению с обычными дебатами, HATE усиливает:
- puffery - громкое самовосхвалени

arxiv.org/abs/2509.26126
7