Machinelearning

🌟

Step3-VL-10B: VLM от stepfun.ai.

Пока индустрия одержима гигантоманией и соревнуется, у кого больше параметров, Stepfun решили пойти против течения.

Встречайте, Step3-VL-10B - компактная VL-модель, которая по заявлениям разработчиков не просто конкурирует, а буквально уделывает модели в 10–20 раз тяжелее, включая таких титанов, как Gemini 2.5 Pro и GLM-4.6V.

Звучит как маркетинговый хайп, но под капотом есть интересные инженерные решения, хоть и с хитринкой.

🟡

Архитектура

Конструкция из кастомного визуального PE-lang энкодера на 1.8B параметров и Qwen3-8B (что уже половина успеха, учитывая мощь Qwen) в качестве декодера.

В отличие от многих, кто замораживает визуальную часть, Stepfun разморозили все и тренировали модель в один прогон на 1,2 трлн. токенов. Это позволило визуальной и языковой частям модели не просто сосуществовать, а реально срастись и притереться друг к другу.

После этого модель прогнали через адский RL-цикл (RLVR+RLHF) на 1400+ итераций, чтобы модель научилась жестко ризонить.

🟡

Тесты

В бенчмарках цифры действительно страшные (в хорошем смысле) для такого размера:

🟢MMMU: 78.11 (SeRe) / 80.11 (PaCoRe).
🟢MathVista: 83.97
🟢AIME 2025: 87.66 (SeRe) / 94.43 (PaCoRe)
🟢OCRBench: 86.75 (отлично читает документы).

Для сравнения: GLM-4.6V на 106B выдает на MMMU только 75.20.

Инженерная хитринка кроется в методологии тестирования. Видите в результатах тестов пометку PaCoRe?

PaCoRe (Parallel Coordinated Reasoning):
Чтобы получить топовые цифры, модель использует test-time compute. Она запускает 16 параллельных роллаутов, собирает доказательства из разных веток и синтезирует ответ.

На инференсе это будет стоить вам в 16 раз "дороже" по ресурсам, чем обычный прогон. В стандартном режиме (SeRe) модель все еще хороша, но уже не выглядит как "убийца всех топов".

Кстати, Stepfun честно признались, что в отчетах накосячили с бенчмарками конкурента Qwen3VL-8B из-за неверного max_tokens. Извинились, обещают пересчитать. Это добавляет доверия, но напоминает, что бенчмарки - дело тонкое.

В общем, модель - отличный кандидат для локального использования: есть OpenAI-compatible API и vLLM поддерживается (PR вмержили).

⚠️ Если модель зацикливается при генерации - обновите конфиг, там был баг с eos_token_id, который уже пофиксили.

📌Лицензирование: Apache 2.0 License.

🟡

Модель

🟡

Arxiv

🟡

Demo

@ai_machinelearning_big_data

#AI #ML #VLM #STEP3 #StepFunAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥53❤19👍11🥰4🤔2🥱2❤‍🔥1💯1🦄1

20K views16:04

Machinelearning

Рекомендации, поиск и реклама решают одну и ту же задачу 🤝
Быстро понять интент пользователя и показать ему нужное.

Команда AI VK за год собрала Discovery-платформу — единый инфраструктурный слой для персонализации:

По сути, это переход от множества ML-стеков к централизованной системе данных, моделей и пайплайнов.

Что это дало:
• полный цикл «идея → эксперимент → прод» сократился в 5 раз
• новый рекомендер теперь можно запустить в среднем за месяц
• инженеры не собирают стек с нуля

И самое приятное — продуктовые метрики:
+17,4% времени просмотра в VK Клипах
+40% сохранённых треков в VK Музыке
+70% релевантности рекомендаций в VK Видео

Как это устроено под капотом и из каких компонентов состоит платформа — команда подробно разобрала в большом материале.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤80🥱78👍14🤣12😐11🙉8🔥5💅2

18.1K views17:01

Machinelearning

🌟

Tencent HPC-Ops: решение, которое выжмет максимум из H100 и H200.

Продакшен больших моделей — штука дорогая и в таких масштабах реально бьются за каждый процент скорости.

Tencent Hunyuan AI Infra выложила в открытый доступ HPC-Ops - рабочую библиотеку, на которой, в том числе, крутится их собственная инфраструктура.

Разработчики решили не латать старое, а переписали все с нуля на чистой CUDA и CuTe специально под архитектуру Hopper.

И это логично: популярные решения вроде vLLM или дефолтного FlashAttention часто не до конца утилизируют возможности железа. В HPC-Ops же целью была максимальная загрузка GPU.

Внутри есть все, что нужно для сборки серьезного инференса: оптимизированные ядра внимания с paged attention, квантованный Grouped GEMM с поддержкой FP8 и блочным скейлингом, Fused MoE и инструменты связи нод для распределенных систем.

На своих моделях с HPC-Ops у Tencent пропускная способность выросла на 30%, а для DeepSeek на 17%. Но интереснее всего дела обстоят с H20: там библиотека бустит ускорение до 2.22x по сравнению с тем, что было раньше.

Если закопаться в цифры, то самый большой прирост на декодинге. Механизм внимания в BF16 на декоде работает в 2.2 раза быстрее, чем связка из FlashInfer, FlashAttention и TensorRT-LLM.

На префилле профит поменьше — около 1.33x, но это тоже очень ощутимо.

С FP8 история похожая: ускорение в 2 раза на декодинге и небольшие, но приятные 12% на префилле. Тот же FusedMoE в FP8 прибавляет почти 50% скорости в режиме префилла.

HPC-Ops дружелюбен к vLLM и SGLang, но имейте в виду, что старое железо тут не поддерживается, это инструмент для карт SM90.

В планах на будущее:

🟢sparse attention;
🟢поддержка 4-битного квантования;
🟢новые ядра, которые будут схлопывать вычисления и передачу данных между GPU.

Если вы сейчас оптимизируете инференс на Хопперах и боретесь за каждый токен в секунду эту штуку стоит как минимум потестить.

📌Лицензирование: MIT License.

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #HPCOps #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

❤44👍25😍4🦄2

18.7K views18:10

✔️

Deepmind раскатывет Project Genie.

Экспериментальный прототип Project Genie стал доступным для американских подписчиков тарифа Gemini Ultra. Проект построен на модели мира Genie 3 и может генерировать игровые 2D/3D-окружения по текстовым описаниям или референсным изображений, а затем свободно перемещаться по ним в реальном времени.

На старте доступны функции создания, исследования и модификации локаций. Генерация мира происходит процедурно прямо в процессе взаимодействия.

Длительность сессии - до 60 секунд, есть задержки отклика и визуальные артефакты. Под капотом - Nano Banana Pro и Gemini.
blog.google

✔️

DeepSeek будет делать ИИ-поисковик и платформу автономных агентов.

Китайский стартап открыл массовый наем специалистов для создания поисковой системы. Судя по описаниям вакансий, DeepSeek строит мультимодальный движок, который будет обрабатывать запросы через текст, изображения и аудио на разных языках.

Вторым вектором хантинга стали автономные агенты. Компания ищет инженеров для создания инфраструктуры постоянно работающих ИИ-помощников, способных решать задачи с минимальным вмешательством человека.

Конечной целью в описании позиций компания называет создание AGI.
bloomberg.com

✔️

Ai2 выложил открытых кодинг-агентов SERA.

Институт Аллена представил семейство открытых ИИ-агентов SERA, оптимизированных для работы с реальными кодовыми базами. Флагманская модель SERA-32B успешно решает более 55% задач в SWE-Bench Verified, опережая Qwen3-Coder и проприетарный Devstral Small 2. Младшая версия на 8 млрд. параметров - 29,4%, это тоже выглядит бодро для сопоставимой весовой категории.

Самое крутое здесь — это ценник. Инженеры научились тренировать агентов всего за $400, что примерно в 100 раз дешевле привычных методов. Секрет такой экономии в использовании синтетических данных.

Ai2 выкатили в опенсорс вообще все, включая скрипты для интеграции с Claude Code. Теперь, чтобы поднять собственного ИИ-разработчика, достаточно прописать буквально пару строчек кода..
allenai.org

✔️

Nvidia открыла стек ИИ-моделей для прогноза погоды.

Чипмэйкер опубликовал семейство открытых моделей и библиотек Earth-2, которое заменяет тяжелые физические симуляции нейросетями. Earth-2 генерирует метеопрогнозы на порядки быстрее и дешевле традиционных численных методов NWP.

В релиз вошли 3 архитектуры: Medium Range дает глобальный прогноз на 15 дней вперед по 70+ параметрам, генеративная система Nowcasting следит за штормами здесь и сейчас с окном прогноза до 6 часов и разрешением в километр и третий модуль, Global Data Assimilation, сокращает время расчета начальных атмосферных условий с часов до секунд.

Первые две уже доступны на GitHub и Hugging Face, а выход модуля ассимиляции данных запланирован на 2026 год.
nvidia.com

✔️

Google вывела фреймворк LiteRT в релиз.

Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.

Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).

Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
developers.googleblog.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤83👍12🔥7🦄4

20K views06:48

Machinelearning

🌍 OpenTalks.AI 2026 - главная встреча русскоязычного AI-комьюнити за рубежом
19–20 февраля в Белграде соберутся специалисты по AI и ML со всего мира: исследователи, инженеры, фаундеры, лиды команд и просто люди, которые живут ИИ.
100+ спикеров и экспертов, среди которых:
Дмитрий Ветров, Евгений Бурнаев, Андрей Устюжанин, Татьяна Шаврина, Анна-Вероника Дорогуш, Сергей Николенко, Рома Доронин, Антон Конушин, Сергей Шумский, Аркадий Сандлер, Андрей Савченко, Сергей Кузнецов, Дмитрий Юдин, Сергей Овчаренко, Саша Крайнов — и ещё десятки сильнейших специалистов.
Три направления конференции:
🔬 Research - исследования и наука
⚙️ Engineering - реальные системы и продакшн
💼 Business - ИИ в продуктах и компаниях
OpenTalks.AI - это:
- живое общение и нетворкинг
- обмен опытом без формальностей
- новые идеи, проекты и знакомства
- атмосфера сильного профессионального сообщества
📍 Белград, Сербия
🗓 19–20 февраля 2026
Приезжайте быть частью русскоязычного AI/ML-комьюнити, которое съедется в одном месте со всего мира.

Промо-код на 20% для подписчиков: MachinelearningOT26
👉 www.OpenTalks.AI

opentalks.ai

OpenTalks.AI: 19-20 February 2026

Open Conference on Artificial Intelligence in Belgrade, Serbia, February 19-20, 2026

🔥30👍11❤6🥰5🌭3🦄3🗿2

19.1K views09:00

Machinelearning

🌟

PaddleOCR-VL-1.5: компактная модель для сложного парсинга.

PaddlePaddle обновили свою линейку PaddleOCR-VL, выпустив PaddleOCR-VL-1.5 - компактную VLM на 0.9 млрд. параметров на базе ERNIE-4.5-0.3B-Paddle. Несмотря на скромный размер, в задачах разбора документов она показывает SOTA-результаты.

На тесте OmniDocBench v1.5 модель выбила 94.5% точности, обойдя не только прошлую версию, но и более тяжелых конкурентов.

Фишка обновления - упор на полевые условия. Модель специально учили работать с плохими исходниками: кривыми сканами, бликами от мониторов и мятыми страницами.

Попутно сделали бенчмарк Real5-OmniDocBench, который гоняет модели по 5 сценариям: сканирование, перекосы, деформация листа, фото с экрана и плохое освещение.

🟡В 1.5 добавили:

🟢

Text spotting: находит и распознает текст одновременно (печатный русский - неплохо, рукописный - почти никак)

🟢

Seal recognition: распознает печати (русские - не очень, китайские - на ура).

🟢

Cross-page table merging: умеет склеивать таблицы, которые разорваны между страницами.

🟢

Работа с заголовками: не теряет структуру параграфа при переходе на новый лист.

🟢

Новые языки: добавили поддержку тибетского и бенгальского, подтянули распознавание редких символов и древних текстов.

🟡

Деплой - на любой вкус

Модель работает с transformers, дружит с Flash Attention 2 и, само собой, поддерживается PaddlePaddle 3.2.1.

Если нужно быстро поднять сервис - есть готовый Docker-образ.

🟡

Пара важных моментов по использованию

Если нужен полноценный постраничный парсинг всего документа, лучше использовать официальный пакет PaddleOCR. Реализация через transformers пока ограничена только распознаванием отдельных элементов и споттингом.

В пайплайн встроили логику препроцессинга. Если картинка меньше 1500 пикселей, она автоматом апскейлится фильтром Lanczos. При этом есть потолок в 1.6 млн. пикселей для споттинга, это чтобы не перегружать память GPU и сохранить читаемость мелкого шрифта.

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #VL #OCR #PaddleOCR

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤47🔥23👍17🦄2👌1

22.8K views10:05

✔️

OpenAI отключит GPT-4o и линейку GPT-4.1 в феврале.

С 13 февраля 2026 года ChatGPT прощается со старой гвардией: из меню выбора исчезнут GPT-4o, GPT-4.1 и их mini-версии. Те, кто использует эти модели через API, могут выдохнуть - там все останется как прежде.

По метрикам, на ту же GPT-4o сейчас приходится всего 0,1% дневного трафика. OpenAI довольно долго тянули с отключением, прислушиваясь к просьбам фанатов, которые ценили четверку за творческий стиль. Но время пришло: компания заверяет, что теперь нужную тональность ответов можно настроить и в актуальных GPT-5.1 и 5.2.

Из интересного в планах: OpenAI наконец-то взялись за проблему ложных отказов (это когда модель впадает в морализаторство). А еще нас ждет версия ChatGPT для взрослых, где фильтры контента будут не такими параноидальными, как сейчас.
openai.com

✔️

Apple покупает израильский ИИ-стартап Q.AI.

Apple закрывает свою вторую по величине сделку в истории, приобретая стартап Q.AI, специализирующийся на машинном обучении в обработке аудио и изображений.

Их технологии умеют распознавать шепот и вытаскивать речь из шума, что прямо просится в AirPods. Плюс, наработки Q.AI в детекции микроактивности лицевых мышц планируют использовать для Vision Pro.

В Apple переходит вся команда Q.AI, включая основателя Авиада Майзелса. Для него это уже второй успешный экзит в Купертино: в 2013 году он продал Apple компанию PrimeSense, чьи 3D-сенсоры легли в основу Face ID. Сделку поддержали крупные инвесторы Kleiner Perkins и Gradient Ventures.
reuters.com

✔️

Hugging Face сделали свой ComfyUI.

Команда Gradio выкатила Daggr - опенсорсную систему на Python для построения ML-цепочек. Это золотая середина между скриптами и огромными платформами оркестрации. Вы просто пишете логику на Python, а Daggr на лету строит интерактивный граф, объединяя функции и модели.

Главная фишка в горячей отладке. Если в середине длинного пайплайна что-то пошло не так, не нужно перезапускать все с самого начала. Можно залезть в конкретный узел, проверить промежуточный результат, поправить настройки и запустить только этот кусок.

Daggr работает с Gradio Spaces и Hugging Face, умеет сам клонировать окружение и сохранять состояние процесса. Примеры Daggr-воркфлоу можно посмотреть здесь.
huggingface.co

✔️

Arcee AI обучила открытую 400B-модель за 33 дня и $20 млн.

Команда Arcee AI доказала, что создание моделей фронтир-уровня перестало быть монополией корпораций. Их новая разработка Trinity Large - Sparse MoE на 400 млрд. параметров (13 млрд. активных), создание которой обошлось всего в $20 млн. Фактором успеха стал кластер из 2048 новейших Nvidia B300: благодаря им и оптимизатору Muon основной цикл обучения занял рекордные 33 дня.

Модель выделяется крайне низкой долей роутинга (1,56%) при 256 экспертах, что дает буст инференса. Trinity Large обучалась на 17 триллионах токенов, значительную часть из которых составляла качественная синтетика.

Arcee опубликовали веса всех 3 версий модели на Hugging Face, включая сырой чекпоинт TrueBase без SFT и RL. В бенчмарках Trinity конкурирует с Llama 4 Maverick, опережая ее в математических тестах AIME 2025.
arcee.ai

✔️

Вирусный ИИ-агент OpenClaw (Clawdbot) спровоцировал кризис безопасности.

С проектом OpenClaw (который сначала был Clawdbot, а потом Moltbot) творится классический хайп-экзит. То, что задумывалось как удобный инструмент для управления компьютером через мессенджеры, на деле превратилось в огромную дыру в безопасности. Идея дать ИИ-агенту привилегированные права изначально выглядела так себе, и теперь мы видим последствия.

Из-за того, что Anthropic заставила автора менять название из-за прав на бренд, возникла путаница. Хакеры этим вовсю пользуются: воруют названия и плодят фейковые репозитории с вирусами внутри. Тем временем сотрудники компаний ставят себе OpenClaw без ведома айтишников. В итоге исследователи находят в сети сотни открытых панелей управления, где лежат чужие API-ключи и истории переписки.
forbes.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤77👍21🔥11😁4🤬2🦄2👏1😢1🎉1🌭1

19K views06:55

Machinelearning

🙂

Proof of Corn: сможет ли ИИ вырастить кукурузу?

Классический спор двух инвесторов стал причиной запуска интересного проекта.

В прошлый вторник, после совместного ужина Фред Уилсон (венчурный инвестор из Union Square Ventures) сказал Сету Гольдштейну (серийный предприниматель Кремниевой долины):

Твои нейронки — это круто, но они не смогут вырастить кукурузу.

Сет принял вызов буквально. Так родился проект Proof of Corn.

Он не стал строить робота-садовника на Arduino и вешать на ИИ управление IoT-устройствами, как это сделали в проекте с кустом помидоров, а подключил ИИ-агента, дав ему имя - Farmer Fred. Ведь владелец ресторана не жарит котлеты сам, он нанимает поваров. Так и ИИ не нужно управлять трактором - он станет управляющим кукурузной фермой.

🟡

Стек и процесс

🟢Агент через API регистратора купил домен proofofcorn.com и задеплоил сайт на Vercel.

🟢Написаны скрипты farm_manager.py и daily_check.py. Скрипт дергает погодный API, чекает температуру почвы и сравнивает с базой данных (которую сам же и нагуглил).

🟢Если условия совпадают, ИИ генерирует и отправляет email-запросы реальным подрядчикам, поставщикам семян и владельцам участков.

Агент проанализировал данные и предложил диверсификацию локаций выращивания: штат Айова (надо ждать весны), штат Техас (можно сажать сейчас) и внезапно Аргентина (хедж на случай зимы в северном полушарии).

🟡

Результаты за 3 дня.

🟠Поднят сайт с логами в реальном времени.

🟠Отправлено 10+ писем в агро-офисы и поставщикам в Айове и Техасе.

🟠Первое решение ИИ-менеджера: Ждать. Fred проанализировал погоду в Де-Мойне (-13°C), посчитал, что до посева еще 78 дней, и решил не тратить деньги. Гениально, не правда ли? Для этого нам нужен AGI.

🟠ИИ ушел в хардкорный BizDev. Пока Айова замерзает, агент переключился на нетворкинг. Найден горячий лид - Чад из Небраски (160 акров, потомственный фермер с бэкграундом в финансах). Fred оценил этот контакт настолько высоко, что принял решение «Ответить Чаду» и написал ему 15 писем.

🟠Начал переговоры с Зимбабве и штатом Индианой.

🟠Агент начал парсить комментарии на Hacker News, выделил 20 идей и осознал, что полная прозрачность в логах повышает доверие сообщества.

🟠Погодное API пару раз отваливалось классика.

Если ИИ действительно сможет дистанционно арендовать землю, нанять реднеков с тракторами и собрать урожай — это будет самый дорогой початок кукурузы в истории, но Фред Уилсон проиграет спор.

Посмотрим в октябре.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥97👍38❤27😁18🤗4🦄4👏3🐳1

15.7K views06:40

Machinelearning

⚡️

Transformers v5: первый мажорный релиз за 5 лет.

Спустя 5 лет ожидания и 1200 коммитов в ветку main с момента последнего минорного обновления, Transformers переходит на версию 5.0.0.

Это не просто смена цифры: разработчики фундаментально пересмотрели цикл обновлений и логику работы с весами.

Начиная с v5, Hugging Face отказывается от пятинедельного цикла в пользу еженедельных релизов (v5.1, v5.2 и так далее).

Для ML-инженеров это означает, что доступ к новым архитектурам, которые появляются буквально каждый день, будет открываться практически мгновенно, без необходимости устанавливать нестабильные dev-версии.

🟡

Главное техническое нововведение — API динамической загрузки весов.

Если раньше чекпоинты загружались ровно в том виде, в котором они были сериализованы, то теперь WeightConverter позволяет применять операции к слоям прямо в процессе загрузки.

Новый API дает возможность определить маппинг архитектуры на список конверсий, т.е трансформировать веса на лету, например, для поддержки MoE или Tensor Parallelism без переписывания логики модели.

🟡

Рефакторинг токенизации - второе по значимости изменение.

HF наконец-то избавились от дуализма медленных (Python) и быстрых (Rust) токенайзеров, которые раньше жили в разных файлах.

В v5 теперь единый файл tokenization_<model>.py, который автоматически выбирает лучший доступный бэкенд.

Приоритет отдается TokenizersBackend на базе Rust, который дает оптимальную производительность и поддерживает параллелизацию. Если Rust недоступен, система откатывается на SentencePieceBackend или PythonBackend.

Инициализация токенайзеров стала интуитивной. Теперь можно создать пустой экземпляр и обучить его на своем корпусе с нуля, используя vocab и merges напрямую. Это унифицирует поведение токенайзеров и моделей: объект определяется своим классом, а не наличием предзагруженных файлов словаря.

🟡

Важные изменения, о которых стоит знать при миграции

🟢

dtype при вызове from_pretrained теперь установлен в auto. Библиотека сама попытается определить оптимальную точность, что может сэкономить память, но требует внимания к старым скриптам.

🟢изменен размер шардов при сохранении моделей — теперь по умолчанию они разбиваются на куски по 50 ГБ вместо прежних значений, т.е станет проще работать с хабом.

В релиз вошла поддержка новых моделей, в том числе GLM-4.7, Jais2 и Pixio и исправления для специфических кейсов: FP8-квантования и Flash Attention для квантованных моделей.

🔜 Полный список изменений - в Release Notes

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍71❤29😍9🤔2

11.2K views13:04

About

Blog

Apps

Platform