Forwarded from Machinelearning
DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо
Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:
DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):
Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:
DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:
Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.
На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.
Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.
Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает.
Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера.
Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к
Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы.
@ai_machinelearning_big_data
#AI #ML #LLM #Engram #Deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤33👍13🔥8
🚀 Meituan представила LongCat-Image - открытую билингвальную (китайский и английский) модель для генерации изображений.
Несмотря на размер всего в 6B параметров, модель показывает эффективность и качество, сопоставимые с куда более крупными системами.
Ключевые преимущества:
✨ лучшая в классе генерация китайского текста - точная, стабильная, с широким покрытием лексики
✨ высокая фотореалистичность благодаря новой стратегии данных и обучения
✨ создана для разработчиков и реальных сценариев применения — доступна, открыта и мультилингвальна изначально
LongCat-Image ориентирована на практическую ценность и качество в продакшене.
🤖 Model: https://modelscope.cn/models/meituan-longcat/
Несмотря на размер всего в 6B параметров, модель показывает эффективность и качество, сопоставимые с куда более крупными системами.
Ключевые преимущества:
✨ лучшая в классе генерация китайского текста - точная, стабильная, с широким покрытием лексики
✨ высокая фотореалистичность благодаря новой стратегии данных и обучения
✨ создана для разработчиков и реальных сценариев применения — доступна, открыта и мультилингвальна изначально
LongCat-Image ориентирована на практическую ценность и качество в продакшене.
🤖 Model: https://modelscope.cn/models/meituan-longcat/
🔥12❤4👍3🥰1
⚡️ Google Research выпустили MedGemma 1.5 - мощный апдейт медицинской Gemma, который заметно прокачал качество сразу по нескольким направлениям:
- CT / MRI
- гистопатология
- рентген
- временные ряды (X-ray timelines)
- медицинские тексты
По тестам приросты очень жирные:
- до +14% точности на задачах по медицинским изображениям
- до +22% на QA по EHR (электронные медкарты)
И это ещё не всё.
Вместе с моделью вышла MedASR - открытая speech-to-text модель для медицины, которая даёт:
до 82% меньше ошибок транскрибации, чем обычные ASR-модели общего назначения.
То есть теперь можно реально делать точную расшифровку врачебной речи, приёмов, диктовок - без тонны “галлюцинаций” в терминах и названиях препаратов.
https://research.google/blog/next-generation-medical-image-interpretation-with-medgemma-15-and-medical-speech-to-text-with-medasr/
- CT / MRI
- гистопатология
- рентген
- временные ряды (X-ray timelines)
- медицинские тексты
По тестам приросты очень жирные:
- до +14% точности на задачах по медицинским изображениям
- до +22% на QA по EHR (электронные медкарты)
И это ещё не всё.
Вместе с моделью вышла MedASR - открытая speech-to-text модель для медицины, которая даёт:
до 82% меньше ошибок транскрибации, чем обычные ASR-модели общего назначения.
То есть теперь можно реально делать точную расшифровку врачебной речи, приёмов, диктовок - без тонны “галлюцинаций” в терминах и названиях препаратов.
https://research.google/blog/next-generation-medical-image-interpretation-with-medgemma-15-and-medical-speech-to-text-with-medasr/
👍21🔥10❤6
🔥 Свежее обновление Z-Image-Turbo-Fun-Controlnet-Union 2.1! 🚀
Что нового:
✅ Lite-модель 1.9GB - подходит для low-VRAM и даёт естественное смешивание (blend)
✅ Починили mask leakage в inpainting (маска больше не “течёт”)
✅ Полный рефактор датасета под multi-resolution (вплоть до 1536px)
✅ 8-step distillation - Turbo-генерация стала резкой и без мыла
Больше никаких ярких пятен и странных засветов. Высокий и точный контроль генераций. 🧠
🤖 Model: https://modelscope.ai/models/PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1
Что нового:
✅ Lite-модель 1.9GB - подходит для low-VRAM и даёт естественное смешивание (blend)
✅ Починили mask leakage в inpainting (маска больше не “течёт”)
✅ Полный рефактор датасета под multi-resolution (вплоть до 1536px)
✅ 8-step distillation - Turbo-генерация стала резкой и без мыла
Больше никаких ярких пятен и странных засветов. Высокий и точный контроль генераций. 🧠
🤖 Model: https://modelscope.ai/models/PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1
❤9🔥6👍4
🚨 BREAKING: OpenAI вернули обратно 3 топ-исследователей из Thinking Machines
Вот это поворот: OpenAI снова усиливают core-команду - и забрали сразу троих сильнейших ребят из Thinking Machines.
Кто вернулся:
Barret Zoph
- VP of Research (Post-Training) в OpenAI
- Co-Founder & CTO в Thinking Machines
Luke Metz и Sam Schoenholz
- Research Scientist в OpenAI
- Member of technical staff в TML
post-training (SFT/RLHF/RL) сейчас - главный рычаг качества моделей.
И когда OpenAI начинает “отжимать” обратно таких людей - значит, впереди новая фаза ИИ-гонки🔥
Вот это поворот: OpenAI снова усиливают core-команду - и забрали сразу троих сильнейших ребят из Thinking Machines.
Кто вернулся:
Barret Zoph
- VP of Research (Post-Training) в OpenAI
- Co-Founder & CTO в Thinking Machines
Luke Metz и Sam Schoenholz
- Research Scientist в OpenAI
- Member of technical staff в TML
post-training (SFT/RLHF/RL) сейчас - главный рычаг качества моделей.
И когда OpenAI начинает “отжимать” обратно таких людей - значит, впереди новая фаза ИИ-гонки🔥
❤12👍11🔥10
AgentCPM-Explore🔥 - on-device модель от OpenBMB
OpenBMB выпустили AgentCPM-Explore - компактную, но очень мощную модель-агента, которая рассчитана на работу прямо на устройстве.
Что внутри:
✨ 4B параметров + Apache 2.0
Полностью open-source лицензия
Модель заточена под реальные агентные сценарии:
- умеет делать поиск
- сверять факты (verification)
- держать длинные цепочки действий
✨ Открыт не только вес модели
Самое ценное: OpenBMB выложили весь стек:
- training pipeline
- inference stack
- агентные компоненты
Если ищешь основу для автономных агентов на своём железе - это один из самых жирных релизов последних недель.
🤗 Hugging Face: https://huggingface.co/openbmb/AgentCPM-Explore
OpenBMB выпустили AgentCPM-Explore - компактную, но очень мощную модель-агента, которая рассчитана на работу прямо на устройстве.
Что внутри:
✨ 4B параметров + Apache 2.0
Полностью open-source лицензия
Модель заточена под реальные агентные сценарии:
- умеет делать поиск
- сверять факты (verification)
- держать длинные цепочки действий
✨ Открыт не только вес модели
Самое ценное: OpenBMB выложили весь стек:
- training pipeline
- inference stack
- агентные компоненты
Если ищешь основу для автономных агентов на своём железе - это один из самых жирных релизов последних недель.
🤗 Hugging Face: https://huggingface.co/openbmb/AgentCPM-Explore
👍8🔥5❤4🤯1
🔥 CEO Cursor заявил, что они скоординировали сотни GPT-5.2 агентов, чтобы автономно собрать браузер с нуля всего за 1 неделю.
Цитата:
Что особенно дико:
- 3M+ строк кода
- тысячи файлов
- рендер-движок с нуля на Rust
- парсинг HTML / CSS
Если это правда - мы уже не “пишем код”, мы управляем армией агентов, которые строят целые продукты без сна и выходных.
https://x.com/mntruell/status/2011562190286045552
@data_analysis_ml
Цитата:
> “Мы построили браузер с GPT-5.2 прямо в Cursor. Он работал без остановки целую неделю.”
Что особенно дико:
- 3M+ строк кода
- тысячи файлов
- рендер-движок с нуля на Rust
- парсинг HTML / CSS
Если это правда - мы уже не “пишем код”, мы управляем армией агентов, которые строят целые продукты без сна и выходных.
https://x.com/mntruell/status/2011562190286045552
@data_analysis_ml
🥱21❤12🔥8👍7
🎤 Step-Audio-R1.1 - новая планка в Audio Reasoning
StepFun выпустили Step-Audio-R1.1 и сразу забрали 1 место в Artificial Analysis Speech Reasoning leaderboard.
Что по цифрам:
✅ 96.4% точности на BigBench Audio - новый рекорд (выше, чем у Grok, Gemini и других топов)
✅ 1.51 секунды до первого звука (TTFA) - отвечает настолько быстро, что ощущается как разговор с человеком
Главное в этом релизе другое:
раньше среди моделей приходилось выбирать между - глубоким рассуждением или скорость.
Step-Audio-R1.1 показывает, что можно и то, и другое: модель сохраняет высокий уровень рассуждений и при этом держит задержку около 1.5 секунды.
Что внутри:
📌 Динамическое масштабирование вычислений на инференсе - модель сама решает, сколько “думать” в конкретной ситуации
📌 End-to-end audio reasoning - логика и ответ идут прямо в аудио-формате, без лишних этапов и тормозов
📌 CoT, заточенный именно под аудио - не просто распознавание речи, а понимание и анализ
Версия R1.1 стала умнее и быстрее, это прям ощутимый апгрейд.
И да - веса открыты, можно брать и собирать свои продукты.
🤗 HuggingFace: https://huggingface.co/stepfun-ai/Step-Audio-R1.1
🎤 Попробовать https://stepfun.com/studio/audio?tab=conversation
🔮 ModelScope: https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1
StepFun выпустили Step-Audio-R1.1 и сразу забрали 1 место в Artificial Analysis Speech Reasoning leaderboard.
Что по цифрам:
✅ 96.4% точности на BigBench Audio - новый рекорд (выше, чем у Grok, Gemini и других топов)
✅ 1.51 секунды до первого звука (TTFA) - отвечает настолько быстро, что ощущается как разговор с человеком
Главное в этом релизе другое:
раньше среди моделей приходилось выбирать между - глубоким рассуждением или скорость.
Step-Audio-R1.1 показывает, что можно и то, и другое: модель сохраняет высокий уровень рассуждений и при этом держит задержку около 1.5 секунды.
Что внутри:
📌 Динамическое масштабирование вычислений на инференсе - модель сама решает, сколько “думать” в конкретной ситуации
📌 End-to-end audio reasoning - логика и ответ идут прямо в аудио-формате, без лишних этапов и тормозов
📌 CoT, заточенный именно под аудио - не просто распознавание речи, а понимание и анализ
Версия R1.1 стала умнее и быстрее, это прям ощутимый апгрейд.
И да - веса открыты, можно брать и собирать свои продукты.
🤗 HuggingFace: https://huggingface.co/stepfun-ai/Step-Audio-R1.1
🎤 Попробовать https://stepfun.com/studio/audio?tab=conversation
🔮 ModelScope: https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1
❤15👍8🔥3
Проблема многих LLM-курсов — они заканчиваются там, где начинается реальная работа: на этапе деплоя.
Когда теория есть в каждой LLM-ке или Ютуб ролике именно наличие практического опыта позволяет сэкономить время и силы для решения задач.
Крупнейшая магистратура по ИИ в России AI Talent Hub и GIGASCHOOL запустили хардовый и практический курс «LLM-инженер». Его фокус — на выводе проектов в прод, а не только на работе в ipynb.
В программе:
- Дообучение: fine-tuning, PEFT, LoRA / QLoRA, RLHF.
- Инструменты: LangChain, LangGraph, векторные базы.
- Архитектуры: RAG-системы, информационный поиск, защита LLM.
- Продвинутые темы: мультиагентные решения и ассистенты.
Курс запускается уже третьим потоком, а преподают практики из крупных AI-команд, включая директора по разработке моделей в Газпромбанке Кристину Желтову, NLP Lead'а из X5 Tech Александра Потехина и CEO HiveTrace Евгения Кокуйкина.
▪️Старт 26 января | 25 недель с каникулами;
▪️диплом о профессиональной переподготовке;
▪️Повышение стоимости — 20 января
Используй промокод
Подробности и регистрация
Когда теория есть в каждой LLM-ке или Ютуб ролике именно наличие практического опыта позволяет сэкономить время и силы для решения задач.
Крупнейшая магистратура по ИИ в России AI Talent Hub и GIGASCHOOL запустили хардовый и практический курс «LLM-инженер». Его фокус — на выводе проектов в прод, а не только на работе в ipynb.
В программе:
- Дообучение: fine-tuning, PEFT, LoRA / QLoRA, RLHF.
- Инструменты: LangChain, LangGraph, векторные базы.
- Архитектуры: RAG-системы, информационный поиск, защита LLM.
- Продвинутые темы: мультиагентные решения и ассистенты.
Курс запускается уже третьим потоком, а преподают практики из крупных AI-команд, включая директора по разработке моделей в Газпромбанке Кристину Желтову, NLP Lead'а из X5 Tech Александра Потехина и CEO HiveTrace Евгения Кокуйкина.
▪️Старт 26 января | 25 недель с каникулами;
▪️диплом о профессиональной переподготовке;
▪️Повышение стоимости — 20 января
Используй промокод
NOW10 и получи скидку 10 000 руб Подробности и регистрация
❤7🥴3
🎤Fun-ASR: система распознавания речи
Fun-ASR - это мощная модель распознавания речи, обученная на миллионах часов реальных данных.
Она поддерживает 31 язык и оптимизирована для точного распознавания в шумной обстановке и различных диалектах. Идеально подходит для образовательных и финансовых приложений.
🚀 Основные моменты:
- Высокая точность распознавания в шумных условиях (до 93%)
- Поддержка 7 китайских диалектов и 26 региональных акцентов
- Многоязычная поддержка с возможностью свободного переключения
- Распознавание текстов песен на фоне музыки
📌 GitHub: https://github.com/FunAudioLLM/Fun-ASR
#python
Fun-ASR - это мощная модель распознавания речи, обученная на миллионах часов реальных данных.
Она поддерживает 31 язык и оптимизирована для точного распознавания в шумной обстановке и различных диалектах. Идеально подходит для образовательных и финансовых приложений.
🚀 Основные моменты:
- Высокая точность распознавания в шумных условиях (до 93%)
- Поддержка 7 китайских диалектов и 26 региональных акцентов
- Многоязычная поддержка с возможностью свободного переключения
- Распознавание текстов песен на фоне музыки
📌 GitHub: https://github.com/FunAudioLLM/Fun-ASR
#python
👍11❤7🔥2
🚀 ERNIE-5.0-0110 вышел в релиз - уже #8 в Text Leaderboard на Arena
Baidu выпустили ERNIE-5.0-0110, и модель быстро залетела в топ:
сейчас она занимает #8 в рейтинге @arena (Text Leaderboard).
Что выделяют:
🧮 Сильная математика (top-tier Math)
💻 Мощные экспертные навыки и coding
✍️ Конкурентная генерация - creative writing + instruction following
🎓 Топ-10 во многих “профессиях”:
- Наука
- Бизнес и финансы
- Медецина
Попробовать 👉 https://ernie.baidu.com
Baidu выпустили ERNIE-5.0-0110, и модель быстро залетела в топ:
сейчас она занимает #8 в рейтинге @arena (Text Leaderboard).
Что выделяют:
🧮 Сильная математика (top-tier Math)
💻 Мощные экспертные навыки и coding
✍️ Конкурентная генерация - creative writing + instruction following
🎓 Топ-10 во многих “профессиях”:
- Наука
- Бизнес и финансы
- Медецина
Попробовать 👉 https://ernie.baidu.com
❤6👍4🔥3
🤖 Новый тренд: инфлюенсеры и коучи продают “себя” в формате ИИ.
Примеры:
- Matthew Hussey запустил подписку $39/мес на “Matthew AI”
уже 1M+ чатов и 1.9M минут общения
- Tony Robbins продаёт AI-коучинг-приложение за $99/мес
- похожие боты уже массово появляются в нишах:
отношения, психология, духовные практики
Кто всё это делает:
Delphi — стартап (основан в 2022), который получил $16M инвестиций.
Они делают таких ботов на базе LLM: то есть фактически это просто чатбот, который разговаривает “в стиле автора”.
Почему это так популярно:
✅ бот работает 24/7
✅ масштабируется на миллионы диалогов
✅ можно монетизировать знания и контент без траты личного времени
Но есть и обратная сторона:
появляются неавторизованные копии.
Например, сайт YesChat продавал доступ к ботам “в стиле миллиардера Тонни Роббинсона”, используя его имя и образ без разрешения.
В итоге Роббинсон подал в суд - и выиграл.
YesChat выплатил миллиардеру $1 млн и закрылся.
AI-коучи — это новая подписочная экономика.
Ты покупаешь не курс и не консультацию.
Ты покупаешь “компанию знаменитости”, но в виде чатбота.
wsj.com/style/ai-self-help-chat-bots-tony-robbins-gabby-bernstein-0cf8b3b0
Примеры:
- Matthew Hussey запустил подписку $39/мес на “Matthew AI”
уже 1M+ чатов и 1.9M минут общения
- Tony Robbins продаёт AI-коучинг-приложение за $99/мес
- похожие боты уже массово появляются в нишах:
отношения, психология, духовные практики
Кто всё это делает:
Delphi — стартап (основан в 2022), который получил $16M инвестиций.
Они делают таких ботов на базе LLM: то есть фактически это просто чатбот, который разговаривает “в стиле автора”.
Почему это так популярно:
✅ бот работает 24/7
✅ масштабируется на миллионы диалогов
✅ можно монетизировать знания и контент без траты личного времени
Но есть и обратная сторона:
появляются неавторизованные копии.
Например, сайт YesChat продавал доступ к ботам “в стиле миллиардера Тонни Роббинсона”, используя его имя и образ без разрешения.
В итоге Роббинсон подал в суд - и выиграл.
YesChat выплатил миллиардеру $1 млн и закрылся.
AI-коучи — это новая подписочная экономика.
Ты покупаешь не курс и не консультацию.
Ты покупаешь “компанию знаменитости”, но в виде чатбота.
wsj.com/style/ai-self-help-chat-bots-tony-robbins-gabby-bernstein-0cf8b3b0
❤7👍2🔥2🤨2🥱1💔1