Анализ данных (Data analysis)
48.3K subscribers
2.76K photos
315 videos
1 file
2.34K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
Forwarded from Machinelearning
⚡️ DeepSeek Engram: условная память LLM через поиск.

DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо и очень хитро забытое старое.

Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:

🟡Engram — модуль, который возвращает нас к дедам с N-грамами.

DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):

🟢Hashed N-grams: модуль смотрит на входящий текст и нарезает его на N-грамы (последовательности токенов).

🟢O(1) Lookup: система делает мгновенный запрос в гигантскую хэш-таблицу эмбеддингов - это чисто статический поиск.

🟢Context-Aware Gating: самый сок. Модель не просто слепо берет данные из "хранилища знаний" - специальный гейтинг-механизм решает: "Нам сейчас нужен факт из памяти или будем думать сами?". Если найденный N-грам релевантен контексту, он подмешивается в скрытое состояние.

🟢Tokenizer Compression: чтобы хранилище знаний не лопнуло от мусора, похожие токены в нем схлопывают в один ID, например, "Apple" и "apple".

🟡Баланс распределения ресурсов.

Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:

🟠Перекос в MoE (100% вычислений): модель тратит дорогие слои внимания на запоминание статики. Это неэффективно, лосс высокий.

🟠Перекос в Память (0% вычислений): модель превращается в гигантскую википедию. Она помнит факты, но у нее напрочь атрофируется ризонинг. Лосс тоже высокий.

🟢Золотая середина (дно U-кривой): 80% MoE и ~20% Engram.

🟡Тесты и результаты.

DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:

Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.

На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.

Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.


🟡Архитектурный нюанс.

Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает.

Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера.

🟡DeepSeek фактически легализовала подобие шпаргалок для LLM.

Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к прекрасному ИИ светлого будущего, который может иметь условно-бесконечную память, ограниченную только объемом оперативки, а не VRAM.

Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы.


🟡Техотчет
🖥Github
🟡Видео


@ai_machinelearning_big_data

#AI #ML #LLM #Engram #Deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
33👍13🔥8
🚀 Meituan представила LongCat-Image - открытую билингвальную (китайский и английский) модель для генерации изображений.

Несмотря на размер всего в 6B параметров, модель показывает эффективность и качество, сопоставимые с куда более крупными системами.

Ключевые преимущества:
лучшая в классе генерация китайского текста - точная, стабильная, с широким покрытием лексики
высокая фотореалистичность благодаря новой стратегии данных и обучения
создана для разработчиков и реальных сценариев применения — доступна, открыта и мультилингвальна изначально

LongCat-Image ориентирована на практическую ценность и качество в продакшене.

🤖 Model: https://modelscope.cn/models/meituan-longcat/
🔥124👍3🥰1
⚡️ Google Research выпустили MedGemma 1.5 - мощный апдейт медицинской Gemma, который заметно прокачал качество сразу по нескольким направлениям:

- CT / MRI
- гистопатология
- рентген
- временные ряды (X-ray timelines)
- медицинские тексты

По тестам приросты очень жирные:
- до +14% точности на задачах по медицинским изображениям
- до +22% на QA по EHR (электронные медкарты)

И это ещё не всё.

Вместе с моделью вышла MedASR - открытая speech-to-text модель для медицины, которая даёт:
до 82% меньше ошибок транскрибации, чем обычные ASR-модели общего назначения.

То есть теперь можно реально делать точную расшифровку врачебной речи, приёмов, диктовок - без тонны “галлюцинаций” в терминах и названиях препаратов.

https://research.google/blog/next-generation-medical-image-interpretation-with-medgemma-15-and-medical-speech-to-text-with-medasr/
👍21🔥106
🔥 Свежее обновление Z-Image-Turbo-Fun-Controlnet-Union 2.1! 🚀

Что нового:
Lite-модель 1.9GB - подходит для low-VRAM и даёт естественное смешивание (blend)
Починили mask leakage в inpainting (маска больше не “течёт”)
Полный рефактор датасета под multi-resolution (вплоть до 1536px)
8-step distillation - Turbo-генерация стала резкой и без мыла

Больше никаких ярких пятен и странных засветов. Высокий и точный контроль генераций. 🧠

🤖 Model: https://modelscope.ai/models/PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1
9🔥6👍4
🚨 BREAKING: OpenAI вернули обратно 3 топ-исследователей из Thinking Machines

Вот это поворот: OpenAI снова усиливают core-команду - и забрали сразу троих сильнейших ребят из Thinking Machines.

Кто вернулся:

Barret Zoph
- VP of Research (Post-Training) в OpenAI
- Co-Founder & CTO в Thinking Machines

Luke Metz и Sam Schoenholz
- Research Scientist в OpenAI
- Member of technical staff в TML

post-training (SFT/RLHF/RL) сейчас - главный рычаг качества моделей.

И когда OpenAI начинает “отжимать” обратно таких людей - значит, впереди новая фаза ИИ-гонки🔥
12👍11🔥10
AgentCPM-Explore🔥 - on-device модель от OpenBMB

OpenBMB выпустили AgentCPM-Explore - компактную, но очень мощную модель-агента, которая рассчитана на работу прямо на устройстве.

Что внутри:

4B параметров + Apache 2.0
Полностью open-source лицензия

Модель заточена под реальные агентные сценарии:
- умеет делать поиск
- сверять факты (verification)
- держать длинные цепочки действий

Открыт не только вес модели
Самое ценное: OpenBMB выложили весь стек:
- training pipeline
- inference stack
- агентные компоненты


Если ищешь основу для автономных агентов на своём железе - это один из самых жирных релизов последних недель.

🤗 Hugging Face: https://huggingface.co/openbmb/AgentCPM-Explore
👍8🔥54🤯1
🔥 CEO Cursor заявил, что они скоординировали сотни GPT-5.2 агентов, чтобы автономно собрать браузер с нуля всего за 1 неделю.

Цитата:
> “Мы построили браузер с GPT-5.2 прямо в Cursor. Он работал без остановки целую неделю.”


Что особенно дико:
- 3M+ строк кода
- тысячи файлов
- рендер-движок с нуля на Rust
- парсинг HTML / CSS

Если это правда - мы уже не “пишем код”, мы управляем армией агентов, которые строят целые продукты без сна и выходных.

https://x.com/mntruell/status/2011562190286045552

@data_analysis_ml
🥱2112🔥8👍7
🎤 Step-Audio-R1.1 - новая планка в Audio Reasoning

StepFun выпустили Step-Audio-R1.1 и сразу забрали 1 место в Artificial Analysis Speech Reasoning leaderboard.

Что по цифрам:
96.4% точности на BigBench Audio - новый рекорд (выше, чем у Grok, Gemini и других топов)
1.51 секунды до первого звука (TTFA) - отвечает настолько быстро, что ощущается как разговор с человеком

Главное в этом релизе другое:
раньше среди моделей приходилось выбирать между - глубоким рассуждением или скорость.
Step-Audio-R1.1 показывает, что можно и то, и другое: модель сохраняет высокий уровень рассуждений и при этом держит задержку около 1.5 секунды.

Что внутри:
📌 Динамическое масштабирование вычислений на инференсе - модель сама решает, сколько “думать” в конкретной ситуации
📌 End-to-end audio reasoning - логика и ответ идут прямо в аудио-формате, без лишних этапов и тормозов
📌 CoT, заточенный именно под аудио - не просто распознавание речи, а понимание и анализ

Версия R1.1 стала умнее и быстрее, это прям ощутимый апгрейд.

И да - веса открыты, можно брать и собирать свои продукты.

🤗 HuggingFace: https://huggingface.co/stepfun-ai/Step-Audio-R1.1
🎤 Попробовать https://stepfun.com/studio/audio?tab=conversation
🔮 ModelScope: https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1
15👍8🔥3
Проблема многих LLM-курсов — они заканчиваются там, где начинается реальная работа: на этапе деплоя.

Когда теория есть в каждой LLM-ке или Ютуб ролике именно наличие практического опыта позволяет сэкономить время и силы для решения задач.

Крупнейшая магистратура по ИИ в России AI Talent Hub и GIGASCHOOL запустили хардовый и практический курс «LLM-инженер». Его фокус — на выводе проектов в прод, а не только на работе в ipynb.

В программе:
- Дообучение:
fine-tuning, PEFT, LoRA / QLoRA, RLHF.
- Инструменты: LangChain, LangGraph, векторные базы.
- Архитектуры: RAG-системы, информационный поиск, защита LLM.
- Продвинутые темы: мультиагентные решения и ассистенты.

Курс запускается уже третьим потоком, а преподают практики из крупных AI-команд, включая директора по разработке моделей в Газпромбанке Кристину Желтову, NLP Lead'а из X5 Tech Александра Потехина и CEO HiveTrace Евгения Кокуйкина.

▪️Старт 26 января | 25 недель с каникулами;
▪️диплом о профессиональной переподготовке;
▪️Повышение стоимости — 20 января

Используй промокод NOW10 и получи скидку 10 000 руб


Подробности и регистрация
7🥴3
🎤Fun-ASR: система распознавания речи

Fun-ASR - это мощная модель распознавания речи, обученная на миллионах часов реальных данных.

Она поддерживает 31 язык и оптимизирована для точного распознавания в шумной обстановке и различных диалектах. Идеально подходит для образовательных и финансовых приложений.

🚀 Основные моменты:
- Высокая точность распознавания в шумных условиях (до 93%)
- Поддержка 7 китайских диалектов и 26 региональных акцентов
- Многоязычная поддержка с возможностью свободного переключения
- Распознавание текстов песен на фоне музыки

📌 GitHub: https://github.com/FunAudioLLM/Fun-ASR

#python
👍117🔥2
🚀 ERNIE-5.0-0110 вышел в релиз - уже #8 в Text Leaderboard на Arena

Baidu выпустили ERNIE-5.0-0110, и модель быстро залетела в топ:
сейчас она занимает #8 в рейтинге @arena (Text Leaderboard).

Что выделяют:
🧮 Сильная математика (top-tier Math)
💻 Мощные экспертные навыки и coding
✍️ Конкурентная генерация - creative writing + instruction following
🎓 Топ-10 во многих “профессиях”:
- Наука
- Бизнес и финансы
- Медецина

Попробовать 👉 https://ernie.baidu.com
6👍4🔥3
🤖 Новый тренд: инфлюенсеры и коучи продают “себя” в формате ИИ.

Примеры:
- Matthew Hussey запустил подписку $39/мес на “Matthew AI”
уже 1M+ чатов и 1.9M минут общения
- Tony Robbins продаёт AI-коучинг-приложение за $99/мес
- похожие боты уже массово появляются в нишах:
отношения, психология, духовные практики

Кто всё это делает:
Delphi — стартап (основан в 2022), который получил $16M инвестиций.

Они делают таких ботов на базе LLM: то есть фактически это просто чатбот, который разговаривает “в стиле автора”.

Почему это так популярно:
бот работает 24/7
масштабируется на миллионы диалогов
можно монетизировать знания и контент без траты личного времени

Но есть и обратная сторона:
появляются неавторизованные копии.
Например, сайт YesChat продавал доступ к ботам “в стиле миллиардера Тонни Роббинсона”, используя его имя и образ без разрешения.

В итоге Роббинсон подал в суд - и выиграл.
YesChat выплатил миллиардеру $1 млн и закрылся.

AI-коучи — это новая подписочная экономика.
Ты покупаешь не курс и не консультацию.
Ты покупаешь “компанию знаменитости”, но в виде чатбота.

wsj.com/style/ai-self-help-chat-bots-tony-robbins-gabby-bernstein-0cf8b3b0
7👍2🔥2🤨2🥱1💔1