This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Дарио Амодеи: софт скоро может стать «почти бесплатным»
CEO Anthropic Дарио Амодеи предупреждает: мы быстро идём к миру, где создание софта становится настолько дешёвым, что будет ощущаться почти бесплатным.
Из-за этого может исчезнуть старая логика рынка:
раньше приложения делали “в массовую дистрибуцию”, чтобы окупить разработку.
А дальше этот принцип может перестать работать.
Возможный сценарий будущего:
- приложения и функции будут генерироваться под конкретный запрос,
- даже для простых задач “на один раз”,
- без долгой разработки, команды и релизных циклов.
Но у этого есть обратная сторона:
карьеры, построенные на традиционной разработке, могут полностью исчезнуть.
По мнению Амодеи, адаптироваться можно, но проблема в том, что многие ещё не понимают масштаб изменения, которое уже началось.
@pythonl
CEO Anthropic Дарио Амодеи предупреждает: мы быстро идём к миру, где создание софта становится настолько дешёвым, что будет ощущаться почти бесплатным.
Из-за этого может исчезнуть старая логика рынка:
раньше приложения делали “в массовую дистрибуцию”, чтобы окупить разработку.
А дальше этот принцип может перестать работать.
Возможный сценарий будущего:
- приложения и функции будут генерироваться под конкретный запрос,
- даже для простых задач “на один раз”,
- без долгой разработки, команды и релизных циклов.
Но у этого есть обратная сторона:
карьеры, построенные на традиционной разработке, могут полностью исчезнуть.
По мнению Амодеи, адаптироваться можно, но проблема в том, что многие ещё не понимают масштаб изменения, которое уже началось.
@pythonl
PyTorch 2.10 - что нового (коротко и по делу)
PyTorch выпустили версию 2.10 - релиз с упором на ускорение компиляции/инференса и отладку численных расхождений, что особенно полезно в больших distributed-тренировках.
Главное по фичам:
• torch.compile + Python 3.14
Добавили поддержку Python 3.14, включая экспериментальный freethreaded build (3.14t).
• Меньше overhead на GPU (horizontal fusion)
TorchInductor теперь лучше объединяет независимые операции в один GPU kernel, уменьшая kernel launch overhead и ускоряя пайплайны.
• varlen_attn() - attention для variable-length входов
Появилась новая опа в
- работает и на forward, и на backward
- хорошо дружит с
- сейчас через FlashAttention2, дальше планируют поддержку через cuDNN/FA4
- CUDA (A100+), dtype BF16/FP16
• Быстрее eigendecomposition на GPU
В
Отладка / детерминизм:
• torch.compile теперь уважает deterministic mode
Если включить
• DebugMode для поиска numerical divergence
Новый режим для диагностики:
- логирование dispatch
- tensor hashing (видно, где именно “поехали” тензоры)
- dispatch hooks для заметок и аннотаций
Ещё важное:
• TorchScript официально deprecated
Рекомендуемый путь вперёд - torch.export.
• tlparse + TORCH_TRACE
Упростили сбор трассировок и артефактов, чтобы легче репортить баги в компиляторе.
• Релизы чаще в 2026
Планируют перейти на релиз раз в 2 месяца (вместо quarterly).
https://pytorch.org/blog/pytorch-2-10-release-blog/
#PyTorch #OpenSourceAI #AIInfrastructure
PyTorch выпустили версию 2.10 - релиз с упором на ускорение компиляции/инференса и отладку численных расхождений, что особенно полезно в больших distributed-тренировках.
Главное по фичам:
• torch.compile + Python 3.14
Добавили поддержку Python 3.14, включая экспериментальный freethreaded build (3.14t).
• Меньше overhead на GPU (horizontal fusion)
TorchInductor теперь лучше объединяет независимые операции в один GPU kernel, уменьшая kernel launch overhead и ускоряя пайплайны.
• varlen_attn() - attention для variable-length входов
Появилась новая опа в
torch.nn.attention для ragged/packed последовательностей:- работает и на forward, и на backward
- хорошо дружит с
torch.compile- сейчас через FlashAttention2, дальше планируют поддержку через cuDNN/FA4
- CUDA (A100+), dtype BF16/FP16
• Быстрее eigendecomposition на GPU
В
torch.linalg ускорили eigen decomposition на NVIDIA за счёт cuSOLVER DnXgeev.Отладка / детерминизм:
• torch.compile теперь уважает deterministic mode
Если включить
torch.use_deterministic_algorithms(True), то torch.compile сохранит детерминированность между запусками - удобно для дебага.• DebugMode для поиска numerical divergence
Новый режим для диагностики:
- логирование dispatch
- tensor hashing (видно, где именно “поехали” тензоры)
- dispatch hooks для заметок и аннотаций
Ещё важное:
• TorchScript официально deprecated
Рекомендуемый путь вперёд - torch.export.
• tlparse + TORCH_TRACE
Упростили сбор трассировок и артефактов, чтобы легче репортить баги в компиляторе.
• Релизы чаще в 2026
Планируют перейти на релиз раз в 2 месяца (вместо quarterly).
https://pytorch.org/blog/pytorch-2-10-release-blog/
#PyTorch #OpenSourceAI #AIInfrastructure
🚀 Подборка репозиториев, которые реально полезно добавить в закладки - от фронтенда до AI/LLM.
Frontend / UI
1) Flexbox Froggy - учим flexbox в формате игры
https://github.com/thomaspark/flexboxfroggy
2) shadcn/ui - топовая база UI-компонентов для React
https://github.com/shadcn-ui/ui
3) 50 Projects in 50 Days - прокачка практикой
https://github.com/bradtraversy/50projects50days
4) Awesome React Components - огромная коллекция компонентов
https://github.com/brillout/awesome-react-components
5) Awesome CSS - всё про CSS, паттерны и идеи
https://github.com/awesome-css-group/awesome-css
AI / Multimodal / LLM
6) LLaVA - Large Language and Vision Assistant
https://github.com/haotian-liu/LLaVA
7) CLIP - contrastive обучение текста и изображений
https://github.com/openai/CLIP
8) Transformers - главная библиотека для SOTA NLP/Multimodal моделей
https://github.com/huggingface/transformers
9) Awesome Multimodal ML - бумаги + репозитории по multimodal
https://github.com/pliang279/awesome-multimodal-ml
10) RAG from Scratch - собрать RAG пошагово и понять как работает
https://github.com/langchain-ai/rag-from-scratch
11) Awesome LLM Apps - подборка production-ready LLM приложений
https://github.com/Shubhamsaboo/awesome-llm-apps
12) LLM Engineer Handbook - гайд по профессии LLM-инженера
https://github.com/PacktPublishing/LLM-Engineers-Handbook
Agents / Tools
13) MCP Python SDK - официальный SDK Model Context Protocol
https://github.com/modelcontextprotocol/python-sdk
ML / CV collections
14) Awesome Machine Learning - curated ML фреймворки и библиотеки
https://github.com/josephmisiti/awesome-machine-learning
15) Awesome Computer Vision - огромная база по Computer Vision
https://github.com/jbhuang0604/awesome-computer-vision
16) AI Engineering Hub (ZenML) - MLOps и инженерная часть AI
https://github.com/zenml-io/zenml
Qwen ecosystem
17) Qwen (Official)
https://github.com/QwenLM/Qwen
18) Qwen Fine-Tuning Examples
https://github.com/QwenLM/Qwen-Finetuning
Reinforcement Learning
19) Spinning Up in Deep RL (OpenAI)
https://github.com/openai/spinningup
20) Reinforcement Learning: An Introduction (Sutton & Barto)
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
Core DL
21) PyTorch
https://github.com/pytorch/pytorch
Generative AI
22) Awesome Generative AI Guide
https://github.com/steven2358/awesome-generative-ai
Frontend / UI
1) Flexbox Froggy - учим flexbox в формате игры
https://github.com/thomaspark/flexboxfroggy
2) shadcn/ui - топовая база UI-компонентов для React
https://github.com/shadcn-ui/ui
3) 50 Projects in 50 Days - прокачка практикой
https://github.com/bradtraversy/50projects50days
4) Awesome React Components - огромная коллекция компонентов
https://github.com/brillout/awesome-react-components
5) Awesome CSS - всё про CSS, паттерны и идеи
https://github.com/awesome-css-group/awesome-css
AI / Multimodal / LLM
6) LLaVA - Large Language and Vision Assistant
https://github.com/haotian-liu/LLaVA
7) CLIP - contrastive обучение текста и изображений
https://github.com/openai/CLIP
8) Transformers - главная библиотека для SOTA NLP/Multimodal моделей
https://github.com/huggingface/transformers
9) Awesome Multimodal ML - бумаги + репозитории по multimodal
https://github.com/pliang279/awesome-multimodal-ml
10) RAG from Scratch - собрать RAG пошагово и понять как работает
https://github.com/langchain-ai/rag-from-scratch
11) Awesome LLM Apps - подборка production-ready LLM приложений
https://github.com/Shubhamsaboo/awesome-llm-apps
12) LLM Engineer Handbook - гайд по профессии LLM-инженера
https://github.com/PacktPublishing/LLM-Engineers-Handbook
Agents / Tools
13) MCP Python SDK - официальный SDK Model Context Protocol
https://github.com/modelcontextprotocol/python-sdk
ML / CV collections
14) Awesome Machine Learning - curated ML фреймворки и библиотеки
https://github.com/josephmisiti/awesome-machine-learning
15) Awesome Computer Vision - огромная база по Computer Vision
https://github.com/jbhuang0604/awesome-computer-vision
16) AI Engineering Hub (ZenML) - MLOps и инженерная часть AI
https://github.com/zenml-io/zenml
Qwen ecosystem
17) Qwen (Official)
https://github.com/QwenLM/Qwen
18) Qwen Fine-Tuning Examples
https://github.com/QwenLM/Qwen-Finetuning
Reinforcement Learning
19) Spinning Up in Deep RL (OpenAI)
https://github.com/openai/spinningup
20) Reinforcement Learning: An Introduction (Sutton & Barto)
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
Core DL
21) PyTorch
https://github.com/pytorch/pytorch
Generative AI
22) Awesome Generative AI Guide
https://github.com/steven2358/awesome-generative-ai
⚡️ ERNIE 5.0 - официальный релиз.
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
🗣 Qwen3-TTS - мощный open-source релиз (voice design + клонирование голоса)
Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.
Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик
Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.
▪GitHub: https://github.com/QwenLM/Qwen3-TTS
▪Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
▪Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
▪Блог: https://qwen.ai/blog?id=qwen3tts-0115
▪Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
@ai_machinelearning_big_data
#AI #TTS #Qwen #OpenSource #SpeechAI
Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.
Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик
Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.
▪GitHub: https://github.com/QwenLM/Qwen3-TTS
▪Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
▪Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
▪Блог: https://qwen.ai/blog?id=qwen3tts-0115
▪Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
@ai_machinelearning_big_data
#AI #TTS #Qwen #OpenSource #SpeechAI
Forwarded from Machinelearning
Интересная история, которая доказывает, что в индустрии ИИ не всегда нужны миллиарды долларов и сотни сотрудников.
Знакомьтесь - проект Linum.
Два брата, Сахила Чопра и Ману Чопра, сделали две text-to-video модели на 2 миллиарда параметров, которые генерируют клипы длиной от 2 до 5 секунд в разрешении до 720p.
Согласитесь, это редкое явление в мире, где большинство видео-генераторов закрыты за платными API.
Изначально братья совсем не планировали заниматься генерацией видео.
Сахил окончил Стэнфордский университет в 2019, где в соавторстве разработал курс по LLM и занимался исследованиями в области когнитивных наук на стыке ИИ и лингвистики.
Ману досрочно окончил Калифорнийский университет в Беркли в 2021 г.. До основания Linum занимался исследованиями ИИ в биоинженерии.
Стартовав осенью 2022 года и пройдя через YCombinator, они пилили ИИ-инструмент для раскадровки фильмов. Но, пообщавшись с режиссерами, поняли: рынок слишком узкий, а творческий процесс у всех разный.
Linum v1, была, по их признанию, франкенштейном. Они взяли за основу SDXL, раздули U-NET, превратив 2D-свертки в 3D и добавили временные слои внимания.
Получился забавный бот для Discord, который делал гифки в разрешении 180p. Это работало, но было тупиковой ветвью эволюции.
Расширять модель, заточенную под картинки, для работы с видео - плохая идея в долгосроке. VAE, идущий в комплекте с имидж-моделью, просто не умеет нормально сжимать и разжимать видеопоток. Качество на выходе получается никакое.
К тому же распределения данных в картинках и видео слишком разные, да и переучивать модель стоит дорого.
VAE взяли от Wan 2.1, успев попутно разработать свой собственный temporal VAE, но решили сэкономить на эмбеддингах, DIT и T5 на роль текстового энкодера.
Представьте объем работы: двое парней делали то, чем обычно занимаются отделы с десятками сотрудников.
Они сами собирали датасеты, настраивали VLM для фильтрации контента, писали пайплайны для аннотирования архива видео.
И, конечно, бенчмаркали провайдеров, пытаясь понять, почему H100 у одного хостера работает хуже, чем у другого.
Linum v2 — pretrained веса. Модель пока ошибается в физике и эстетике, а генерация 5-секундного клипа в 720p занимает около 15 минут на H100 при 50 шагах.
Но, главное, братья не останавливаются: есть планы по ускорению через CFG и timestep distillation, работа над звуком и масштабированием.
@ai_machinelearning_big_data
#AI #ML #T2V #Linum
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
32-летний программист после повышения стал регулярно задерживаться, работать по выходным и жить в режиме “ещё один таск и спать”. В итоге его госпитализировали из-за состояния здоровья, связанного с перегрузками.
Самый абсурдный момент, даже в этот период коллеги добавили его в ещё один рабочий чат.
Это напоминание о простой вещи:
никакая задача не стоит здоровья. “Геройство” на работе часто заканчивается тем, что система продолжает крутиться, а человек нет.
Иногда лучший профессиональный навык это вовремя закрыть ноутбук.https://www.asiaone.com/china/32-year-old-programmer-china-allegedly-dies-overwork-added-work-group-chat-even-while
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Step-DeepResearch - новый уровень AI-исследований
Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.
Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.
Что внутри
🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда
📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц
Метрики
🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов
Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.
Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.
▪API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
▪Homepage: https://stepfun.ai/deep-research-invitation
▪Technical report: https://arxiv.org/pdf/2512.20491
▪Github: https://github.com/stepfun-ai/StepDeepResearch
Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.
Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.
Что внутри
🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда
📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц
Метрики
🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов
Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.
Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.
▪API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
▪Homepage: https://stepfun.ai/deep-research-invitation
▪Technical report: https://arxiv.org/pdf/2512.20491
▪Github: https://github.com/stepfun-ai/StepDeepResearch
🤯 Tencent и Tsinghua предлагают переосмыслить саму основу LLM
Continuous Autoregressive Language Models (CALM) и это прям удар по классической парадигме *next-token prediction*.
Сегодняшние LLM работают по одной схеме:
➡️ предсказать следующий токен
➡️ ещё один
➡️ ещё один
Именно эта пошаговость и становится главным бутылочным горлышком по скорости и вычислениям.
Что предлагает CALM
Вместо предсказания отдельных токенов модель предсказывает непрерывные векторы, каждый из которых кодирует сразу кусок смысла.
То есть:
- было — шаг = 1 токен
- стало — шаг = целый семантический фрагмент
Используется высокоточный автоэнкодер, который сжимает K токенов в один continuous-вектор и восстанавливает их с точностью >99.9%.
Что это даёт
🚀 Меньше шагов генерации — модель проходит текст «крупными блоками»
⚡ Каждый шаг несёт ~4× больше информации
💻 Снижение вычислительных затрат на обучение до –44%
📈 Лучшее соотношение *performance / compute* по сравнению с дискретными моделями
Это уже не просто оптимизация — это сдвиг оси масштабирования LLM:
от «больше параметров» к «больше семантики на шаг».
Главный вывод работы:
предсказание в пространстве смысловых векторов может стать дорогой к ультра-эффективным языковым моделям, а не бесконечная гонка за токенами.
Если подход взлетит в проде - это один из самых серьёзных архитектурных апгрейдов LLM за последние годы.
Статья: https://arxiv.org/abs/2510.27688
Код: https://github.com/shaochenze/calm
Continuous Autoregressive Language Models (CALM) и это прям удар по классической парадигме *next-token prediction*.
Сегодняшние LLM работают по одной схеме:
➡️ предсказать следующий токен
➡️ ещё один
➡️ ещё один
Именно эта пошаговость и становится главным бутылочным горлышком по скорости и вычислениям.
Что предлагает CALM
Вместо предсказания отдельных токенов модель предсказывает непрерывные векторы, каждый из которых кодирует сразу кусок смысла.
То есть:
- было — шаг = 1 токен
- стало — шаг = целый семантический фрагмент
Используется высокоточный автоэнкодер, который сжимает K токенов в один continuous-вектор и восстанавливает их с точностью >99.9%.
Что это даёт
🚀 Меньше шагов генерации — модель проходит текст «крупными блоками»
⚡ Каждый шаг несёт ~4× больше информации
💻 Снижение вычислительных затрат на обучение до –44%
📈 Лучшее соотношение *performance / compute* по сравнению с дискретными моделями
Это уже не просто оптимизация — это сдвиг оси масштабирования LLM:
от «больше параметров» к «больше семантики на шаг».
Главный вывод работы:
предсказание в пространстве смысловых векторов может стать дорогой к ультра-эффективным языковым моделям, а не бесконечная гонка за токенами.
Если подход взлетит в проде - это один из самых серьёзных архитектурных апгрейдов LLM за последние годы.
Статья: https://arxiv.org/abs/2510.27688
Код: https://github.com/shaochenze/calm
🧠 UnsolvedMath - 1000+ открытых математических задач как бенчмарк для ИИ
Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.
Выложен датасет UnsolvedMath — это:
- 1000+ открытых математических проблем
- 600+ задач из списка Эрдёша
- аккуратно структурировано в machine-friendly формате
Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.
Почему это важно
Обычные тесты:
- часто содержат задачи, похожие на обучающие данные
- проверяют знание, а не исследовательское мышление
UnsolvedMath:
- требует построения новых гипотез
- проверяет глубину логики
- показывает, способна ли модель делать научно полезные инсайты
Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.
Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.
Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.
https://huggingface.co/datasets/ulamai/UnsolvedMath
Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.
Выложен датасет UnsolvedMath — это:
- 1000+ открытых математических проблем
- 600+ задач из списка Эрдёша
- аккуратно структурировано в machine-friendly формате
Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.
Почему это важно
Обычные тесты:
- часто содержат задачи, похожие на обучающие данные
- проверяют знание, а не исследовательское мышление
UnsolvedMath:
- требует построения новых гипотез
- проверяет глубину логики
- показывает, способна ли модель делать научно полезные инсайты
Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.
Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.
Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.
https://huggingface.co/datasets/ulamai/UnsolvedMath
🚀 Google Research представила GIST — новый этап в “умной” выборке данных
Google Research опубликовала блог-пост о GIST — алгоритме, который помогает выбирать высококачественную подвыборку данных из огромных датасетов так, чтобы она была и разнообразной, и полезной для обучения моделей.
📌 Зачем это нужно
При обучении современных моделей (LLM, CV) данные становятся слишком большими, и обрабатывать всё сразу дорого по памяти и времени. Часто выбирают подмножество данных, но это непросто: нужно найти баланс между:
- разнообразием (не выбирать похожие примеры), и
- полезностью (высокая информативность выбранных точек).
📌 Как работает GIST
Алгоритм GIST (Greedy Independent Set Thresholding) формулирует задачу как сочетание двух целей — максимизации полезности и минимизации избыточности. Он:
- строит граф, где точки данных слишком близкие по расстоянию считаются “связанными”,
- затем находит независимые подмножества, которые максимизируют полезность, не выбирая очень похожие данные.
📌 Гарантии и результаты
GIST — это не просто эвристика, а алгоритм с теоретическими гарантиями: он обеспечивает решение, близкое к оптимальному по комбинированной цели разнообразие+полезность. На практике он превосходит классические подходы на задачах вроде классификации изображений.
📊 Почему это важно
- Надёжная выборка данных критична для устойчивого обучения моделей.
- GIST помогает эффективно снизить объём данных, сохранив при этом ключевую информацию.
- Такой подход особенно ценен, когда данные дорогие или медленные для обработки.
✨ *GIST - шаг к более умной и гарантированной выборке данных, что может ускорить обучение крупных моделей и снизить затраты на вычисления при сохранении качества обучения.*
https://research.google/blog/introducing-gist-the-next-stage-in-smart-sampling/
Google Research опубликовала блог-пост о GIST — алгоритме, который помогает выбирать высококачественную подвыборку данных из огромных датасетов так, чтобы она была и разнообразной, и полезной для обучения моделей.
📌 Зачем это нужно
При обучении современных моделей (LLM, CV) данные становятся слишком большими, и обрабатывать всё сразу дорого по памяти и времени. Часто выбирают подмножество данных, но это непросто: нужно найти баланс между:
- разнообразием (не выбирать похожие примеры), и
- полезностью (высокая информативность выбранных точек).
📌 Как работает GIST
Алгоритм GIST (Greedy Independent Set Thresholding) формулирует задачу как сочетание двух целей — максимизации полезности и минимизации избыточности. Он:
- строит граф, где точки данных слишком близкие по расстоянию считаются “связанными”,
- затем находит независимые подмножества, которые максимизируют полезность, не выбирая очень похожие данные.
📌 Гарантии и результаты
GIST — это не просто эвристика, а алгоритм с теоретическими гарантиями: он обеспечивает решение, близкое к оптимальному по комбинированной цели разнообразие+полезность. На практике он превосходит классические подходы на задачах вроде классификации изображений.
📊 Почему это важно
- Надёжная выборка данных критична для устойчивого обучения моделей.
- GIST помогает эффективно снизить объём данных, сохранив при этом ключевую информацию.
- Такой подход особенно ценен, когда данные дорогие или медленные для обработки.
✨ *GIST - шаг к более умной и гарантированной выборке данных, что может ускорить обучение крупных моделей и снизить затраты на вычисления при сохранении качества обучения.*
https://research.google/blog/introducing-gist-the-next-stage-in-smart-sampling/
Всемирный экономический форум в Давосе на этой неделе превратился в парад прогнозов про ИИ: лидеры топовых компаний поделились своими совершенно разными взглядами на будущее.
Вот что говорили отцы индустрии:
К концу этого года у нас может появиться ИИ умнее любого человека, скажу, что не позже следующего года.
Будущее — это гуманоидная робототехника, и у каждого будет робот.
Есть проблема в энергоснабжении для ИИ, но в Китае этого не произойдет, так как он развертывает более 100 ГВт солнечной энергии в год.
ИИ — это уникальная возможность для Европы, которая может перепрыгнуть через программную эпоху и объединить свои производственные возможности для создания инфраструктуры ИИ.
ИИ создаст множество рабочих мест, связанных с ручным трудом: сантехников, электриков и строителей. Их зарплаты уже растут почти вдвое. Для этого не нужна докторская степень.
Мы как глобальное сообщество должны прийти к тому, чтобы использовать ИИ для чего-то полезного, что меняет жизнь людей, стран и отраслей.
Внедрение ИИ будет неравномерно распределено по всему миру, в первую очередь из-за ограничений, связанных с доступом к капиталу и инфраструктуре.
Я ожидаю создания новых, более значимых рабочих мест. Студентам стоит использовать время для освоения новых инструментов, а не для стажировок — это даст скачок в развитии на 5 лет вперед.
После появления AGI рынок труда окажется на неизведанной территории.
Не продавать чипы Китаю — это одно из важнейших действий, чтобы у нас было время справиться с риском выхода ИИ из-под контроля.
ИИ может уничтожить половину начальных позиций для белых воротничков.
Многие люди взаимодействуют с ИИ с ложным убеждением, что они похожи на нас. И чем умнее мы их делаем, тем больше это будет так. Но ИИ не совсем человек.
Неясно, будет ли это хорошо.
Единственное общее мнение - "Мы развиваемся быстрее, чем понимаем, и последствия не будут ждать, пока мы разберемся в ситуации".
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Новые возможные модели OpenAI замечены в DesignArena 👀
В тестовой среде DesignArena появились сразу 4 новых имени моделей:
- Robin
- Robin (Medium)
- Robin (Low)
- Robin (None)
Что интересно
- Название Robin уже использовалось OpenAI раньше при тестировании GPT-5.2, но тогда это было в LMArena, а не в DesignArena.
- Суффикс (None) у “Robin (None)” выглядит знакомо: такой уровень reasoning-усилия сейчас встречается именно у моделей OpenAI в DesignArena - GPT-5.1 (None), GPT-5.2 (None).
- Это может намекать, что Robin - снова внутренняя тестовая маска для одной из GPT-линеек, а не совершенно новый бренд.
Но есть странности
- Модель формально активна, но практически не попадается в матчах - как будто подключена, но ещё не раскатана в реальный трафик.
- Повторное использование имени Robin выглядит необычно - обычно внутренние кодовые имена у OpenAI не крутят по кругу без причины.
Возможные сценарии
1) Robin - это ранний тест GPT-5.3 или промежуточной версии, где гоняют разные уровни “мышления” (None / Low / Medium).
2) Это не новая модель, а вариации инференс-режимов уже существующей GPT-5.x, которые тестируют под разной вычислительной нагрузкой.
3) Robin - чисто инфраструктурная заглушка для A/B-тестов, а не отдельная архитектура.
Пока подтверждений нет, но связка:
DesignArena + уровни reasoning + паттерны нейминга
выглядит очень “по-openai-шному”.
Следим - если Robin начнёт регулярно появляться в матчах, станет понятнее, это новая ступень GPT или просто новый режим работы старой модели.
https://x.com/AiBattle_/status/2015333058866487615
В тестовой среде DesignArena появились сразу 4 новых имени моделей:
- Robin
- Robin (Medium)
- Robin (Low)
- Robin (None)
Что интересно
- Название Robin уже использовалось OpenAI раньше при тестировании GPT-5.2, но тогда это было в LMArena, а не в DesignArena.
- Суффикс (None) у “Robin (None)” выглядит знакомо: такой уровень reasoning-усилия сейчас встречается именно у моделей OpenAI в DesignArena - GPT-5.1 (None), GPT-5.2 (None).
- Это может намекать, что Robin - снова внутренняя тестовая маска для одной из GPT-линеек, а не совершенно новый бренд.
Но есть странности
- Модель формально активна, но практически не попадается в матчах - как будто подключена, но ещё не раскатана в реальный трафик.
- Повторное использование имени Robin выглядит необычно - обычно внутренние кодовые имена у OpenAI не крутят по кругу без причины.
Возможные сценарии
1) Robin - это ранний тест GPT-5.3 или промежуточной версии, где гоняют разные уровни “мышления” (None / Low / Medium).
2) Это не новая модель, а вариации инференс-режимов уже существующей GPT-5.x, которые тестируют под разной вычислительной нагрузкой.
3) Robin - чисто инфраструктурная заглушка для A/B-тестов, а не отдельная архитектура.
Пока подтверждений нет, но связка:
DesignArena + уровни reasoning + паттерны нейминга
выглядит очень “по-openai-шному”.
Следим - если Robin начнёт регулярно появляться в матчах, станет понятнее, это новая ступень GPT или просто новый режим работы старой модели.
https://x.com/AiBattle_/status/2015333058866487615
Сэм Альтман анонсировал в X, что на собрании разработчиков будет обсуждение "инструментов нового поколения", которые начинает создавать OpenAI.
Стрим нового формата (собрание с трансляцией в прямом эфире) запланирован на 3:00 МСК 28 января на Youtube.
Ваши ставки - что такое инструменты нового поколения?
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Yann LeCun ушёл от Цукерберга и выбрал войну идей.
И, похоже, он прав.
Мы снова наступаем на те же грабли: видим “сверхчеловеческий” результат в узкой задаче - и сразу кричим AGI.
Но это не общий интеллект.
Это просто очень прокачанный инструмент в очень узком месте.
И самое интересное - как быстро мы всё это начинаем считать нормой.
Покажи сегодняшние модели человеку из 2015 года - он бы сказал, что это суперинтеллект.
Генерация кода, картинок, голоса, видео, reasoning - всё в одном окне.
То, что вчера было магией, сегодня “ну ок”.
Проблема не в том, что прогресс медленный.
Проблема в том, что мы перестаём замечать, насколько он безумный.
AGI может ещё не здесь.
Но скорость, с которой инструменты становятся “сверхчеловеческими” в отдельных вещах - уже история.
И, похоже, он прав.
Мы снова наступаем на те же грабли: видим “сверхчеловеческий” результат в узкой задаче - и сразу кричим AGI.
Но это не общий интеллект.
Это просто очень прокачанный инструмент в очень узком месте.
И самое интересное - как быстро мы всё это начинаем считать нормой.
Покажи сегодняшние модели человеку из 2015 года - он бы сказал, что это суперинтеллект.
Генерация кода, картинок, голоса, видео, reasoning - всё в одном окне.
То, что вчера было магией, сегодня “ну ок”.
Проблема не в том, что прогресс медленный.
Проблема в том, что мы перестаём замечать, насколько он безумный.
AGI может ещё не здесь.
Но скорость, с которой инструменты становятся “сверхчеловеческими” в отдельных вещах - уже история.
Media is too big
VIEW IN TELEGRAM
📌 Tencent выкатили HunyuanImage 3.0-Instruct- нативную мультимодальную модель, заточенную под точное редактирование изображений.
И это уже не просто генератор картинок.
Это модель, которая сначала понимает изображение, потом думает, и только потом рисует.
Архитектура серьёзная:
80B параметров MoE (13B активных) - баланс между мощностью и эффективностью.
Глубокое понимание + фотореалистичная генерация в одной системе.
🧠 Модель "с мышлением"
Она не просто выполняет команды.
Внутри используется нативный Chain-of-Thought и алгоритм MixGRPO - модель реально "прокручивает" инструкцию перед генерацией.
Это даёт:
- точное следование намерению пользователя
- согласованность с человеческими предпочтениями
- меньше странных артефактов и нелогичных решений
🎨 Точное редактирование и фьюжн изображений
Вот где начинается магия:
- добавление объектов
- удаление элементов
- изменение деталей
- при этом всё остальное остаётся нетронутым
Плюс продвинутый multi-image fusion - модель может брать элементы из нескольких изображений и собирать единую сцену так, будто она всегда так и выглядела.
🏆 SOTA по качеству
По качеству и точности выполнения инструкций модель выходит на уровень ведущих закрытых решений.
Tencent явно нацелены не просто на демку, а на создание экосистемы вокруг foundation-модели для image generation.
💻 Попробовать можно тут:
https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct
И это уже не просто генератор картинок.
Это модель, которая сначала понимает изображение, потом думает, и только потом рисует.
Архитектура серьёзная:
80B параметров MoE (13B активных) - баланс между мощностью и эффективностью.
Глубокое понимание + фотореалистичная генерация в одной системе.
🧠 Модель "с мышлением"
Она не просто выполняет команды.
Внутри используется нативный Chain-of-Thought и алгоритм MixGRPO - модель реально "прокручивает" инструкцию перед генерацией.
Это даёт:
- точное следование намерению пользователя
- согласованность с человеческими предпочтениями
- меньше странных артефактов и нелогичных решений
🎨 Точное редактирование и фьюжн изображений
Вот где начинается магия:
- добавление объектов
- удаление элементов
- изменение деталей
- при этом всё остальное остаётся нетронутым
Плюс продвинутый multi-image fusion - модель может брать элементы из нескольких изображений и собирать единую сцену так, будто она всегда так и выглядела.
🏆 SOTA по качеству
По качеству и точности выполнения инструкций модель выходит на уровень ведущих закрытых решений.
Tencent явно нацелены не просто на демку, а на создание экосистемы вокруг foundation-модели для image generation.
💻 Попробовать можно тут:
https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct