Forwarded from Machinelearning
Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа.
Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности.
Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу.
В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов.
На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды.
Это ускорение больше чем в 100 раз.
При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала.
@ai_machinelearning_big_data
#AI #ML #I2V #T2V #TurboDiffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡18🤯7🔥6❤2👀2
Mistral выпустил OCR-модель третьего поколения
Mistral выкатил третье поколение OCR. Главный фокус — универсальность: одна модель для всех типов документов вместо зоопарка специализированных решений.
Ключевые цифры:
- 74% win rate над предыдущей версией
- $2 за 1000 страниц ($1 через Batch API - в 10+ раз дешевле конкурентов)
- 95-98% точность по языкам (китайский, восточноазиатские, европейские)
- Модель: mistral-ocr-2512
Где рвёт конкурентов (см. графики):
- Формы: 95.9% vs Azure 86.2%
- Рукописный текст: 88.9% vs Textract 72.4%
- Сложные таблицы: 96.6% vs Google DocAI 75.9%
- Исторические сканы: 96.7% — лидер
AWS Textract, Azure, Google DocAI, DeepSeek OCR — все позади, причём с заметным отрывом.
Техническая начинка:
- Markdown на выходе с HTML-таблицами (colspan/rowspan сохраняются)
- Извлечение встроенных изображений
- Устойчивость к артефактам сжатия, перекосам, низкому DPI
Один минус, - не оупенсорс.
Доступно через API и Document AI Playground (drag-and-drop интерфейс в Mistral AI Studio).
Т.е. конфиденциалку не пораспознаешь.
#Mistral #OCR #документы
———
@tsingular
Mistral выкатил третье поколение OCR. Главный фокус — универсальность: одна модель для всех типов документов вместо зоопарка специализированных решений.
Ключевые цифры:
- 74% win rate над предыдущей версией
- $2 за 1000 страниц ($1 через Batch API - в 10+ раз дешевле конкурентов)
- 95-98% точность по языкам (китайский, восточноазиатские, европейские)
- Модель: mistral-ocr-2512
Где рвёт конкурентов (см. графики):
- Формы: 95.9% vs Azure 86.2%
- Рукописный текст: 88.9% vs Textract 72.4%
- Сложные таблицы: 96.6% vs Google DocAI 75.9%
- Исторические сканы: 96.7% — лидер
AWS Textract, Azure, Google DocAI, DeepSeek OCR — все позади, причём с заметным отрывом.
Техническая начинка:
- Markdown на выходе с HTML-таблицами (colspan/rowspan сохраняются)
- Извлечение встроенных изображений
- Устойчивость к артефактам сжатия, перекосам, низкому DPI
Один минус, - не оупенсорс.
Доступно через API и Document AI Playground (drag-and-drop интерфейс в Mistral AI Studio).
Т.е. конфиденциалку не пораспознаешь.
#Mistral #OCR #документы
———
@tsingular
🔥7⚡2❤1🤨1 1
🤖 Самые маленькие автономные роботы в мире — меньше крупинки соли
Команды Penn и UMich создали микророботов размером 200×300×50 микрометров, которые умеют думать, чувствовать и действовать самостоятельно.
Цена — 1 цент за штуку.
Почему это прорыв:
40 лет робототехника не могла преодолеть барьер в 1 мм.
На микромасштабе вода ощущается как смола — обычные "руки и ноги" не работают.
Как решили:
Вместо движения конечностями роботы создают электрическое поле, которое двигает ионы в растворе. Ионы толкают воду → робот плывёт. Никаких подвижных частей = месяцы работы без поломок.
Техническая начинка:
- Процессор + память + сенсоры на чипе меньше миллиметра
- Питание от света (LED) — 75 нановатт (в 100 000 раз меньше смарт-часов)
- Датчик температуры с точностью 0.3°C
- Уникальный адрес у каждого робота — можно загружать разные программы
Фишка: роботы "танцуют", чтобы передать данные — как пчёлы. Камера под микроскопом декодирует движения например в показания температуры.
Применение:
- Медицина: мониторинг здоровья отдельных клеток
- Производство: сборка микроустройств
- Координированные группы роботов для сложных задач
Платформа модульная — можно добавлять новые сенсоры и функции.
Не сразу понял где тут робот на фото.
#микророботы #нанотех #Penn #UMich
———
@tsingular
Команды Penn и UMich создали микророботов размером 200×300×50 микрометров, которые умеют думать, чувствовать и действовать самостоятельно.
Цена — 1 цент за штуку.
Почему это прорыв:
40 лет робототехника не могла преодолеть барьер в 1 мм.
На микромасштабе вода ощущается как смола — обычные "руки и ноги" не работают.
Как решили:
Вместо движения конечностями роботы создают электрическое поле, которое двигает ионы в растворе. Ионы толкают воду → робот плывёт. Никаких подвижных частей = месяцы работы без поломок.
Техническая начинка:
- Процессор + память + сенсоры на чипе меньше миллиметра
- Питание от света (LED) — 75 нановатт (в 100 000 раз меньше смарт-часов)
- Датчик температуры с точностью 0.3°C
- Уникальный адрес у каждого робота — можно загружать разные программы
Фишка: роботы "танцуют", чтобы передать данные — как пчёлы. Камера под микроскопом декодирует движения например в показания температуры.
Применение:
- Медицина: мониторинг здоровья отдельных клеток
- Производство: сборка микроустройств
- Координированные группы роботов для сложных задач
Платформа модульная — можно добавлять новые сенсоры и функции.
Не сразу понял где тут робот на фото.
#микророботы #нанотех #Penn #UMich
———
@tsingular
👀24🔥19 7❤3🤯2👾1
FunctionGemma - открытая 270M модель для работы с API
Google представил FunctionGemma — специализированную модель для вызова функций через структурированный вывод.
Основана на Gemma 2, обучена определять когда нужно использовать внешние инструменты и как правильно передавать параметры.
Открытые веса, Apache 2.0 лицензия.
HuggingFace
Бенчмарки показывают конкурентные результаты с GPT-4 на задачах function calling при значительно меньшем размере.
Google позиционирует это как шаг к надёжным агентам, которые умеют взаимодействовать с реальным миром через инструменты.
#FunctionGemma #Gemma #Google
———
@tsingular
Google представил FunctionGemma — специализированную модель для вызова функций через структурированный вывод.
Основана на Gemma 2, обучена определять когда нужно использовать внешние инструменты и как правильно передавать параметры.
Открытые веса, Apache 2.0 лицензия.
HuggingFace
Бенчмарки показывают конкурентные результаты с GPT-4 на задачах function calling при значительно меньшем размере.
Google позиционирует это как шаг к надёжным агентам, которые умеют взаимодействовать с реальным миром через инструменты.
#FunctionGemma #Gemma #Google
———
@tsingular
✍5👍3❤1🆒1
NVIDIA RTX Pro 5000: 72GB памяти на Blackwell
NVIDIA выпустила RTX Pro 5000 с архитектурой Blackwell - профессиональную карту с 72GB памяти.
Это удвоение против предыдущего поколения Ada, что критично для больших языковых моделей и сложных визуальных сцен.
Предназначена для офисных рабочих станций для ИИ-разработки, 3D-рендеринга и научных симуляций.
Blackwell принёс не только объём, но и производительность: пятое поколение тензорных ядер ускоряет инференс трансформеров в разы.
Теперь локальный запуск 70B моделей становится реальностью для обычных офисов, а не только для дата-центров.
Интересно что по цене будет, когда до нас доедет.
И будут ли их отключать по геолокации, как H200, например.
#NVIDIA #Blackwell #RTX5000
———
@tsingular
NVIDIA выпустила RTX Pro 5000 с архитектурой Blackwell - профессиональную карту с 72GB памяти.
Это удвоение против предыдущего поколения Ada, что критично для больших языковых моделей и сложных визуальных сцен.
Предназначена для офисных рабочих станций для ИИ-разработки, 3D-рендеринга и научных симуляций.
Blackwell принёс не только объём, но и производительность: пятое поколение тензорных ядер ускоряет инференс трансформеров в разы.
Теперь локальный запуск 70B моделей становится реальностью для обычных офисов, а не только для дата-центров.
Интересно что по цене будет, когда до нас доедет.
И будут ли их отключать по геолокации, как H200, например.
#NVIDIA #Blackwell #RTX5000
———
@tsingular
👍8⚡6👨💻3😐1
OpenAI представила GPT-5.2-Codex — новую модель для программирования и кибербезопасности
Модель является развитием линейки GPT-5.2 с дополнительной оптимизацией для работы в среде Codex.
Ключевые улучшения включают сжатие контекста для длительных сессий, более надёжную обработку крупных задач по рефакторингу и миграции кода, улучшенную поддержку Windows, а также значительно усиленные возможности в кибербезопасности.
При этом OpenAI признаёт риски двойного назначения: те же возможности могут использовать и злоумышленники.
Модель демонстрирует лучшие результаты на бенчмарках SWE-Bench Pro (56,4%) и Terminal-Bench 2.0 (64%), опережая предыдущие версии.
Улучшенное визуальное восприятие позволяет точнее работать со скриншотами, схемами и макетами интерфейсов.
GPT-5.2-Codex уже доступен платным пользователям ChatGPT через Codex, доступ через API планируется в ближайшие недели.
#OpenAI #Codex #cybersecurity
———
@tsingular
Модель является развитием линейки GPT-5.2 с дополнительной оптимизацией для работы в среде Codex.
Ключевые улучшения включают сжатие контекста для длительных сессий, более надёжную обработку крупных задач по рефакторингу и миграции кода, улучшенную поддержку Windows, а также значительно усиленные возможности в кибербезопасности.
При этом OpenAI признаёт риски двойного назначения: те же возможности могут использовать и злоумышленники.
Модель демонстрирует лучшие результаты на бенчмарках SWE-Bench Pro (56,4%) и Terminal-Bench 2.0 (64%), опережая предыдущие версии.
Улучшенное визуальное восприятие позволяет точнее работать со скриншотами, схемами и макетами интерфейсов.
GPT-5.2-Codex уже доступен платным пользователям ChatGPT через Codex, доступ через API планируется в ближайшие недели.
#OpenAI #Codex #cybersecurity
———
@tsingular
👍4❤3✍2
Google подаёт в суд на SerpApi за массовый скрейпинг
Google затеял судебный процесс против SerpApi — сервиса, который парсил результаты поиска и продавал доступ через API.
Обвинения: нарушение условий использования, обход технической защиты и миллионы запросов с поддельных аккаунтов.
SerpApi превращал публичные результаты поиска в коммерческий продукт,- разработчики платили за структурированные данные вместо того, чтобы скрейпить самим.
Ирония в том, что Google сам вырос на парсинге всего интернета.
Будем надеяться tavily делает все легально и их похожая история не коснется.
#Google #SerpApi #Scraping
———
@tsingular
Google затеял судебный процесс против SerpApi — сервиса, который парсил результаты поиска и продавал доступ через API.
Обвинения: нарушение условий использования, обход технической защиты и миллионы запросов с поддельных аккаунтов.
SerpApi превращал публичные результаты поиска в коммерческий продукт,- разработчики платили за структурированные данные вместо того, чтобы скрейпить самим.
Ирония в том, что Google сам вырос на парсинге всего интернета.
Будем надеяться tavily делает все легально и их похожая история не коснется.
#Google #SerpApi #Scraping
———
@tsingular
👍6🤔4 2❤1
Forwarded from Machinelearning
2025 год был захватывающим годом для языковых моделей.
Они проявились как новый вид интеллекта, одновременно гораздо более умный и гораздо более глупый, чем я ожидал. Я думаю, что индустрия не реализовала хотя бы 10% их потенциала даже при нынешних возможностях.
Я одновременно верю и в то, что мы увидим быстрый и непрерывный прогресс, и в то, что впереди еще очень много работы.
Пристегнитесь.
В 2025-м стек обучения LLM дополнился новой ключевой стадией оптимизации по объективным наградам. Он заставляет модели самостоятельно находить стратегии рассуждения.
Прогресс года в том, что создание моделей стало не про увеличение размера модели, а про более длительные RLVR-прогоны.
Это также дало новый рычаг управления: "время размышления" на инференсе. Первопроходец - OpenAI o1, а переломный момент - o3.
Интеллект LLM формируется под давлением специфических оптимизаций и на выходе мы имеем резкие всплески способностей в рядом с грубыми ошибками.
Из-за этого бенчмарки теряют смысл: под них напрямую оптимизируются, что не ведёт к созданию AGI.
Это не просто интерфейс к условной модели, а сложная оркестрация работы LLM под конкретные вертикали, c управляемым контекстом, вызовами и интерфейсом.
Cursor создаёт отдельную ценностную прослойку между LLM-лабораториями и конечными пользователями.
В отличие от облачных агентов, он использует ваши данные, контекст и инструменты для ризонинга и вызова инструментов.
Его фишка - в низкой задержке, приватности и глубокой интеграции в рабочее окружение. Это сдвиг от ИИ как «сайта» к напарнику-помощнику в вашей системе.
Я думаю, OpenAI допустили ошибку, сосредоточив свои усилия по созданию агентов в облаке и управляемых из ChatGPT, вместо localhost.
В 2025 году ИИ преодолел порог, позволяющий через текстовые инструкции создавать работающие программы.
Это демократизирует программирование, позволяя непрофессионалам писать код, а экспертам - быстро прототипировать без глубокого погружения.
Код становится эфемерным, гибким и бесплатным ресурсом.
Забавно, что я придумал термин «вайб-кодинг» в этом твите с мыслями из душа, совершенно не представляя, как далеко это зайдет :)
Взаимодействие с ИИ через чат - это аналог командной строки 80-х, неудобный для человека.
Будущее за LLM GUI интерфейсом, где ИИ общается визуально (инфографика, анимации, веб-приложения).
Nano banana - ранний пример такого взаимодействия, в ней объединены генерация текста, изображений и общие знания.
Google Gemini Nano banana — одна из самых невероятных, меняющих парадигму моделей 2025 года.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3⚡1
«300 практик применения ИИ»: результаты, кейсы, мнения
А вот и полная презентация вышла.
«Компьютерра» провела исследование внедрений ИИ в российских компаниях и госструктурах.
Главный вывод: ИИ перестал быть игрушкой и стал частью операционного контура.
Цифры:
- 300 кейсов: 73% бизнес, 27% госсектор
- 22 отрасли — от ИТ до ЖКХ и экологии
- Лидеры: ИТ/телеком (15.3%), медицина (13%), финансы (11%), промышленность (10.7%)
- Средний проект: 5.5 месяцев, 12 млн ₽
Что внедряют:
- СППР (системы поддержки принятия решений),- лидируют везде
- Компьютерное зрение,- промышленность, безопасность
- NLP,- документооборот, поддержка
- GenAI,- финсектор экспериментирует активнее всех (22% кейсов)
Зачем:
- Снижение затрат (20.7%)
- Борьба с человеческим фактором (18.4%)
- Обработка неструктурированных данных (13.8%)
Результаты:
- 63.4% — ожидания оправдались
- 17.1% — результат превзошёл прогнозы
- Каждый третий проект дал прямой финансовый эффект
Барьеры:
- Качество данных и неясность метрик (по 15.4%) — главные стоп-факторы
Мешают не технологии, а организация
Ключевой тренд 2025: переход от «умного поиска» к автономным ИИ-агентам.
#компьютерра #аналитика
———
@tsingular
А вот и полная презентация вышла.
«Компьютерра» провела исследование внедрений ИИ в российских компаниях и госструктурах.
Главный вывод: ИИ перестал быть игрушкой и стал частью операционного контура.
Цифры:
- 300 кейсов: 73% бизнес, 27% госсектор
- 22 отрасли — от ИТ до ЖКХ и экологии
- Лидеры: ИТ/телеком (15.3%), медицина (13%), финансы (11%), промышленность (10.7%)
- Средний проект: 5.5 месяцев, 12 млн ₽
Что внедряют:
- СППР (системы поддержки принятия решений),- лидируют везде
- Компьютерное зрение,- промышленность, безопасность
- NLP,- документооборот, поддержка
- GenAI,- финсектор экспериментирует активнее всех (22% кейсов)
Зачем:
- Снижение затрат (20.7%)
- Борьба с человеческим фактором (18.4%)
- Обработка неструктурированных данных (13.8%)
Результаты:
- 63.4% — ожидания оправдались
- 17.1% — результат превзошёл прогнозы
- Каждый третий проект дал прямой финансовый эффект
Барьеры:
- Качество данных и неясность метрик (по 15.4%) — главные стоп-факторы
Мешают не технологии, а организация
Ключевой тренд 2025: переход от «умного поиска» к автономным ИИ-агентам.
#компьютерра #аналитика
———
@tsingular
✍6⚡2❤🔥2 1
This media is not supported in your browser
VIEW IN TELEGRAM
✍12👻8😁5👨💻4❤2 1
Media is too big
VIEW IN TELEGRAM
🎮 NitroGen: модель для игровых AI-агентов
Команда из NVIDIA, Stanford и Caltech обучила универсального игрового агента на 40,000 часов геймплея с 1,000+ игр.
Модель способна играть в новые игры без дообучения.
Оцифровали действия из публичных YouTube-видео через оверлеи геймпадов (те картинки контроллера, которые стримеры показывают в углу экрана).
500M параметров (архитектура GR00T + flow-matching)
Action-RPG — 34.9%, Platformers — 18.4% датасета
846 игр с 1+ часом данных, 15 игр с 1000+ часов
Почему важно:
Это первый серьёзный подход к масштабированию embodied AI.
Игровые RL-агенты (StarCraft, Dota) — узкоспециализированные и дорогие. LLM-подходы требуют ручных API.
NitroGen учится напрямую из пикселей → действия.
Датасет, бенчмарк и веса — в открытом доступе.
Paper
HuggingFace
GitHub
#NVIDIA #Games #NtroGen
———
@tsingular
Команда из NVIDIA, Stanford и Caltech обучила универсального игрового агента на 40,000 часов геймплея с 1,000+ игр.
Модель способна играть в новые игры без дообучения.
Оцифровали действия из публичных YouTube-видео через оверлеи геймпадов (те картинки контроллера, которые стримеры показывают в углу экрана).
500M параметров (архитектура GR00T + flow-matching)
Action-RPG — 34.9%, Platformers — 18.4% датасета
846 игр с 1+ часом данных, 15 игр с 1000+ часов
Почему важно:
Это первый серьёзный подход к масштабированию embodied AI.
Игровые RL-агенты (StarCraft, Dota) — узкоспециализированные и дорогие. LLM-подходы требуют ручных API.
NitroGen учится напрямую из пикселей → действия.
Датасет, бенчмарк и веса — в открытом доступе.
Paper
HuggingFace
GitHub
#NVIDIA #Games #NtroGen
———
@tsingular
🔥4✍1⚡1
Немного танцующих роботов вам в ленту :)
DeepRobotics DR02 в промо
Unitree на концерте в подтанцовке
PNDbotics Adam в лаборатории
#роботы #танцы
------
@tsingular
DeepRobotics DR02 в промо
Unitree на концерте в подтанцовке
PNDbotics Adam в лаборатории
#роботы #танцы
------
@tsingular
🔥7🆒2👾2❤1