This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.
Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.
Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.
Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.
Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.
В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.
В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.
Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.
Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.
Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.
Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.
Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.
Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.
Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").
Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥34❤25🥱2😁1
В то время как многие компании ограничиваются теоретическими исследованиями в области искусственного интеллекта, технологическая платформа Авито выбирает принципиально иной путь. Компания объявила о создании научного отдела для практических исследований ИИ, в работу которого инвестирует 1 миллиард рублей.
Компания ожидает, что проект полностью окупится за счет реального применения. Каждая разработка пройдет путь от научной лаборатории до реального применения в сервисах Авито — никаких абстрактных исследований, только практические решения для миллионов пользователей.
Руководство отделом доверили Александру Рыжкову — одному из титулованных специалистов в области машинного обучения. Его статус четырехкратного Kaggle Grandmaster свидетельствует о редком сочетании глубоких теоретических знаний и практических навыков решения сложных задач. Под его руководством команда будет разрабатывать передовые решения в области генеративных моделей, компьютерного зрения, голосовых технологий, защиты от дипфейков и революционных 3D-технологий.
Андрей Рыбинцев, управляющий директор по ИИ Авито, подчеркивает, что компания стремится не просто идти в ногу с трендами, а задавать их. Также технологическая платформа планирует активно партнериться с ведущими вузами и участвовать в научных конференциях.
🤍 Подпишитесь на полезные каналы Авито.
Компания ожидает, что проект полностью окупится за счет реального применения. Каждая разработка пройдет путь от научной лаборатории до реального применения в сервисах Авито — никаких абстрактных исследований, только практические решения для миллионов пользователей.
Руководство отделом доверили Александру Рыжкову — одному из титулованных специалистов в области машинного обучения. Его статус четырехкратного Kaggle Grandmaster свидетельствует о редком сочетании глубоких теоретических знаний и практических навыков решения сложных задач. Под его руководством команда будет разрабатывать передовые решения в области генеративных моделей, компьютерного зрения, голосовых технологий, защиты от дипфейков и революционных 3D-технологий.
Андрей Рыбинцев, управляющий директор по ИИ Авито, подчеркивает, что компания стремится не просто идти в ногу с трендами, а задавать их. Также технологическая платформа планирует активно партнериться с ведущими вузами и участвовать в научных конференциях.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🤣23❤12🔥10🤝3😨2😁1🗿1
Вчера вышла любопытная статья на The Register раскрывает ключевую стратегию, лежащую в создании GPT-5: это не столько развитие новых возможностей, сколько способ экономии ресурсов.
Что нового?
ChatGPT — это 700 млн активных пользователей в неделю, но платных всего ~3%.
Масштаб колоссальный, но вместе с ним — и проблема: огромные расходы на вычисления.
@ai_machinelearning_big_data
#news #ai #ml #opanai #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍107❤44🔥18😁9🙉3👏2💯1
АI-агенты в проде, AI-помощник в облаке — что дальше 🧠
Узнайте 3 сентября на IT-конференция про облака и AI — GoCloud Tech.
В этом году целый трек будет посвящен трендам в AI&ML:
Также будут отдельные треки про работу с данными, облачную инфраструктуру и сервисы для разработки. А еще — демо, воркшопы, карьерные консультации, мерч и яркое afterparty.
Регистрируйтесь🖱
Узнайте 3 сентября на IT-конференция про облака и AI — GoCloud Tech.
В этом году целый трек будет посвящен трендам в AI&ML:
➡️ Как AI-помощник может управлять инфраструктурой за вас➡️ Валидация RAG с помощью RAGAS➡️ SWE-Agents in Developer Tools➡️ Как собирать мультиагентную систему для любых задач➡️ Эволюция AI-агентов
Также будут отдельные треки про работу с данными, облачную инфраструктуру и сервисы для разработки. А еще — демо, воркшопы, карьерные консультации, мерч и яркое afterparty.
Регистрируйтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🤝24👍18❤9🔥3😁3
Модель 270 млн параметров (170M для эмбеддингов и 100M для трансформер-блоков), но с отличной способностью следовать промтпам прямо «из коробки».
🔹 Особенности
- 256k токенов
- Энергоэффективность: INT4-версия на Pixel 9 Pro расходует всего 0.75% батареи за 25 диалогов.
- Доступны предобученные и instruction-tuned чекпойнты.
- Поддержка Quantization-Aware Training (QAT) для запуска в INT4 без заметной потери качества.
- Массовые, чётко определённые задачи: анализ тональности, извлечение сущностей, обработка текста, комплаенс-проверки.
- Минимальные задержки и низкая стоимость инференса — можно запускать прямо на устройстве.
- Быстрые эксперименты с fine-tuning.
- Полная приватность данных благодаря on-device работе.
- Создание «флота» узкоспециализированных моделей.
В анонсе приводится пример, как Adaptive ML и SK Telecom дообучили Gemma 3 4B для мультиязычной модерации контента, превзойдя более крупные проприетарные модели.
Gemma 3 270M — отличная небольшая модель, быстрая и дешёвая в работе.
@ai_machinelearning_big_data
#news #ai #ml #Gemma #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍97❤34🔥20🤔5
Media is too big
VIEW IN TELEGRAM
DINOv3 - новое семейство фундаментальных моделей для компьютерного зрения, обученных методом SSL. Ключевой особенностью стал прорыв в обучении без размеченных вручную данных: система, натренированная на 1.7 миллиардах изображений, достигает SOTA-производительности.
Backbone DINOv3 превосходит специализированные модели в широком спектре задач, от классификации до сегментации, без необходимости дополнительного дообучения. Модели разных размеров, включая флагманскую версию на 7 миллиардов параметров, уже доступны на Hugging Face под коммерческой лицензией.
github.com
Cursor анонсировала 2 ключевых изменения в тарифной политике, которые вступят в силу для пользователей после 15 сентября при следующем продлении подписки.
Во-первых, для Teams вводится переменная стоимость за использование ИИ-агента. Вместо фиксированной платы за каждый запрос, цена будет зависеть от сложности задачи. Простой вопрос о синтаксисе обойдется дешевле, чем задача на полноценный pull-request. Такая модель уже используется в индивидуальных планах.
Во-вторых, обновляются лимиты на использование режима "Auto" для индивидуальных пользователей. Ранее он был безлимитным, но теперь его использование будет учитываться в рамках ежемесячного пакета токенов по конкурентным тарифам.
cursor.com
Игорь Бабушкин, один из сооснователей xAI, объявил о своем уходе. Он запускает собственный венчурный фонд Babuschkin Ventures, который будет поддерживать стартапы, работающие над безопасностью и этическими проблемами ИИ.
В xAI Бабушкин отвечал за инженерную часть, инфраструктуру и прикладные ИИ-проекты. Он участвовал в создании суперкомпьютера "Memphis Supercluster" для обучения моделей. До xAI Игорь работал в OpenAI и был одним из ведущих разработчиков проекта AlphaStar в DeepMind.
Свое решение он объяснил желанием сосредоточиться на создании более безопасного и человеко-ориентированного ИИ, ссылаясь на влияние бесед с Максом Тегмарком, известным сторонником осторожного подхода к развитию технологии.
Igor Babushkin в сети X
Ученые из Стэнфордского университета создали первый нейрокомпьютерный интерфейс, способный расшифровывать слова, которые человек просто представляет в уме, не пытаясь произнести их вслух. Это открывает новые возможности для пациентов, утративших способность говорить. Исследование опубликовано в журнале Cell.
С помощью ИИ-моделей, обученных распознавать фонемы, система преобразовывет нейронные сигналы в предложения из словаря в 125 000 слов, достигая точности до 74% в реальном времени.
ft.com
Илон Маск объявил в своей соцсети X, что сервис для генерации изображений и видео Grok Imagine становится бесплатным для всех пользователей по всему миру. Акция распространяется на приложения для iOS и Android и снимает требование платной подписки, которое действовало с момента запуска инструмента в апреле.
Этот шаг последовал за недавним решением xAI открыть доступ к своей языковой модели Grok 4. Маск не уточнил, как долго продлится бесплатный период, но отметил, что количество ежедневных запросов для бесплатных пользователей будет ограничено.
Elon Musk в сети X
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤56👍32🔥13🤔3
Google представила g-AMIE (guardrailed-AMIE) — расширенную версию своей исследовательской системы AMIE, которая работает в паре с врачом по принципу асинхронного надзора.
Идея проста: ИИ собирает анамнез, а врач принимает решения. Для этого была разработана многоагентная система на базе Gemini 2.0 Flash и специальный веб-интерфейс "кабинет врача"
Агент-диалог
ведёт беседу с пациентом, собирая информацию. Его работа делится на 3 фазы: общий сбор анамнеза, целенаправленная проверка первоначального дифференциального диагноза и заключительная фаза с ответами на вопросы пациента.Агент-ограничитель
следит за тем, чтобы агент-диалог
не давал никаких индивидуальных медицинских советов, диагнозов или планов лечения, при необходимости перефразируя его ответы.Агент SOAP-записи
генерирует подробную медицинскую карту в популярном формате SOAP, разделяя задачи предварительных итогов (жалобы пациента, объективные данные) и вывода (оценка и план лечения).После сбора анамнеза сгенерированная SOAP-запись и черновик заключения отправляются на проверку врачу через «кабинет врача». Врач может редактировать документы и либо одобрить отправку сообщения, либо принять решение о необходимости очной консультации.
Чтобы оценить эффективность такого подхода, было проведено рандомизированное слепое исследование в формате виртуального объективного структурированного клинического экзамена (ОСКЭ) на 60 клинических сценариях.
В исследовании участвовали пациенты, g-AMIE и 2 контрольные группы: врачи общей практики и медсестры-практики/ассистенты врачей. Обеим человеческим группам было предписано работать в тех же ограничениях, что и g-AMIE, то есть только собирать анамнез без предоставления советов. Затем их SOAP-записи и проекты сообщений оценивались группой опытных врачей-наблюдателей.
Во-первых, g-AMIE успешно справился с задачей и ни разу не был уличён в предоставлении индивидуальных медицинских советов.
Во-вторых, его способность извлекать ключевую информацию из беседы с пациентом была оценена выше, чем у обеих контрольных групп. SOAP-записи, сгенерированные g-AMIE, были признаны более полными, точными и читаемыми.
Врачи-наблюдатели чаще предпочитали работать с записями от ИИ и с большей вероятностью одобряли составленные им сообщения для пациентов.
Более того, дифференциальные диагнозы и планы лечения, основанные на данных от g-AMIE, были оценены как более адекватные.
g-AMIE оказался более "многословным", что, с одной стороны, способствовало лучшему установлению контакта с пациентом (тестовые пациенты отметили его эмпатию), но с другой — приводило к более длительному времени проверки записей врачами.
Во-вторых, хотя в записях g-AMIE и встречались галлюцинации, их частота была сопоставима с ошибками памяти у людей.
Интересно, что медсестры и ассистенты врачей показали себя лучше, чем врачи общей практики, как в сборе анамнеза, так и в соблюдении ограничений.
Авторы объясняют это тем, что врачи не привыкли воздерживаться от советов во время консультации и их стандартный рабочий процесс был нарушен. Поэтому результаты не следует интерпретировать как прямое превосходство ИИ над клиницистами в реальном мире, так как люди не были обучены работать в этой новой парадигме.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74❤23🔥13🥰3
Media is too big
VIEW IN TELEGRAM
Anthropic добавила в Claude Opus 4 и 4.1 возможность принудительно завершать беседу. Эта функция предназначена для редких, крайних случаев постоянно враждебного или оскорбительного поведения со стороны пользователя.
Это крайняя мера, к которой чат-бот прибегнет только после многократных безуспешных попыток перенаправить разговор в продуктивное русло или по прямой просьбе пользователя. При этом система не будет использовать эту возможность, если есть риск, что пользователь может причинить вред себе или окружающим.
Когда Claude завершает диалог, пользователь не сможет отправлять новые сообщения в этой ветке, но сможет начать новый чат или отредактировать старые сообщения для создания новых ветвей.
anthropic.com
Согласно данным компании Appfigures, мобильное приложение ChatGPT сгенерировало 2 млрд. долларов потребительских расходов с момента запуска в мае 2023 года. В среднем каждый из 690 млн. пользователей потратил в приложении 2.91 доллара. Это говорит о готовности аудитории платить за ИИ-сервисы на мобильных устройствах.
Темпы роста выручки резко ускорились в этом году. С января по июль 2025 года пользователи потратили в приложении 1.35 млрд. долларов, на 673% больше, чем за аналогичный период прошлого года. Это эквивалентно примерно 193 млн. долларов в месяц. США лидируют по доходам (38%), а Индия — по количеству установок (14%).
Эти метрики показывают отрыв ChatGPT от конкурентов. Для сравнения, Grok заработал в этом году 25.6 млн., а доходы Claude и Copilot вместе взятых составляют лишь одну тридцатую от мобильной выручки OpenAI.
techcrunch.com
Tencent представила Hunyuan World Model 1.0-Lite оптимизированную версию своей модели для генерации трехмерных сцен, которая может работать на потребительских GPU. Разработчики снизили требования к видеопамяти на 35% (с 26 до 17 ГБ) благодаря динамическому FP8-квантованию.
За счет использования SageAttention и оптимизации кэширования удалось ускорить инференс более чем в 3 раза с потерей точности менее 1%.
Как и оригинальная версия, 1.0-Lite имеет открытый исходный код и уже доступна на GitHub, Hugging Face, а также в виде демо SceneTo3D.
Tencent Hunyuan в сети X
В подкасте на Youtube OpenAI рассказали о разработке нового класса моделей, ориентированных на долгосрочное мышление. Системы на их основе смогут планировать, рассуждать и экспериментировать над одной проблемой на протяжении длительного времени, от нескольких часов до нескольких дней.
По словам OpenAI , первые проблески этого подхода уже видны в моделях, которые недавно завоевали золото на международных олимпиадах по математике и информатике. Конечная цель - автоматизировать исследования, например, для поиска новых идей в медицине или в области безопасности самого ИИ.
В OpenAI признают, что реализация этой концепции потребует значительно больших вычислительных мощностей, чем доступны сегодня. Это объясняет готовность Сэма Альтмана инвестировать в строительство дата-центров в ближайшие годы.
OpenAI на платформе Youtube
Google запустил новый инструмент Flight Deals. Он использует ИИ для поиска выгодных перелетов по запросам на естественном языке, а не через стандартные фильтры. Пользователи могут описать свои пожелания в свободной форме, например, «недельная поездка этой зимой в город с хорошей едой, только прямые рейсы». Инструмент ориентирован на путешественников с гибкими планами, для которых приоритетом является цена.
По заявлению Google, система использует продвинутый ИИ для понимания нюансов запроса, а затем анализирует данные Google Flights в реальном времени, чтобы показать актуальные варианты. Сервис запускается в бета-режиме и в течение недели станет доступен пользователям в США, Канаде и Индии.
blog.google
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤55👍22🔥11😁5🤷2
Разбираем тестовое задание в Яндекс на позицию Junior аналитика данных
Тестовое задание — важная часть трудоустройства аналитика. Это шанс показать свои навыки на практике и получить оффер мечты.
Приглашаем на бесплатный вебинар, где Андрон Алексанян — эксперт в области аналитики и CEO школы аналитики Simulative — в прямом эфире разберет тестовое задание в Яндекс на позицию Junior аналитика данных.
⚡️ На вебинаре вы:
Чему именно научимся на вебинаре:
🕗 Настоятельно рекомендуем не пропускать — для зрителей у нас есть особый бонус, который обеспечит вам уверенный старт в вашей карьере.
😶 Зарегистрироваться на бесплатный вебинар
Тестовое задание — важная часть трудоустройства аналитика. Это шанс показать свои навыки на практике и получить оффер мечты.
Приглашаем на бесплатный вебинар, где Андрон Алексанян — эксперт в области аналитики и CEO школы аналитики Simulative — в прямом эфире разберет тестовое задание в Яндекс на позицию Junior аналитика данных.
🟠 узнаете, какие навыки и знания необходимы для успешного выполнения заданий;🟠 поймёте, что хочет увидеть работодатель;🟠 получите советы и лайфхаки;🟠 вместе с Андроном разберете в прямом эфире реальный пример тестового 🔥
Чему именно научимся на вебинаре:
🟠 С помощью Pandas проанализируем Яндекс-запросы за несколько недель, загрузив их из json-файла;🟠 Найдем закономерности и отличия использования сервиса на мобильных устройствах и компьютерах;🟠 Разберем фишки Pandas: сложную агрегацию, маппинг, конкатенацию, чейнинг и др.
🕗 Настоятельно рекомендуем не пропускать — для зрителей у нас есть особый бонус, который обеспечит вам уверенный старт в вашей карьере.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁28❤18👍8🤣5🔥3🤨2🤬1🐳1🗿1
Media is too big
VIEW IN TELEGRAM
DeepMind выпустили Perch 2.0 — компактную supervised-модель для биоакустики.
Без миллиардов параметров, без сложного self-supervised обучения — просто аккуратная модель, которая побила все бенчмарки и уже работает в полевых исследованиях.
🌱 Почему это важно
Звуки природы — это источник данных о биоразнообразии.
По аудиозаписям можно понять:
- какие животные живут в лесу,
- сколько их,
- размножаются ли они,
- не вытесняются ли они человеком.
Но расшифровка аудио — адский труд: в одном часе записи из тропиков десятки накладывающихся голосов.
Perch 2.0 — универсальный эмбеддер для звуков животных.
Берёт 5 секунд аудио → выдаёт вектор, с которым можно:
- находить похожие записи,
- кластеризовать звуки,
- обучать простой классификатор для новых видов (few-shot).
⚡ Работает без GPU и без дообучения.
🛠 Архитектура
- Основa: EfficientNet-B3 (12M параметров).
- Три головы:
1. Классификация ~15k видов.
2. Прототипная — создаёт семантические логиты для distillation.
3. Source prediction — угадывает источник записи.
- Обучение в два шага:
1. Прототипная голова учится сама.
2. Её логиты становятся soft-label’ами для основной (**self-distillation**).
📊 Результаты
- SOTA на BirdSet и BEANS (ROC-AUC, mAP).
- Отличная переносимость на морских данных (киты, дельфины), которых почти не было в тренировке.
- Всё это — без fine-tuning, только фиксированные эмбеддинги.
Главный вывод
Perch 2.0 показывает, что:
могут быть важнее, чем «бесконечные параметры» и сложные LLM.
🌍 Что это меняет
- Биологам — быстрый анализ джунглей Бразилии или рифов без написания своих моделей.
- ML-инженерам — наглядный пример, как обучать компактные сети без потери качества.
- Исследователям — напоминание: не всегда нужен GPT-4, чтобы сделать полезный инструмент.
@ai_machinelearning_big_data
#DeepMind #AI #Bioacoustics #MachineLearning #Perch #Ecology
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍83❤46🔥24❤🔥4