Вчера вышла любопытная статья на The Register раскрывает ключевую стратегию, лежащую в создании GPT-5: это не столько развитие новых возможностей, сколько способ экономии ресурсов.
Что нового?
ChatGPT — это 700 млн активных пользователей в неделю, но платных всего ~3%.
Масштаб колоссальный, но вместе с ним — и проблема: огромные расходы на вычисления.
@ai_machinelearning_big_data
#news #ai #ml #opanai #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍108❤44🔥18😁9🙉3👏2💯1
Модель 270 млн параметров (170M для эмбеддингов и 100M для трансформер-блоков), но с отличной способностью следовать промтпам прямо «из коробки».
🔹 Особенности
- 256k токенов
- Энергоэффективность: INT4-версия на Pixel 9 Pro расходует всего 0.75% батареи за 25 диалогов.
- Доступны предобученные и instruction-tuned чекпойнты.
- Поддержка Quantization-Aware Training (QAT) для запуска в INT4 без заметной потери качества.
- Массовые, чётко определённые задачи: анализ тональности, извлечение сущностей, обработка текста, комплаенс-проверки.
- Минимальные задержки и низкая стоимость инференса — можно запускать прямо на устройстве.
- Быстрые эксперименты с fine-tuning.
- Полная приватность данных благодаря on-device работе.
- Создание «флота» узкоспециализированных моделей.
В анонсе приводится пример, как Adaptive ML и SK Telecom дообучили Gemma 3 4B для мультиязычной модерации контента, превзойдя более крупные проприетарные модели.
Gemma 3 270M — отличная небольшая модель, быстрая и дешёвая в работе.
@ai_machinelearning_big_data
#news #ai #ml #Gemma #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍97❤34🔥20🤔6
Media is too big
VIEW IN TELEGRAM
DINOv3 - новое семейство фундаментальных моделей для компьютерного зрения, обученных методом SSL. Ключевой особенностью стал прорыв в обучении без размеченных вручную данных: система, натренированная на 1.7 миллиардах изображений, достигает SOTA-производительности.
Backbone DINOv3 превосходит специализированные модели в широком спектре задач, от классификации до сегментации, без необходимости дополнительного дообучения. Модели разных размеров, включая флагманскую версию на 7 миллиардов параметров, уже доступны на Hugging Face под коммерческой лицензией.
github.com
Cursor анонсировала 2 ключевых изменения в тарифной политике, которые вступят в силу для пользователей после 15 сентября при следующем продлении подписки.
Во-первых, для Teams вводится переменная стоимость за использование ИИ-агента. Вместо фиксированной платы за каждый запрос, цена будет зависеть от сложности задачи. Простой вопрос о синтаксисе обойдется дешевле, чем задача на полноценный pull-request. Такая модель уже используется в индивидуальных планах.
Во-вторых, обновляются лимиты на использование режима "Auto" для индивидуальных пользователей. Ранее он был безлимитным, но теперь его использование будет учитываться в рамках ежемесячного пакета токенов по конкурентным тарифам.
cursor.com
Игорь Бабушкин, один из сооснователей xAI, объявил о своем уходе. Он запускает собственный венчурный фонд Babuschkin Ventures, который будет поддерживать стартапы, работающие над безопасностью и этическими проблемами ИИ.
В xAI Бабушкин отвечал за инженерную часть, инфраструктуру и прикладные ИИ-проекты. Он участвовал в создании суперкомпьютера "Memphis Supercluster" для обучения моделей. До xAI Игорь работал в OpenAI и был одним из ведущих разработчиков проекта AlphaStar в DeepMind.
Свое решение он объяснил желанием сосредоточиться на создании более безопасного и человеко-ориентированного ИИ, ссылаясь на влияние бесед с Максом Тегмарком, известным сторонником осторожного подхода к развитию технологии.
Igor Babushkin в сети X
Ученые из Стэнфордского университета создали первый нейрокомпьютерный интерфейс, способный расшифровывать слова, которые человек просто представляет в уме, не пытаясь произнести их вслух. Это открывает новые возможности для пациентов, утративших способность говорить. Исследование опубликовано в журнале Cell.
С помощью ИИ-моделей, обученных распознавать фонемы, система преобразовывет нейронные сигналы в предложения из словаря в 125 000 слов, достигая точности до 74% в реальном времени.
ft.com
Илон Маск объявил в своей соцсети X, что сервис для генерации изображений и видео Grok Imagine становится бесплатным для всех пользователей по всему миру. Акция распространяется на приложения для iOS и Android и снимает требование платной подписки, которое действовало с момента запуска инструмента в апреле.
Этот шаг последовал за недавним решением xAI открыть доступ к своей языковой модели Grok 4. Маск не уточнил, как долго продлится бесплатный период, но отметил, что количество ежедневных запросов для бесплатных пользователей будет ограничено.
Elon Musk в сети X
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤56👍32🔥13🤔3
Google представила g-AMIE (guardrailed-AMIE) — расширенную версию своей исследовательской системы AMIE, которая работает в паре с врачом по принципу асинхронного надзора.
Идея проста: ИИ собирает анамнез, а врач принимает решения. Для этого была разработана многоагентная система на базе Gemini 2.0 Flash и специальный веб-интерфейс "кабинет врача"
Агент-диалог
ведёт беседу с пациентом, собирая информацию. Его работа делится на 3 фазы: общий сбор анамнеза, целенаправленная проверка первоначального дифференциального диагноза и заключительная фаза с ответами на вопросы пациента.Агент-ограничитель
следит за тем, чтобы агент-диалог
не давал никаких индивидуальных медицинских советов, диагнозов или планов лечения, при необходимости перефразируя его ответы.Агент SOAP-записи
генерирует подробную медицинскую карту в популярном формате SOAP, разделяя задачи предварительных итогов (жалобы пациента, объективные данные) и вывода (оценка и план лечения).После сбора анамнеза сгенерированная SOAP-запись и черновик заключения отправляются на проверку врачу через «кабинет врача». Врач может редактировать документы и либо одобрить отправку сообщения, либо принять решение о необходимости очной консультации.
Чтобы оценить эффективность такого подхода, было проведено рандомизированное слепое исследование в формате виртуального объективного структурированного клинического экзамена (ОСКЭ) на 60 клинических сценариях.
В исследовании участвовали пациенты, g-AMIE и 2 контрольные группы: врачи общей практики и медсестры-практики/ассистенты врачей. Обеим человеческим группам было предписано работать в тех же ограничениях, что и g-AMIE, то есть только собирать анамнез без предоставления советов. Затем их SOAP-записи и проекты сообщений оценивались группой опытных врачей-наблюдателей.
Во-первых, g-AMIE успешно справился с задачей и ни разу не был уличён в предоставлении индивидуальных медицинских советов.
Во-вторых, его способность извлекать ключевую информацию из беседы с пациентом была оценена выше, чем у обеих контрольных групп. SOAP-записи, сгенерированные g-AMIE, были признаны более полными, точными и читаемыми.
Врачи-наблюдатели чаще предпочитали работать с записями от ИИ и с большей вероятностью одобряли составленные им сообщения для пациентов.
Более того, дифференциальные диагнозы и планы лечения, основанные на данных от g-AMIE, были оценены как более адекватные.
g-AMIE оказался более "многословным", что, с одной стороны, способствовало лучшему установлению контакта с пациентом (тестовые пациенты отметили его эмпатию), но с другой — приводило к более длительному времени проверки записей врачами.
Во-вторых, хотя в записях g-AMIE и встречались галлюцинации, их частота была сопоставима с ошибками памяти у людей.
Интересно, что медсестры и ассистенты врачей показали себя лучше, чем врачи общей практики, как в сборе анамнеза, так и в соблюдении ограничений.
Авторы объясняют это тем, что врачи не привыкли воздерживаться от советов во время консультации и их стандартный рабочий процесс был нарушен. Поэтому результаты не следует интерпретировать как прямое превосходство ИИ над клиницистами в реальном мире, так как люди не были обучены работать в этой новой парадигме.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75❤23🔥14🥰3
Media is too big
VIEW IN TELEGRAM
Anthropic добавила в Claude Opus 4 и 4.1 возможность принудительно завершать беседу. Эта функция предназначена для редких, крайних случаев постоянно враждебного или оскорбительного поведения со стороны пользователя.
Это крайняя мера, к которой чат-бот прибегнет только после многократных безуспешных попыток перенаправить разговор в продуктивное русло или по прямой просьбе пользователя. При этом система не будет использовать эту возможность, если есть риск, что пользователь может причинить вред себе или окружающим.
Когда Claude завершает диалог, пользователь не сможет отправлять новые сообщения в этой ветке, но сможет начать новый чат или отредактировать старые сообщения для создания новых ветвей.
anthropic.com
Согласно данным компании Appfigures, мобильное приложение ChatGPT сгенерировало 2 млрд. долларов потребительских расходов с момента запуска в мае 2023 года. В среднем каждый из 690 млн. пользователей потратил в приложении 2.91 доллара. Это говорит о готовности аудитории платить за ИИ-сервисы на мобильных устройствах.
Темпы роста выручки резко ускорились в этом году. С января по июль 2025 года пользователи потратили в приложении 1.35 млрд. долларов, на 673% больше, чем за аналогичный период прошлого года. Это эквивалентно примерно 193 млн. долларов в месяц. США лидируют по доходам (38%), а Индия — по количеству установок (14%).
Эти метрики показывают отрыв ChatGPT от конкурентов. Для сравнения, Grok заработал в этом году 25.6 млн., а доходы Claude и Copilot вместе взятых составляют лишь одну тридцатую от мобильной выручки OpenAI.
techcrunch.com
Tencent представила Hunyuan World Model 1.0-Lite оптимизированную версию своей модели для генерации трехмерных сцен, которая может работать на потребительских GPU. Разработчики снизили требования к видеопамяти на 35% (с 26 до 17 ГБ) благодаря динамическому FP8-квантованию.
За счет использования SageAttention и оптимизации кэширования удалось ускорить инференс более чем в 3 раза с потерей точности менее 1%.
Как и оригинальная версия, 1.0-Lite имеет открытый исходный код и уже доступна на GitHub, Hugging Face, а также в виде демо SceneTo3D.
Tencent Hunyuan в сети X
В подкасте на Youtube OpenAI рассказали о разработке нового класса моделей, ориентированных на долгосрочное мышление. Системы на их основе смогут планировать, рассуждать и экспериментировать над одной проблемой на протяжении длительного времени, от нескольких часов до нескольких дней.
По словам OpenAI , первые проблески этого подхода уже видны в моделях, которые недавно завоевали золото на международных олимпиадах по математике и информатике. Конечная цель - автоматизировать исследования, например, для поиска новых идей в медицине или в области безопасности самого ИИ.
В OpenAI признают, что реализация этой концепции потребует значительно больших вычислительных мощностей, чем доступны сегодня. Это объясняет готовность Сэма Альтмана инвестировать в строительство дата-центров в ближайшие годы.
OpenAI на платформе Youtube
Google запустил новый инструмент Flight Deals. Он использует ИИ для поиска выгодных перелетов по запросам на естественном языке, а не через стандартные фильтры. Пользователи могут описать свои пожелания в свободной форме, например, «недельная поездка этой зимой в город с хорошей едой, только прямые рейсы». Инструмент ориентирован на путешественников с гибкими планами, для которых приоритетом является цена.
По заявлению Google, система использует продвинутый ИИ для понимания нюансов запроса, а затем анализирует данные Google Flights в реальном времени, чтобы показать актуальные варианты. Сервис запускается в бета-режиме и в течение недели станет доступен пользователям в США, Канаде и Индии.
blog.google
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤55👍22🔥11😁6🤷2
Awesome-Self-Evolving-Agents - подборка материалов по теме оптимизации агентов в концепции саморазвивающихся систем, в которой собраны работы с 2023 по 2025 год по 3-м направлениям: оптимизация одиночного агента, оптимизация мультиагентных систем и методы их оценки.
Содержание
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #AwesomeList #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58❤26🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
Всемирные игры гуманоидных роботов 2025 завершились 17 августа в Пекине.
В финале "5 на 5" команда «Огненный бог» из Университета Цинхуа победила немецкую команду HTWK Robots + Nao Devils со счётом 1:0 и завоевала чемпионский титул.
По данным CCTV, матч полностью контролировался алгоритмами ИИ без какого-либо вмешательства человека, 10 роботов самостоятельно выполняли на поле действия отбора мяча, передачи и ударов по воротам.
В другом финале, "3 на 3", команда «Шаньхай» из Китайского сельскохозяйственного университета также одержала победу над немецкой командой Sweaty.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74❤30🔥13😁8🤔4
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь можно не только генерировать изображения, но и редактировать их по команде: менять объекты, стиль, фон или даже текст прямо на картинке.
Что умеет:
- ✨ Редактировать смысл и детали — можно, например, повернуть объект, сменить цвет или стиль, не трогая остальное.
- 🔤 Менять текст на картинках — добавлять, убирать или редактировать надписи на китайском и английском, при этом сохраняются шрифт и стиль.
- 🏆 Лучшие результаты на тестах — модель показывает топ-уровень среди открытых решений.
Как работает:
Система сочетает понимание картинки (VL-модель) и точное управление структурой (VAE-кодировщик). Поэтому картинка сохраняет и смысл, и детали после правок.
Достаточно открыть Qwen Chat и выбрать режим *Image Editing*.
@ai_machinelearning_big_data
#qwen #ml #llm #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72❤38🔥25😐2🙈2😁1
Media is too big
VIEW IN TELEGRAM
Google Flow отчитался о 100 миллионах созданных роликов с момента своего запуска в мае. В честь этого события, Google удваивает количество ежемесячных кредитов для подписчиков Ultra. Кроме того, компания запускает специальный канал на платформе Х, где будут публиковаться обучающие материалы и оказываться поддержка сообществу.
Google Labs в сети Х
Nvidia сообщила, что более 2 млн. разработчиков создают приложения на базе ее робототехнического стека. Этот рост подчеркивает высокий спрос на платформу для периферийного ИИ Jetson, запущенную в 2014 году. На сегодняшний день экосистема насчитывает свыше 150 партнеров и обслуживает около 7000 корпоративных клиентов.
Компания также анонсировала, что платформа нового поколения, Jetson Thor, будет поддерживать продвинутые физические ИИ-системы и гуманоидных роботов. Она будет совместима с облачным ПО компании.
Кроме того, стало известно, что ключевой производственный партнер Nvidia, компания Foxconn, готовит линии для выпуска прототипа гуманоидного робота. По данным источников, Nvidia планирует продемонстрировать его уже в ноябре этого года.
blogs.nvidia.com
Независимая платформа для тестирования больших языковых моделей LM Arena обновила свои лидерборды. Claude Opus 4.1 Thinking заняла первое место сразу в 3 ключевых категориях: Текст, Программирование и Веб-разработка. Согласно публичным данным, это первый случай, когда одна модель одновременно возглавляет все основные рейтинги.
В категории "Программирование" обе версии Claude Opus 4.1, ризонинг и стандартная, заняли первое и второе места соответственно, сместив с пьедестала GPT-5-high от OpenAI.
LmArena в сети X
Правительство Китая ввело новое требование для государственных ЦОД: доля чипов от местных производителей в них должна превышать 50%. Это часть стратегии технологической независимости страны и снижение зависимости от американских технологий на фоне экспортных санкций.
Изначально эта инициатива была предложена в Шанхае в 2023 году, но, по словам источников, с начала этого года стала обязательной для всей страны. Требование распространяется на специализированные ИИ-ЦОДы, которые активно строятся по всему Китаю.
Хотя китайские чипы пока уступают Nvidia в задачах по обучению моделей, они считаются пригодными для инференса. Главной технической проблемой становится адаптация моделей, разработанных под экосистему Nvidia CUDA для работы на Huawei CANN.
scmp.com
Сервис выпустил самое крупное обновление с момента своего основания. Вместо простого инструмента для проверки грамматики он стал комплексной платформой для работы с текстами. Новый интерфейс построен на базе Coda — компании, которую Grammarly приобрела в прошлом году.
Grammarly предлагает 9 специализированных ИИ-агентов. Среди них — ИИ-оценщик, который может предсказать оценку за научную работу, агент для поиска и форматирования цитат, а также инструмент, прогнозирующий вопросы аудитории к тексту. Другие агенты отвечают за перефразирование, экспертную вычитку, проверку на плагиат и определение авторства ИИ.
Большинство новых функций уже доступны на бесплатных и Pro-тарифах. Проверка на плагиат и детектор ИИ-контента остались эксклюзивом платной подписки.
grammarly.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45👍17🔥12🤔3
Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.
Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.
Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.
Обзор описывает 7 основных направлений.
Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).
Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.
Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.
В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.
Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.
Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.
В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.
Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.
Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время,
@ai_machinelearning_big_data
#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤80👍29🔥18
Media is too big
VIEW IN TELEGRAM
Компания намерена разделить Superintelligence Labs на 4 специализированных подразделения: FAIR, новый проект по созданию суперинтеллекта, потребительские продукты и поддерживающая инфраструктура.
Каждое подразделение получит своего руководителя. Проект по суперинтеллекту возглавит Александр Ванг, FAIR - пионер компьютерного зрения Роберт Фергюс, разработку продуктов - бывший CEO GitHub Нэт Фридман, а инфраструктуру - Апарна Рамани.
В рамках реорганизации тысячи инженеров будут перераспределены. Кроме того, рассматриваются варианты сокращения общей численности персонала, а несколько топ-менеджеров, как ожидается, покинут компанию.
bloomberg.com
Microsoft добавила в Excel новую функцию
=COPILOT
, которая позволяет использовать возможности LLM непосредственно в ячейках электронных таблиц. Теперь пользователи могут выполнять анализ данных, классификацию текста и генерацию контента, просто написав запрос на естественном языке и указав нужные диапазоны ячеек.Главный плюс - интеграция в движок Excel. При изменении исходных данных результаты, сгенерированные ИИ, обновляются автоматически. Функцию можно комбинировать со стандартными формулами.
Функция уже доступна для бета-тестеров с лицензией Microsoft 365 Copilot.
techcommunity.microsoft.com
Билл Гейтс запустил конкурс Alzheimer’s Insights AI Prize, цель которого - найти алгоритмы и модели, способные выявить новые мишени для лекарств, биомаркеры или закономерности в развитии болезни Альцгеймера, которые остались незамеченными при традиционных методах анализа.
Победителя определит жюри из нейробиологов и экспертов по машинному обучению. Главный критерий - решение должно демонстрировать явный потенциал для ускорения клинических прорывов. В конкурсе могут принять участие академические лаборатории, стартапы и технологические компании со всего мира. Заявки принимаются до конца года, а победителя объявят в 2026 году.
ft.com
Маркетплейс позволяет клиентам сравнивать, резервировать и запускать GPU от разных провайдеров - от облачных гигантов до специализированных поставщиков через единый интерфейс.
Сервис отображает цены и данные о производительности чипов. Пользователи могут переключаться между провайдерами без необходимости переписывать код, выбирая спотовые, on-premise или зарезервированные мощности для оптимизации затрат, производительности или географического расположения.
Базовый доступ к маркетплейсу бесплатен. Подписка для небольших команд стоит 140 долларов в месяц на пользователя, а корпоративные тарифы обсуждаются индивидуально.
semafor.com
Adobe запустила новую платформу Acrobat Studio, которая объединяет в одном интерфейсе Acrobat Pro, Adobe Express и набор генеративных ИИ-инструментов. Сервис позволяет загружать и анализировать до 100 файлов различных форматов: PDF и офисные документы в рамках совместных рабочих областей «PDF Spaces».
Встроенный чат-бот может суммировать содержимое, цитировать источники и отвечать на вопросы по всем загруженным материалам. Кроме того, доступны 3 ИИ-агента : "Analyst", "Instructor" и «Entertainer», которых можно кастомизировать под конкретные задачи.
Acrobat Studio уже доступен по всему миру на английском языке и позиционируется как замена существующим планам Acrobat Standard и Pro. До конца октября действует специальная цена в 25 долл/мес для индивидуальных пользователей. Подписка также включает доступ к Adobe Express Premium.
news.adobe.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤41👍15🔥6☃3🤔1
Есть такая проблема в обучении моделей, называется "Data Wall". Это когда просто добавлять все больше текста из интернета уже не помогает улучшать большие языковые модели. Синтетические данные стали решением, но как именно они работают, до сих пор было не до конца понятно.
Метод, разработанный DatologyAI переосмысливает синтетику и показывает, как она может быть эффективна. Модель на 3 миллиарда параметров, обученная на 180 миллиардах токенов BeyondWeb, работает лучше, чем 8-миллиардная модель на данных Cosmopedia.
BeyondWeb — это не просто еще один датасет, а целая методология, основанная на перефразировании источников. Иными словами, она не генерирует знания с нуля. Вместо этого берется существующий веб-контент и перерабатывается в более качественные и целевые форматы, например, в пары вопрос-ответ. Это дешевле и позволяет добиться большего разнообразия.
На 14 тестах модель, обученная на BeyondWeb, показывает точность 63.7%. Это на 2.6% лучше, чем у конкурента Nemotron-Synth, и на 5.1% лучше, чем у Cosmopedia.
Чтобы достичь уровня RedPajama, BeyondWeb нужно в 7.7 раз меньше данных. А уровня Nemotron-Synth — в 2.7 раза меньше.
Ключевые выводы, к которым пришли авторы проведенного исследования, экспериментируя с фреймворком:
Простая суммаризация веб-текста для повышения плотности информации дает результат, сравнимый с Cosmopedia, но подход BeyondWeb значительно его превосходит.
Наивное дописывание существующего текста дает лишь скромный прирост, а вот стратегически созданные данные, заполняющие пробелы знаний, могут превзойти потолок производительности, достигаемый на чисто естественных данных.
Перефразирование качественного веба дает гораздо лучшие результаты, чем облагораживание низкокачественного. Также важен стиль: в вебе всего 2.7% контента имеет диалоговый формат, хотя это основной сценарий использования LLM.
При масштабировании до триллионов токенов именно разнообразие стратегий генерации синтетики (вопрос-ответ, MCQ, логические задачи и т.д.) позволяет избежать стагнации и продолжать улучшать модель.
Эксперименты показали, что размер модели-генератора не так важен. Переход с 1 млрд. на 3 млрд. параметров дает прирост, а с 3 на 8 - уже почти нет. Значит, не нужны огромные модели, чтобы создавать качественные синтетические данные.
@ai_machinelearning_big_data
#AI #ML #LLM #BeyondWeb #DatologyAI
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤71👍21🔥17🫡4
Media is too big
VIEW IN TELEGRAM
xAI допустила утечку данных: сотни тысяч личных переписок пользователей с чат-ботом Grok оказались в открытом доступе и были проиндексированы поисковиком Google. По оценкам Forbes, в индексе оказалось более 370 000 ссылок на чаты.
Причиной утечки стала функция «Поделиться». При ее использовании генерируется уникальный URL, который и попадает в поле зрения поисковых роботов. В результате в открытом доступе оказались как обычные рабочие запросы, так и конфиденциальная информация, включая медицинские данные, пароли, загруженные изображения и таблицы.
В xAI пока не прокомментировали ситуацию. Этот инцидент напоминает похожий случай с ChatGPT от OpenAI, когда ссылки на чаты также попали в поисковую выдачу, но проблема была оперативно устранена.
forbes.com
MoNaCo - новый бенчмарк для оценки вопросно-ответных систем. Он состоит из 1315 естественных и сложных вопросов, ответы на которые требуют анализа и синтеза информации из десятков, а иногда и сотен различных источников.
MoNaCo должен устранить разрыв между возможностями современных LLM и существующими методами их оценки. Большинство текущих бенчмарков либо слишком просты, либо состоят из сгенерированных вопросов.
Тестирование 15 топовых LLM показало, что все они испытывают трудности. Лучшая модель, o3, достигла F1-меры в 61.2%, дав абсолютно точный ответ лишь в 38.7% случаев. Производительность моделей резко падает с увеличением числа необходимых источников и шагов рассуждения. Бенчмарк уже доступен на Hugging Face.
allenai.org
Figure AI показала новые возможности своего гуманоидного робота Figure 02. На видео он уверенно преодолевает препятствия, используя новую систему локомоции - Helix. По словам основателя компании, система управления ходьбой обучена с помощью RL и позволяет роботу передвигаться, полагаясь исключительно на внутренние датчики для поддержания равновесия, без данных с камер.
В Figure AI описывают достигнутую стабильность и надежность как "почти сверхчеловеческую". Helix является частью более широкой архитектуры VLA, которая объединяет восприятие, понимание языка и управление моторикой для координации движений всего тела робота.
Brett Adcock (Основатель Figure AI) в сети Х
Функция под названием "Редактируй, спрашивая" (edit by asking) способна выполнять как базовые задачи - коррекцию освещения или удаление объектов, так и более творческие, например, замену фона или добавление новых элементов на снимок.
Инструмент работает на базе модели Gemini. Первыми доступ к нему получат владельцы новых смартфонов Pixel 10 в США на следующей неделе. В течение ближайших недель функция станет доступна и на других устройствах под управлением Android и iOS.
techcrunch.com
Microsoft и NFL объявили о продлении своего технологического альянса. В рамках нового соглашения в работу лиги будут внедрены инструменты на базе генеративного ИИ которые затронут как игровые, так и бизнес-операции.
Ключевым элементом станет система Sideline Viewing System, которая получит более 2500 кастомизированных планшетов Surface Copilot — по одному для каждого игрока и тренера во всех 32 командах. Новое ПО позволит тренерскому штабу за считанные секунды получать статистику по игровым моментам, заменяя ручной поиск данных.
Помимо поля, Copilot будет использоваться для анализа драфта, управления потолком зарплат и разработки приложений для болельщиков. Microsoft также планирует расширить применение Azure AI для скаутинга и анализа видео, основываясь на успешном опыте пилотного проекта на NFL Combine в этом году.
news.microsoft.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38👍13🔥8💘2😁1🤔1😨1
Python Software Foundation (PSF) совместно с JetBrains опубликовала результаты восьмого, самого крупного в истории опроса разработчиков - в нём приняли участие более 30 000 человек.
Данные, собранные в конце 2024 года, показывают, что 72% респондентов используют Python в рабочих целях и это подтверждает доминирующую роль языка в индустрии. И популярность Python продолжает расти: согласно другому исследованию, от Stack Overflow, использование языка увеличилось на 7%.
Половина опрошенных имеют менее 2 лет профессионального опыта в программировании, а 39% начали использовать Python в течение последних 2 лет. Это говорит о том, что язык активно привлекает новичков и остается ключевой точкой входа в разработку.
Только 15% разработчиков используют последнюю на момент опроса версию, 3.13. В PSF утверждают, что массовый переход на нее мог бы сэкономить миллионы долларов на облачных вычислениях за счет повышения эффективности.
Однако сами разработчики не торопятся: 53% заявляют, что текущая версия полностью удовлетворяет их потребности, 27% ссылаются на проблемы с совместимостью, а 25% - на нехватку времени.
При этом нельзя сказать, что сообщество инертно. Самая популярная версия - 3.12 (35%), выпущенная в конце 2023 года, за ней следует 3.11 (21%), что говорит о довольно быстрой адаптации к не самым последним, но свежим релизам.
Анализ данных (48%) и веб-разработка (46%) идут практически вровень. Но если к анализу прибавить ML (41%) и инжиниринг данных (31%), то доминирование Data Science становится очевидным.
В мире веб-фреймворков происходит смена караула: FastAPI (38%) резко вырвался вперед, обогнав ветеранов: Django (35%) и Flask (34%). Год назад у FastAPI было всего 29%.
Ещё один стремительный взлёт — у написанного на Rust менеджера пакетов uv, который позиционируется как замена pip. Заявляя о кратном превосходстве в скорости, он уже отхватил 11% пользователей.
А вот в лагере IDE плохие новости для спонсора опроса, JetBrains: Visual Studio Code укрепил свое лидерство, набрав 48% (против 41% в прошлом году), а доля PyCharm снизилась до 25% (с 31%).
Ранее в этом месяце PSF объявила о приостановке своей грантовой программы из-за нехватки средств.
Годовой отчет за 2024 год показал чистый убыток в размере 1 462 000 долларов, что значительно больше, чем в 2023 году, там убыток был 225 000 долларов.
Фонд, который поддерживает репозиторий PyPI, дистрибуцию самого Python и нанимает разработчиков для CPython, оказался в сложной ситуации и явно нуждается в большей поддержке и ресурсах от корпораций, которые строят свой бизнес и получают доход на Python.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤47👍28🔥8😢8👌3❤🔥2
Автономные агенты, способные управлять рабочим столом - это Грааль современного HCI. Но их обучение сопряжено с трудностями: GUI созданы для людей, а не для машин, а масштабирование RL упирается в неэффективность и нестабильность сред.
В Z.ai сделали фреймворк COMPUTERRL, который лег в основу агента AutoGLM-OS. Результат - state-of-the-art на бенчмарке OSWorld: 48.1% успешных выполнений и это лучше, чем у OpenAI CUA 03 (42.9%), UI-TARS-1.5 (42.5%) и Claude 4.0 Sonnet (30.7%).
OSWorld — это крупный бенчмарк из 369 заданий для проверки многомодальных ИИ-агентов в реальных условиях. Он работает в Ubuntu, Windows и macOS.
В нем ИИ выполняет открытые задачи: работает с веб- и десктопными приложениями, управляет файлами, запускает процессы. Каждое задание имеет четкие начальные условия и скрипты для оценки, чтобы результаты можно было воспроизвести.
Такие высокие показатели - результат комбинации 3-х инноваций.
Фреймворк объединяет GUI-взаимодействия с быстрыми и точными API-вызовами образуя систему, которая через LLM автоматически анализирует примеры задач, генерирует необходимый API-код для стандартных приложений Ubuntu и даже создает для него базовые тесты.
Таким образом, агент использует быстрые API там, где это возможно, и переключается на GUI для общих задач, что повышает и скорость, и надежность. Абляция показала, что переход от GUI-only к API-GUI поднимает средний показатель успеха с 11.2% до 26.2%.
OSWorld крайне ресурсоемок, и запуск множества его экземпляров на одном узле это тот еще квест. Z.ai полностью переработали эту среду, используя qemu-in-docker для легковесного развертывания VM, gRPC для связи между узлами и полностью асинхронный фреймворк AgentRL. Это позволило создать кластер из тысяч параллельных виртуальных сред, к котором онлайн-обучение RL-агентов стало максимально эффективным.
Entropulse решает проблему коллапса энтропии, чередуя фазы RL с периодическими сессиями SFT. Во время RL-фазы собираются все успешные траектории, и на их основе формируется новый SFT-датасет. Затем модель дообучается на этом датасете, что позволяет восстановить её исследовательскую способность без потери производительности. После этого запускается вторая, более эффективная фаза RL.
Эта стратегия позволила AutoGLM-OS, построенному на базе 9B GLM-4, достичь финального результата в 48.1%, в то время как после первой RL-фазы показатель был 42.0%.
@ai_machinelearning_big_data
#AI #ML #Agents #AutoGLM #Zai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64❤19🔥7💅3💘2
Media is too big
VIEW IN TELEGRAM
Google начала масштабное развертывание диалогового поискового режима AI Mode для 180 стран. Ранее функция работала только в США, Великобритании и Индии. Пока доступен только английский язык, а страны Евросоюза в список не вошли из-за строгих правил в области данных и ИИ.
Вместе с географическим расширением Google представила первую агентную возможность в AI Mode. Теперь пользователи в США могут находить и бронировать столики в ресторанах через платформы OpenTable и Resy, прямо из поисковой выдачи. В будущем планируется добавить бронирование билетов и запись на услуги. Эта функция пока доступна только подписчикам платного тарифа Google AI Ultra.
9to5google.com
Компания анонсировала бета-версию платформы Game Worlds, на которой пользователи в реальном времени могут создавать и исследовать полностью сгенерированных персонажей, сюжеты и окружения.
Одновременно с этим Runway добавила в свой продукт Act-Two новую функцию «Voices». Она дает возможность подбирать и настраивать голоса для ИИ-персонажей.
Эти нововведения - часть стратегии компании по демократизации создания иммерсивного контента, делая его доступным для авторов без специальных навыков в программировании или анимации.
RunwayML в сети X
В сети появились фото тестовых образцов следующего поколения ИИ-архитектуры Jaguar Shores. Размер корпуса 92,5 мм на 92,5 мм, он включает 4 отдельных кристалла и 8 площадок памяти HBM, что явно указывает на платформу для высокопроизводительных вычислений.
Jaguar Shores станет первым стоечным решением Intel, планируется использование памяти HBM4 от SK Hynix и совместная работа с будущими процессорами Xeon Diamond Rapids.
wccftech.com
NVIDIA выпустила Streaming Sortformer - модель для диаризации речи, которая мгновенно определяет и маркирует участников разговора в реальном времени с низкой задержкой.
Модель оптимизирована для английского и китайского языков, способна отслеживать до 4 говорящих одновременно и предназначена для работы на GPU. По результатам тестов, Streaming Sortformer показывает более низкий уровень ошибок (DER) по сравнению с конкурирующими решениями.
Streaming Sortformer подойдет для применения в колл-центрах, при создании протоколов встреч и в интерактивных голосовых приложениях, где важно точно знать, кто, что и когда сказал. Модель доступна на Hugging Face.
developer.nvidia.com
AMD выпустила новейшую технологию масштабирования изображения FidelityFX Super Resolution 4 (FSR 4). Это часть обновления FidelityFX SDK 2.0, где AMD впервые внедряет алгоритм апскейлинга на основе машинного обучения для улучшения качества графики и производительности в играх.
По сравнению с предыдущей версией 3.1, FSR 4 показывает улучшения в детализации изображения и временной стабильности, а также снижает артефакты гостинга движущихся объектов. FSR 4 поддерживается только видеокартами AMD Radeon RX 9000 серии и выше на архитектуре RDNA 4 и требует DirectX 12. AMD также предоставила плагины FSR 4 для Unreal Engine версий 5.1–5.6.
gpuopen.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤39👍18🔥10❤🔥2🤔1👌1
Большие данные - это топливо для ИИ. Но как их использовать, чтобы не нарушить приватность, например датасета, где есть персональные данные?
Один из вариантов - метод дифференциально-приватного отбора. Он выбирает из огромного набора уникальные элементы так, чтобы нельзя было соотнести их с конкретным человеком. А если данных - больше миллиарда? Для этого нужен более надежный подход.
Таким алгоритмом стал Max Adaptive Degree (MAD), представленный Google на ICML 2025. Он не только эффективнее других параллельных методов, но и работает с наборами данных на десятки и сотни миллиардов записей.
Но тут появляется новая проблема - популярные элементы получают избыточный вес, который можно было бы использовать для менее частых, но ценных данных.
MAD решает ее с помощью адаптивного взвешивания, перераспределяя вес: забирает часть у популярных элементов и отдает тем, чьи значения уже находятся у порога. Это позволяет отобрать больше полезных данных без потери приватности.
Простой пример: представьте 100 пользователей, у каждого по 3 элемента. Один элемент (A) есть у всех, а остальные элементы уникальны. В базовом алгоритме элемент A получит слишком много веса (намного больше необходимого), а уникальные элементы - слишком мало. MAD "забирает" часть веса у A и распределяет его между уникальными элементами, давая им шанс пройти порог.
Метод можно использовать в несколько итераций, публикуя промежуточные результаты с шумом. Так можно еще точнее распределять вес между раундами.
В первом раунде запускается MAD как обычно, а во втором удаляются уже найденные элементы и те, которые явно не пройдут порог. Для остальных элементов применяется "смещение" веса на основе данных первого раунда.
На практике MAD показал отличные результаты. Всего за 2 этапа он отобрал больше полезных элементов, чем другие методы. Например, в Common Crawl (800 млрд. записей) он выбрал набор слов, который покрыл 99.9% всех записей и 97% уникальных слов с полным соблюдением приватности.
@ai_machinelearning_big_data
#AI #ML #Selection #MAD #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤55👍24🔥12🗿5
Media is too big
VIEW IN TELEGRAM
Nvidia приостановила выпуск своих ИИ-чипов H20, разработанных специально для китайского рынка в обход американских санкций. Причиной стало новое распоряжение Пекина, которое вынуждает местные компании отказаться от продукции Nvidia из-за опасений, связанных с безопасностью.
В результате около 700 000 уже произведенных и готовых к отправке чипов, которые ранее получили одобрение от правительства США, теперь простаивают на складах партнера по упаковке. Вся цепочка поставок оказалась парализованной, несмотря на то, что Вашингтон и Nvidia уже достигли политического соглашения.
theinformation.com
Cohere выпустила ризонинг-модель Command A Reasoning, оптимизированную для ресурсоемких задач, требующих логических рассуждений: работа в агентных системах и анализ больших документов. По заявлению разработчиков, на бенчмарках BFCL-v3, Tau-bench и DeepResearch Bench модель превосходит gpt-oss-120b и Mistral Magistral Medium.
Command A Reasoning может работать на одном GPU H100 или A100 с контекстным окном в 128 тыс. токенов, которое можно расширить до 256 000 токенов на нескольких GPU.
Модель уже доступна на платформе Cohere, а на Hugging Face выложена версия для некоммерческого использования под лицензией CC-BY-NC-4.0.
cohere.com
ElevenLabs представила обновленную модель для синтеза речи Eleven v3. Она уже доступна в альфа-версии через API. Модель знает более 70 языков (включая русский) и получила расширенные возможности для передачи эмоций и дополнительные элементы управления голосом.
Одной из главных особенностей стал режим «диалог», который может обрабатывать неограниченное количество спикеров в одном аудио. Для управления интонациями и эмоциональными оттенками речи добавлены специальные аудиотеги.
Доступ к API Eleven v3 (alpha) можно получить с бесплатного аккаунта, однако некоторые функции могут быть платными.
elevenlabs.io
Anthropic создала ИИ-классификатор, который выявляет опасные запросы, касающиеся технологий, связанных с биологическим, химическим и ядерным оружием. Предварительные тесты показали точность системы на уровне 96%.
Цель классификатора - фильтровать информацию об оружии массового поражения еще на этапе предварительного обучения моделей. Такой подход должен предотвратить ситуации, когда чат-боты могут предоставить инструкции по созданию оружия, не влияя при этом на их способность выполнять безопасные задачи. В Anthropic в очередной раз напомнили, что безопасность должна быть фундаментальным принципом при разработке ИИ.
anthropic.com
Илон Маск объявил о запуске новой софтверной компании Macrohard, созданной в рамках его инициативы xAI. Главная цель проекта - построить полностью управляемую ИИ программную корпорацию, которая будет симулировать деятельность Microsoft и конкурировать с ней .
По замыслу Маска, сотни специализированных ИИ-агентов будут совместно работать над созданием программных продуктов, полностью воспроизводя цифровые операции гиганта. Название Macrohard является явной ироничной отсылкой к Microsoft, подчеркивая амбиции проекта стать его прямым конкурентом в сфере ПО.
Elon Musk в сети X
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤65😁38👍19🔥9🙉4⚡2👏2👀2💋1🤓1💘1
Группа инженеров из Google DeepMind опубликовали 12-ю главу своего он-лайн учебника "How to Scale Your Model: A Systems View of LLMs on TPUs"
How to Scale Your Model - практико-ориентированное руководство по масштабированию LLM из 12 разделов для разработчиков и исследователей. Оно объясняет, как анализировать и оптимизировать производительность модели, учитывая системные ресурсы: вычисления, память и пропускную способность.
Пособие научит выбирать оптимальные стратегии параллелизма, оценивать стоимость и время обучения и инференса, а также глубже понять взаимодействие между TPU/GPU и алгоритмами масштабирования как на одном, так и на тысячах ускорителей.
12-я глава - глубокое техническое руководство по архитектуре GPU и стратегиям масштабирования больших моделей. В ней детально разбирается устройство современных GPU NVIDIA: Streaming Multiprocessors, Tensor Cores, иерархия памяти (HBM, L2, SMEM), все это с подробными сравнительными таблицами характеристик для разных поколений чипов.
Очень подробно выполнено сравнение архитектур GPU и TPU, с объясняем ключевого различия между модульностью GPU и монолитностью TPU.
Особое внимание, что редкость для обучающих материалов, уделено сетевой организации кластеров. Авторы доступно объясняют как GPU соединяются внутри узлов через NVLink/NVSwitch и между узлами через InfiniBand в топологии "Fat tree", и как пропускная способность на каждом уровне влияет на реальную производительность коллективных операций (AllReduce, AllGather).
Описаны основные стратегии параллелизма: Data Parallelism, Tensor Parallelism, Expert Parallelism и Pipeline Parallelism, с разбором их ограничений и примеров из реальных проектов.
В конце главы есть хороший анализ новых возможностей архитектуры Blackwell.
@ai_machinelearning_big_data
#AI #ML #LLM #Scaling #GPU #TPU
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67❤40🔥19🥰6
Media is too big
VIEW IN TELEGRAM
VibeVoice - опенсорсная система синтеза речи на английском и китайском языках для создания выразительного аудиоконтента длиной до 90 минут с участием до 4 различных спикеров.
В системе используются непрерывные токенизаторы речи на сверхнизкой частоте 7.5 Гц и комбинация из LLM для понимания контекста и диффузионная модель для генерации высококачественного аудио.
Код для инференса уже доступен на GitHub, а модель на 1.5 млрд. параметров и токенизатор - на Hugging Face. Обещают более крупную (7B) и компактную (0.5B) версии модели.
microsoft.github.io
Теперь возможность превращать загруженные документы и заметки в короткие видеопрезентации доступна на 80 языках, включая русский. Ранее функция работала только на английском.
Одновременно компания улучшила и Audio Overviews, позволив создавать более длинные и детализированные аудиосводки на разных языках.
Оба обновления уже начали развертываться и, по заявлению Google, станут доступны всем пользователям по всему миру в течение недели.
blog.google
Jetson AGX Thor - наиболее производительный на сегодняшний день компьютер для периферийных ИИ-вычислений и робототехники. Платформа обещает производительность в 2070 терафлопс (FP4), что примерно в 7.5 раз превосходит предыдущее поколение Jetson Orin.
В основе системы - GPU на архитектуре Blackwell, 14-ядерный процессор Arm и 128 ГБ памяти LPDDR5X. Это позволяет запускать большие языковые и мультимодальные модели локально, обрабатывая данные с нескольких сенсоров с минимальной задержкой. Платформа совместима с программными стеками Nvidia: Isaac, Metropolis и Holoscan.
Набор для разработчиков уже доступен для заказа по цене $3499, а поставки начнутся в следующем месяце. Серийные модули Jetson T5000 для готовых роботов появятся в конце 2025 года по цене $2999 за штуку при заказе от 1000 единиц.
cnbc.com
xAI и X подали в федеральный суд США антимонопольный иск на сумму 1 млрд. долларов против Apple и OpenAI. В иске утверждается, что компании вступили в незаконный сговор с целью захвата рынков смартфонов и генеративного ИИ, нарушая антимонопольное законодательство США.
Согласно 61-страничному документу, эксклюзивная интеграция ChatGPT в iOS и манипуляции с ранжированием в App Store целенаправленно занижают позиции конкурирующих чат-ботов. Это, по мнению Маска, делает "невозможным для любой другой ИИ-компании, кроме OpenAI, достичь первого места в магазине приложений".
В Apple отказались от комментариев. В OpenAI назвали иск "продолжением систематических нападок со стороны господина Маска".
wsj.com
Проблема, по словам Brave, заключается в так называемых "непрямых инъекциях промптов". Злоумышленники могут встраивать вредоносные команды в веб-страницы, которые ИИ-ассистент Comet при анализе контента воспринимает как инструкции от пользователя.
В ходе тестов Brave продемонстрировала, как можно заставить Comet прочитать и отправить атакующим конфиденциальные данные, email-адреса и одноразовые пароли. Perplexity выпустила обновления, однако, проблема все еще не решена полностью.
brave.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍8🔥3