Machinelearning

✔️

Google представила голосовую модель Gemini 3.1 Flash Live.

Модель превосходит 2.5 Flash Native Audio по скорости отклика и тоньше распознает акустические нюансы, темп и высоту голоса. Важным техническим улучшением стала способность эффективно фильтровать фоновый шум. Модель уже доступна через Gemini Live API в платформе Google AI Studio.

Gemini 3.1 Flash Live лучше справляется с вызовом внешних инструментов и строго следует системным инструкциям. Модель не выходит за установленные рамки при неожиданных поворотах диалога и поддерживает мультимодальное общение на 90+ языках в реальном времени.

Новинка ляжет в основу потребительских сервисов Gemini Live и Search Live. Общение с ИИ станет более плавным: сократится количество неловких пауз, а контекст беседы будет удерживаться в 2 раза дольше. Параллельно с релизом модели Google делает Search Live доступной более чем в 200 странах.
blog.google

✔️

Mistral релизнула открытую text-to-speech модель Voxtral.

Модель для синтеза речи Voxtral TTS поддерживает 9 языков (русского нет) и умеет клонировать голос по аудиосэмплу короче 5 секунд, копируя не только тембр, но и микроинтонации, акценты и естественные особенности дикции. При этом она способна на лету менять язык произношения, сохраняя оригинальные характеристики спикера.

Архитектура построена на базе LLM Ministral 3B. Создатели сделали ставку на скорость работы в реальном времени: генерация 10-секундной аудиодорожки занимает около 1,6 секунды. Веса базовой модели опубликованы на Hugging Face под некоммерческой лицензией, а протестировать Voxtral TTS можно через Mistral Studio и Le Chat.
mistral.ai

✔️

Cohere выпустила открытую ASR-модель.

Cohere Transcribe - обученная с нуля на 14 языках модель автоматического распознавания речи на 2 млрд. параметров на архитектуре Conformer, которая справляется со сложной акустикой, перекрывающимися голосами и специфическими акцентами.

Cohere заявляет рекордную точность. Transcribe возглавила рейтинг HuggingFace Open ASR Leaderboard: средний показатель WER для английского языка составил всего 5.42%. Модель обошла Whisper Large v3 от OpenAI, ElevenLabs Scribe v2 и Qwen3-ASR.

Развернуть модель можно локально, на edge-устройствах, либо воспользоваться API и платформой Cohere Model Vault. Веса доступны на Hugging Face.
cohere.com

✔️

Intel выводит на рынок видеокарты Arc Pro B70 и B65 с 32 ГБ памяти.

Новые GPU на архитектуре Battlemage созданы специально для инференса нейросетей и ресурсоемких вычислений. Старшая модель Arc Pro B70 получила 32 ядра Xe с частотой 2,8 ГГц, что дает 22,9 TFLOPS в операциях FP32.

Младшая версия, Arc Pro B65, сохраняет тот же объем видеопамяти, но использует лишь 20 ядер Xe. Обе карты оснащены памятью GDDR6 с 256-битной шиной и пропускной способностью 608 ГБ/с.

Arc Pro B70 уже поступила в продажу по цене $949, что делает ее значительно доступнее Nvidia RTX Pro 4000 ($1800). Младшая модель B65 начнет продаваться через партнерскую сеть Intel в середине апреля.
newsroom.intel.com

✔️

GitHub по умолчанию начнет использовать код пользователей Copilot для обучения ИИ.

С 24 апреля обновится политика конфиденциальности GitHub. Промпты, сгенерированные ответы, фрагменты кода и связанный с ними контекст подписчиков тарифов Free, Pro и Pro+ будут автоматически собираться для тренировки моделей. Чтобы защитить свои проекты, разработчикам придется вручную отключить передачу данных в настройках приватности.

Платформа анализирует широкий спектр данных. В датасет попадает код, комментарии и документация, архитектура репозитория, названия файлов, паттерны навигации в IDE и реакции на предложенные автодополнения.

GitHub заявляет, что собранная телеметрия может передаваться только Microsoft и ее аффилированным компаниям. Нововведение не затронет корпоративный сегмент планов Copilot Business и Enterprise.
github.blog

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍109👏25🤩13❤8🔥8🥰4💯4🤣2🫡1

17.3K views06:10

Machinelearning

Если раньше внедрение RAG-сценариев упиралось в подготовку и нормализацию данных, то сейчас всё больше внимания уделяется инструментам, которые умеют работать с разноформатной информацией “из коробки”. Yandex B2B Tech развивает этот подход во встроенном инструменте File Search внутри Yandex AI Studio, постепенно превращая его в универсальный слой доступа к корпоративным знаниям.

✔️ С последним обновлением инструмент выходит за рамки классического поиска по текстам и документам: к поддержке PDF, изображений и сканов добавились видео и аудио. Это означает, что ИИ-агенты могут извлекать смысл из мультимедийных источников благодаря пайплайну распознавания речи и изображений. Параллельно появилась работа с табличными форматами — CSV и Excel, что критично для большинства бизнес-кейсов, где значимая часть данных хранится именно в таком виде.

✔️ При этом ключевая ценность File Search сохраняется: модели формируют ответы на основе загруженных файлов и внутренних баз знаний, а не только предобученных данных. В сочетании с готовой инфраструктурой — гибридным поиском, парсингом сложных форматов и возможностью масштабирования — это снижает порог входа и ускоряет запуск production-решений.

✔️ File Search можно использовать вместе с DeepSeek V3.2. Модель способна удерживать длинный контекст и делать последовательные выводы.

👍51👏14😁9🤩9❤6🎉5🗿4🔥3🥰1👌1🥱1

16.7K viewsedited 08:03

Machinelearning

🙂 Claude оказался в списке топ-контрибьюторов репозитория OpenAI и в сети это поняли неправильно.

В сети Х завирусился скриншот со страницы репозитория Рarameter-golf, на котором среди топовых контрибьюторов значился Claude. Пост набрал больше 100 тыс. просмотров. Твиттерские решили, что OpenAI пишет код на продукте конкурента.

Parameter Golf - это открытый конкурс, запущенный OpenAI 18 марта.

Задача: обучить лучшую языковую модель, которая вместе с кодом тренировки помещается в 16 МБ и обучается не дольше 10 минут на восьми GPU H100.

Качество оценивают по степени сжатия валидационного датасета FineWeb (метрика bits per byte: чем ниже, тем лучше.

Базовый показатель - 1,2244 BPB, лучший рекордный результат уже опустился до 1,0541.

В этом челлендже участник форкает репозиторий, улучшает модель и присылает пулл-реквест с кодом, логами и описанием подхода. Принятый PR вливается в основную ветку - так и набирается статистика контрибьюторов на GitHub.

Claude попал в рейтинг из-за того, что некоторые участники конкурса использовала Claude Code для подготовки решений.

Claude Code автоматически добавляет себя соавтором коммитов через заголовок «Co-authored-by» в Git. Но если посмотреть подробней, реальный вклад Claude - 2 коммита с добавлением около 4500 строк и нулем удалений.

У других контрибьюторов из верхней части списка при том же числе коммитов десятки тысяч строк: объемные логи и веса моделей.

Один из участников конкурса описал, как без опыта в ML создавал решение в тандеме Claude и Codex: Claude генерировал архитектурные гипотезы, Codex ограничивал их практическими рамками, а человек принимал финальные решения.

В качестве основной идеи агенты выбрали переиспользование слоев через FiLM conditioning и добавили хэширование триграмм, выдав весьма приличный результат в 1.1634 BPB при весе модельки всего 15.34, причем по ходу дела обнаружилось, что модный Test-Time Training адски ломает рекуррентные сетки.

Так что это история не о том, что OpenAI использует Claude. Она о том, что ИИ-ассистенты слишком быстро стали настолько обыденным инструментом разработки, что люди еще не привыкли отличать вклад машины от вклада человека.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

1🤔91👍37🤓25😁11❤9👏7👌5❤‍🔥3🔥3

16.9K views09:10

Machinelearning

GitVerse стал полноценной средой для разработки с участием ИИ

Платформа GitVerse интегрировала ИИ-помощника GigaCode, который теперь помогает управлять проектами через чат. Автономные агенты сами создают репозитории и настраивают пайплайны, упрощая технические процессы.

Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев подчеркнул, что ИИ стал активным партнером, который берет на себя рутину и позволяет инженерам сосредоточиться на творчестве. Безопасность тоже автоматизировали: система сама ищет уязвимости в коде. Дополнительно в платформе появился сервис Pages для быстрого запуска сайтов и документации прямо из репозитория.

#AI #ML #aiagents #gitverse

😁72👍62🔥45❤42🤩33👏19😍8👨‍💻4🌭3🐳2🤬1

17.9K views11:17

⚡️

CapCut запустила генератор видео.

В веб-версии появился Video Studio - инструмент бесконечного холста, на котором ИИ пишет сценарий, прорабатывает персонажей и собирает финальный ролик.

В основе - модель Seedance 2.0. Встроенный ИИ-агент набрасывает идею и делает раскадровку, после чего генерирует видео и картинки, а функция omni reference следит, чтобы лицо героя или стиль окружения не плыли от кадра к кадру. Готовую генерацию можно допилить руками в обычных инструментах CapCut.

Студия заточена под шортсы, анимацию, рекламу и обучающие ролики. Пока доступ открыт для Юго-Восточной Азии, Ближнего Востока, Африки и Латинской Америки.

Когда инструмент доберется до остальных регионов - CapCut не говорит, но обещают скоро.

На пробный период насыпают бесплатных кредитов.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡86🤩29❤19👏18🤔6👍3🔥3

17.9K views12:20

Machinelearning

GLM-5.1 теперь доступна для всех пользователей плана GLM Coding!

http://z.ai/subscribe

@ai_machinelearning_big_data

#news #ai #ml #glm

🎉46❤35👍31🔥11👏9

15.3K views13:48

Machinelearning

MTС Web Services (MWS) открывает регистрацию на всероссийский хакатон MTС True Tech Hack.

Он подойдет тем, кто любит строить работающие решения. Призовой фонд — 1,5 млн ₽.

С 10 по 24 апреля участники будут решать реальные задачи от продуктов MWS в командах по 2–5 человек. Хакатон состоится в двух треках:
– внутренний — для сотрудников МТС;
– внешний — для независимых команд со всей России.

Участников ждут задачи уровня production:
– GPTHub (MWS GPT) — универсальное веб-приложение на базе OpenWebUI, объединяющее текст, голос, изображения и файлы в одном чате;
– LocalScript (MWS Octapi) — локальная агентская система для генерации и валидации Lua-кода без передачи данных во внешние сервисы;
– WikiLive (MWS Tables) — модуль, объединяющий текст и таблицы в единый инструмент для совместной работы и управления знаниями.

Участвовать могут специалисты в областях системной аналитики, Data Science, инженерии данных, фронтенд‑ и бэкенд‑разработки, продуктового менеджмента и AI. Хакатон проходит в рамках сообщества MTС True Tech — площадки для обмена опытом и развития технологий.

«Это возможность для талантливых ребят испытать свои силы в решении реальных продуктовых задач и поработать с кейсами из индустрии», — рассказала директор по персоналу МТС Web Services Лия Королева.

Финал состоится в Москве. Победители разделят призовой фонд и смогут попасть на стажировку в МТС.

Регистрация открыта до 9 апреля на truetechhack.ru

@ai_machinelearning_big_data

❤37🏆14🔥8🤣5🤨3🌚2😨2👍1🗿1

15.5K views14:34

Machinelearning

Ещё одна сильная история, которая вирусится на Reddit, о том, как ИИ поставил диагноз там, где врачи не смогли.

У мужчины из Индии был 62-летний дядя с тяжёлым набором болезней: диализ, диабет, гипертония и перенесённый инсульт. Плюс сильные мигрени, которые возникали только когда он ложился спать.

Его смотрели разные специалисты, делали МРТ и другие обследования. Но никто не мог объяснить, почему боль зависит от положения тела.

И тут подключили Claude.

«Он не просто указал на проблему. Он составил чёткий диагностический план: к какому врачу идти в первую очередь, какие анализы сдавать, какие вопросы задавать. Подобрал подходящий CPAP-аппарат, объяснил все настройки и даже написал инструкцию по обслуживанию на гуджарати, моём родном языке».

В итоге устройство за $317, рекомендованное Claude, решило проблему, с которой не справились годы визитов к врачам.

7 врачей: «мы сделали все, что могли»

Claude: «вот решение»

reddit.com/r/ClaudeAI/comments/1s41fny/25_years_multiple_specialists_zero_answers_one/

@ai_machinelearning_big_data

1👍113🤩67👏33❤20🙏14🤣14🥰3😁3🔥2💯2

17.1K views15:40

Machinelearning

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

👀 Релиз SAM 3.1 - одной из самых сильных open-source моделей для компьютерного зрения.

Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей.

Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами.

Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты.

Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности.

Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео.

В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки.

По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных.

Теперь модель может отслеживать до 16 объектов за один проход.

С multiplexing все объекты обрабатываются одновременно:

• меньше лишних вычислений
• нет узких мест по памяти

Результат: скорость обработки видео увеличивается примерно в 2 раза
с 16 до 32 FPS на одном NVIDIA H100!

На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека.

https://github.com/facebookresearch/sam3

@ai_machinelearning_big_data

#ai #ml #llm #cv #python

3🤩66👍41🎉20❤15👏12🔥10🙏1🌚1👾1

12.9K views05:18

Machinelearning

✔ В России предложили способ быстро адаптировать чат-ботов и голосовых ассистентов под новые задачи.

Исследователи из MWS AI (входит в MTS Web Services), Университета ИТМО и IITU представили метод, который улучшает понимание диалога. Работа принята на EACL 2026, одну из главных конференций по NLP.

Ключевая проблема диалоговых систем заключается в том, что боты теряют контекст разговора, начинают отвечать мимо запроса, и в итоге пользователь получает нерелевантный результат. Новый подход меняет сам принцип обучения. Вместо того чтобы просто показывать модели правильные ответы, ей дают возможность самой находить решения и получать сигнал за точность. Для этого используется обучение с подкреплением GRPO.

Такой подход снижает требования к данным, упрощает перенос на новые сценарии и делает внедрение быстрее и дешевле. В экспериментах модель на 8 млрд параметров показала точность 41,9%, превзойдя GPT-4 с результатом 38,7%, а также более крупную модель на 32 млрд параметров.

Отмечается, что обучение может проходить на данных из других доменов, весь процесс укладывается в одну GPU, а код открыт.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍63👏17😁14🎉14💯7❤6🔥2👀1

11.4K views07:04

✔️

Утечка в Anthropic раскрыла детали новой модели Claude.

Из-за ошибки в CMS в открытый доступ попали около 3000 внутренних документов Anthropic. Главной утечкой стала информация о разработке новой модели, которая в черновиках упоминается как Mythos и Capybara. Представители компании подтвердили тестирование продукта.

Mythos или Capybara представляет собой новый класс моделей, стоящий на ступень выше актуальной флагманской Opus. Разработчики заявляют о качественном скачке в логике, написании кода и кибербезопасности - результаты тестов значительно превосходят показатели Opus 4.6.

В документах говорится, что возможности модели по поиску уязвимостей могут представлять угрозу. Из-за этого релиз будет крайне осторожным: сначала API откроют узкой группе раннего доступа. Другой преградой для релиза стала высокая стоимость инференса - Anthropic пытается оптимизировать архитектуру, чтобы сделать использование модели рентабельным.
fortune.com

✔️

OpenAI запустила систему плагинов для Codex.

Обновление ориентировано в первую очередь на корпоративные IT-команды, которые смогут упаковывать рабочие процессы, интеграции и настройки MCP-серверов в версионируемые пакеты. Из коробки Codex поддерживает работу с Slack, Figma, Notion и Gmail.

Через эти плагины Codex может брать на себя задачи по планированию, сбору информации и координации, которые предшествуют разработке и управлять последующими процессами.

Новая функция уже доступна в приложении Codex, CLI и расширениях для IDE. В будущем OpenAI планирует запустить официальный каталог плагинов и добавить платформу для их публикации.
OpenAI Developers в сети Х

✔️

Суд временно заблокировал запрет Пентагона на использование моделей Anthropic.

Федеральный суд США вынес предварительное постановление, запрещающее Министерству обороны разрывать связи с разработчиком чат-бота Claude. Судья встала на сторону стартапа, расценив действия властей как незаконную месть за корпоративную позицию, а не как защиту национальной безопасности.

Суд также отверг аргументы правительства о риске саботажа со стороны Anthropic. Юристы стартапа доказали техническую невозможность подобных сценариев: после развертывания модели на стороне заказчика компания лишается доступа к ней и не может удаленно отключить нейросеть, изменить ее код или отследить, как именно военные ее применяют.

Вступление судебного приказа в силу отложено на семь дней, чтобы дать правительству время на апелляцию. Представитель Минобороны назвал вердикт «позором», сославшись на фактические ошибки суда.
bloomberg.com

✔️

В Gemini появилась функция миграции из ChatGPT и Claude.

Google добавила в Gemini возможность легкого перехода с конкурирующих ИИ-платформ. Теперь можно перенести предпочтения, сохраненный контекст и полную историю чатов из ChatGPT и Claude.

Механика миграции работает двумя способами. Для переноса персональных настроек используется промпт: его нужно скопировать в старый ИИ-ассистент для генерации сводки, а затем вставить ответ в Gemini. Историю диалогов предлагается загружать архивом истории в формате ZIP объемом до 5 ГБ. Это позволит продолжить старые беседы уже в интерфейсе Google.

В рамках обновления раздел Past Chats также переименован в Memory.
blog.google

✔️

CapCut расширил географию доступа к генератору видео Seedance 2.0.

Вслед за релизом инструмента Video Studio на базе Seedance 2.0, CapCut открыла доступ к функциям генерации для новых регионов. Теперь обновление доступно пользователям из Европы, Канады, Австралии, Новой Зеландии и Южной Кореи.

Опробовать возможности модели можно в бесплатном пробном периоде на всех платформах сервиса, включая мобильное приложение, десктопный клиент и веб-версию.

Для пользователей сервиса также опубликовано руководство по работе с новыми ИИ-инструментами редактора.
СupCut в сети Х

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤25👍22🤔19🔥3👏2😍2

11.3K views08:10

Machinelearning

Жиза

@ai_machinelearning_big_data

#news #ai #ml

❤30😁22🤔14👍6💯6🔥5👏5❤‍🔥1

4.49K views12:51

About

Blog

Apps

Platform