Media is too big
VIEW IN TELEGRAM
Модель превосходит 2.5 Flash Native Audio по скорости отклика и тоньше распознает акустические нюансы, темп и высоту голоса. Важным техническим улучшением стала способность эффективно фильтровать фоновый шум. Модель уже доступна через Gemini Live API в платформе Google AI Studio.
Gemini 3.1 Flash Live лучше справляется с вызовом внешних инструментов и строго следует системным инструкциям. Модель не выходит за установленные рамки при неожиданных поворотах диалога и поддерживает мультимодальное общение на 90+ языках в реальном времени.
Новинка ляжет в основу потребительских сервисов Gemini Live и Search Live. Общение с ИИ станет более плавным: сократится количество неловких пауз, а контекст беседы будет удерживаться в 2 раза дольше. Параллельно с релизом модели Google делает Search Live доступной более чем в 200 странах.
blog.google
Модель для синтеза речи Voxtral TTS поддерживает 9 языков (русского нет) и умеет клонировать голос по аудиосэмплу короче 5 секунд, копируя не только тембр, но и микроинтонации, акценты и естественные особенности дикции. При этом она способна на лету менять язык произношения, сохраняя оригинальные характеристики спикера.
Архитектура построена на базе LLM Ministral 3B. Создатели сделали ставку на скорость работы в реальном времени: генерация 10-секундной аудиодорожки занимает около 1,6 секунды. Веса базовой модели опубликованы на Hugging Face под некоммерческой лицензией, а протестировать Voxtral TTS можно через Mistral Studio и Le Chat.
mistral.ai
Cohere Transcribe - обученная с нуля на 14 языках модель автоматического распознавания речи на 2 млрд. параметров на архитектуре Conformer, которая справляется со сложной акустикой, перекрывающимися голосами и специфическими акцентами.
Cohere заявляет рекордную точность. Transcribe возглавила рейтинг HuggingFace Open ASR Leaderboard: средний показатель WER для английского языка составил всего 5.42%. Модель обошла Whisper Large v3 от OpenAI, ElevenLabs Scribe v2 и Qwen3-ASR.
Развернуть модель можно локально, на edge-устройствах, либо воспользоваться API и платформой Cohere Model Vault. Веса доступны на Hugging Face.
cohere.com
Новые GPU на архитектуре Battlemage созданы специально для инференса нейросетей и ресурсоемких вычислений. Старшая модель Arc Pro B70 получила 32 ядра Xe с частотой 2,8 ГГц, что дает 22,9 TFLOPS в операциях FP32.
Младшая версия, Arc Pro B65, сохраняет тот же объем видеопамяти, но использует лишь 20 ядер Xe. Обе карты оснащены памятью GDDR6 с 256-битной шиной и пропускной способностью 608 ГБ/с.
Arc Pro B70 уже поступила в продажу по цене $949, что делает ее значительно доступнее Nvidia RTX Pro 4000 ($1800). Младшая модель B65 начнет продаваться через партнерскую сеть Intel в середине апреля.
newsroom.intel.com
С 24 апреля обновится политика конфиденциальности GitHub. Промпты, сгенерированные ответы, фрагменты кода и связанный с ними контекст подписчиков тарифов Free, Pro и Pro+ будут автоматически собираться для тренировки моделей. Чтобы защитить свои проекты, разработчикам придется вручную отключить передачу данных в настройках приватности.
Платформа анализирует широкий спектр данных. В датасет попадает код, комментарии и документация, архитектура репозитория, названия файлов, паттерны навигации в IDE и реакции на предложенные автодополнения.
GitHub заявляет, что собранная телеметрия может передаваться только Microsoft и ее аффилированным компаниям. Нововведение не затронет корпоративный сегмент планов Copilot Business и Enterprise.
github.blog
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍109👏25🤩13❤8🔥8🥰4💯4🤣2🫡1
Если раньше внедрение RAG-сценариев упиралось в подготовку и нормализацию данных, то сейчас всё больше внимания уделяется инструментам, которые умеют работать с разноформатной информацией “из коробки”. Yandex B2B Tech развивает этот подход во встроенном инструменте File Search внутри Yandex AI Studio, постепенно превращая его в универсальный слой доступа к корпоративным знаниям.
✔️ С последним обновлением инструмент выходит за рамки классического поиска по текстам и документам: к поддержке PDF, изображений и сканов добавились видео и аудио. Это означает, что ИИ-агенты могут извлекать смысл из мультимедийных источников благодаря пайплайну распознавания речи и изображений. Параллельно появилась работа с табличными форматами — CSV и Excel, что критично для большинства бизнес-кейсов, где значимая часть данных хранится именно в таком виде.
✔️ При этом ключевая ценность File Search сохраняется: модели формируют ответы на основе загруженных файлов и внутренних баз знаний, а не только предобученных данных. В сочетании с готовой инфраструктурой — гибридным поиском, парсингом сложных форматов и возможностью масштабирования — это снижает порог входа и ускоряет запуск production-решений.
✔️ File Search можно использовать вместе с DeepSeek V3.2. Модель способна удерживать длинный контекст и делать последовательные выводы.
✔️ С последним обновлением инструмент выходит за рамки классического поиска по текстам и документам: к поддержке PDF, изображений и сканов добавились видео и аудио. Это означает, что ИИ-агенты могут извлекать смысл из мультимедийных источников благодаря пайплайну распознавания речи и изображений. Параллельно появилась работа с табличными форматами — CSV и Excel, что критично для большинства бизнес-кейсов, где значимая часть данных хранится именно в таком виде.
✔️ При этом ключевая ценность File Search сохраняется: модели формируют ответы на основе загруженных файлов и внутренних баз знаний, а не только предобученных данных. В сочетании с готовой инфраструктурой — гибридным поиском, парсингом сложных форматов и возможностью масштабирования — это снижает порог входа и ускоряет запуск production-решений.
✔️ File Search можно использовать вместе с DeepSeek V3.2. Модель способна удерживать длинный контекст и делать последовательные выводы.
👍51👏14😁9🤩9❤6🎉5🗿4🔥3🥰1👌1🥱1
В сети Х завирусился скриншот со страницы репозитория Рarameter-golf, на котором среди топовых контрибьюторов значился Claude. Пост набрал больше 100 тыс. просмотров. Твиттерские решили, что OpenAI пишет код на продукте конкурента.
Parameter Golf - это открытый конкурс, запущенный OpenAI 18 марта.
Задача: обучить лучшую языковую модель, которая вместе с кодом тренировки помещается в 16 МБ и обучается не дольше 10 минут на восьми GPU H100.
Качество оценивают по степени сжатия валидационного датасета FineWeb (метрика bits per byte: чем ниже, тем лучше.
Базовый показатель - 1,2244 BPB, лучший рекордный результат уже опустился до 1,0541.
В этом челлендже участник форкает репозиторий, улучшает модель и присылает пулл-реквест с кодом, логами и описанием подхода. Принятый PR вливается в основную ветку - так и набирается статистика контрибьюторов на GitHub.
Claude попал в рейтинг из-за того, что некоторые участники конкурса использовала Claude Code для подготовки решений.
Claude Code автоматически добавляет себя соавтором коммитов через заголовок «Co-authored-by» в Git. Но если посмотреть подробней, реальный вклад Claude - 2 коммита с добавлением около 4500 строк и нулем удалений.
У других контрибьюторов из верхней части списка при том же числе коммитов десятки тысяч строк: объемные логи и веса моделей.
Один из участников конкурса описал, как без опыта в ML создавал решение в тандеме Claude и Codex: Claude генерировал архитектурные гипотезы, Codex ограничивал их практическими рамками, а человек принимал финальные решения.
В качестве основной идеи агенты выбрали переиспользование слоев через FiLM conditioning и добавили хэширование триграмм, выдав весьма приличный результат в 1.1634 BPB при весе модельки всего 15.34, причем по ходу дела обнаружилось, что модный Test-Time Training адски ломает рекуррентные сетки.
Так что это история не о том, что OpenAI использует Claude. Она о том, что ИИ-ассистенты слишком быстро стали настолько обыденным инструментом разработки, что люди еще не привыкли отличать вклад машины от вклада человека.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤔91👍37🤓25😁11❤9👏7👌5❤🔥3🔥3
GitVerse стал полноценной средой для разработки с участием ИИ
Платформа GitVerse интегрировала ИИ-помощника GigaCode, который теперь помогает управлять проектами через чат. Автономные агенты сами создают репозитории и настраивают пайплайны, упрощая технические процессы.
Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев подчеркнул, что ИИ стал активным партнером, который берет на себя рутину и позволяет инженерам сосредоточиться на творчестве. Безопасность тоже автоматизировали: система сама ищет уязвимости в коде. Дополнительно в платформе появился сервис Pages для быстрого запуска сайтов и документации прямо из репозитория.
#AI #ML #aiagents #gitverse
Платформа GitVerse интегрировала ИИ-помощника GigaCode, который теперь помогает управлять проектами через чат. Автономные агенты сами создают репозитории и настраивают пайплайны, упрощая технические процессы.
Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев подчеркнул, что ИИ стал активным партнером, который берет на себя рутину и позволяет инженерам сосредоточиться на творчестве. Безопасность тоже автоматизировали: система сама ищет уязвимости в коде. Дополнительно в платформе появился сервис Pages для быстрого запуска сайтов и документации прямо из репозитория.
#AI #ML #aiagents #gitverse
😁72👍62🔥45❤42🤩33👏19😍8👨💻4🌭3🐳2🤬1
Media is too big
VIEW IN TELEGRAM
В веб-версии появился Video Studio - инструмент бесконечного холста, на котором ИИ пишет сценарий, прорабатывает персонажей и собирает финальный ролик.
В основе - модель Seedance 2.0. Встроенный ИИ-агент набрасывает идею и делает раскадровку, после чего генерирует видео и картинки, а функция omni reference следит, чтобы лицо героя или стиль окружения не плыли от кадра к кадру. Готовую генерацию можно допилить руками в обычных инструментах CapCut.
Студия заточена под шортсы, анимацию, рекламу и обучающие ролики. Пока доступ открыт для Юго-Восточной Азии, Ближнего Востока, Африки и Латинской Америки.
Когда инструмент доберется до остальных регионов - CapCut не говорит, но обещают скоро.
На пробный период насыпают бесплатных кредитов.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡86🤩29❤19👏18🤔6👍3🔥3
GLM-5.1 теперь доступна для всех пользователей плана GLM Coding!
http://z.ai/subscribe
@ai_machinelearning_big_data
#news #ai #ml #glm
http://z.ai/subscribe
@ai_machinelearning_big_data
#news #ai #ml #glm
🎉46❤35👍31🔥11👏9
MTС Web Services (MWS) открывает регистрацию на всероссийский хакатон MTС True Tech Hack.
Он подойдет тем, кто любит строить работающие решения. Призовой фонд — 1,5 млн ₽.
С 10 по 24 апреля участники будут решать реальные задачи от продуктов MWS в командах по 2–5 человек. Хакатон состоится в двух треках:
– внутренний — для сотрудников МТС;
– внешний — для независимых команд со всей России.
Участников ждут задачи уровня production:
– GPTHub (MWS GPT) — универсальное веб-приложение на базе OpenWebUI, объединяющее текст, голос, изображения и файлы в одном чате;
– LocalScript (MWS Octapi) — локальная агентская система для генерации и валидации Lua-кода без передачи данных во внешние сервисы;
– WikiLive (MWS Tables) — модуль, объединяющий текст и таблицы в единый инструмент для совместной работы и управления знаниями.
Участвовать могут специалисты в областях системной аналитики, Data Science, инженерии данных, фронтенд‑ и бэкенд‑разработки, продуктового менеджмента и AI. Хакатон проходит в рамках сообщества MTС True Tech — площадки для обмена опытом и развития технологий.
«Это возможность для талантливых ребят испытать свои силы в решении реальных продуктовых задач и поработать с кейсами из индустрии», — рассказала директор по персоналу МТС Web Services Лия Королева.
Финал состоится в Москве. Победители разделят призовой фонд и смогут попасть на стажировку в МТС.
Регистрация открыта до 9 апреля на truetechhack.ru
@ai_machinelearning_big_data
Он подойдет тем, кто любит строить работающие решения. Призовой фонд — 1,5 млн ₽.
С 10 по 24 апреля участники будут решать реальные задачи от продуктов MWS в командах по 2–5 человек. Хакатон состоится в двух треках:
– внутренний — для сотрудников МТС;
– внешний — для независимых команд со всей России.
Участников ждут задачи уровня production:
– GPTHub (MWS GPT) — универсальное веб-приложение на базе OpenWebUI, объединяющее текст, голос, изображения и файлы в одном чате;
– LocalScript (MWS Octapi) — локальная агентская система для генерации и валидации Lua-кода без передачи данных во внешние сервисы;
– WikiLive (MWS Tables) — модуль, объединяющий текст и таблицы в единый инструмент для совместной работы и управления знаниями.
Участвовать могут специалисты в областях системной аналитики, Data Science, инженерии данных, фронтенд‑ и бэкенд‑разработки, продуктового менеджмента и AI. Хакатон проходит в рамках сообщества MTС True Tech — площадки для обмена опытом и развития технологий.
«Это возможность для талантливых ребят испытать свои силы в решении реальных продуктовых задач и поработать с кейсами из индустрии», — рассказала директор по персоналу МТС Web Services Лия Королева.
Финал состоится в Москве. Победители разделят призовой фонд и смогут попасть на стажировку в МТС.
Регистрация открыта до 9 апреля на truetechhack.ru
@ai_machinelearning_big_data
❤37🏆14🔥8🤣5🤨3🌚2😨2👍1🗿1
Ещё одна сильная история, которая вирусится на Reddit, о том, как ИИ поставил диагноз там, где врачи не смогли.
У мужчины из Индии был 62-летний дядя с тяжёлым набором болезней: диализ, диабет, гипертония и перенесённый инсульт. Плюс сильные мигрени, которые возникали только когда он ложился спать.
Его смотрели разные специалисты, делали МРТ и другие обследования. Но никто не мог объяснить, почему боль зависит от положения тела.
И тут подключили Claude.
В итоге устройство за $317, рекомендованное Claude, решило проблему, с которой не справились годы визитов к врачам.
7 врачей: «мы сделали все, что могли»
Claude: «вот решение»
reddit.com/r/ClaudeAI/comments/1s41fny/25_years_multiple_specialists_zero_answers_one/
@ai_machinelearning_big_data
У мужчины из Индии был 62-летний дядя с тяжёлым набором болезней: диализ, диабет, гипертония и перенесённый инсульт. Плюс сильные мигрени, которые возникали только когда он ложился спать.
Его смотрели разные специалисты, делали МРТ и другие обследования. Но никто не мог объяснить, почему боль зависит от положения тела.
И тут подключили Claude.
«Он не просто указал на проблему. Он составил чёткий диагностический план: к какому врачу идти в первую очередь, какие анализы сдавать, какие вопросы задавать. Подобрал подходящий CPAP-аппарат, объяснил все настройки и даже написал инструкцию по обслуживанию на гуджарати, моём родном языке».
В итоге устройство за $317, рекомендованное Claude, решило проблему, с которой не справились годы визитов к врачам.
7 врачей: «мы сделали все, что могли»
Claude: «вот решение»
reddit.com/r/ClaudeAI/comments/1s41fny/25_years_multiple_specialists_zero_answers_one/
@ai_machinelearning_big_data
1👍113🤩67👏33❤20🙏14🤣14🥰3😁3🔥2💯2
👀 Релиз SAM 3.1 - одной из самых сильных open-source моделей для компьютерного зрения.
Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей.
Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами.
Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты.
Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности.
Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео.
В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки.
По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных.
Теперь модель может отслеживать до 16 объектов за один проход.
С multiplexing все объекты обрабатываются одновременно:
• меньше лишних вычислений
• нет узких мест по памяти
Результат: скорость обработки видео увеличивается примерно в 2 раза
с 16 до 32 FPS на одном NVIDIA H100!
На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека.
https://github.com/facebookresearch/sam3
@ai_machinelearning_big_data
#ai #ml #llm #cv #python
Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей.
Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами.
Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты.
Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности.
Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео.
В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки.
По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных.
Теперь модель может отслеживать до 16 объектов за один проход.
С multiplexing все объекты обрабатываются одновременно:
• меньше лишних вычислений
• нет узких мест по памяти
Результат: скорость обработки видео увеличивается примерно в 2 раза
с 16 до 32 FPS на одном NVIDIA H100!
На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека.
https://github.com/facebookresearch/sam3
@ai_machinelearning_big_data
#ai #ml #llm #cv #python
3🤩66👍41🎉20❤15👏12🔥10🙏1🌚1👾1
Исследователи из MWS AI (входит в MTS Web Services), Университета ИТМО и IITU представили метод, который улучшает понимание диалога. Работа принята на EACL 2026, одну из главных конференций по NLP.
Ключевая проблема диалоговых систем заключается в том, что боты теряют контекст разговора, начинают отвечать мимо запроса, и в итоге пользователь получает нерелевантный результат. Новый подход меняет сам принцип обучения. Вместо того чтобы просто показывать модели правильные ответы, ей дают возможность самой находить решения и получать сигнал за точность. Для этого используется обучение с подкреплением GRPO.
Такой подход снижает требования к данным, упрощает перенос на новые сценарии и делает внедрение быстрее и дешевле. В экспериментах модель на 8 млрд параметров показала точность 41,9%, превзойдя GPT-4 с результатом 38,7%, а также более крупную модель на 32 млрд параметров.
Отмечается, что обучение может проходить на данных из других доменов, весь процесс укладывается в одну GPU, а код открыт.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63👏17😁14🎉14💯7❤6🔥2👀1
Media is too big
VIEW IN TELEGRAM
Из-за ошибки в CMS в открытый доступ попали около 3000 внутренних документов Anthropic. Главной утечкой стала информация о разработке новой модели, которая в черновиках упоминается как Mythos и Capybara. Представители компании подтвердили тестирование продукта.
Mythos или Capybara представляет собой новый класс моделей, стоящий на ступень выше актуальной флагманской Opus. Разработчики заявляют о качественном скачке в логике, написании кода и кибербезопасности - результаты тестов значительно превосходят показатели Opus 4.6.
В документах говорится, что возможности модели по поиску уязвимостей могут представлять угрозу. Из-за этого релиз будет крайне осторожным: сначала API откроют узкой группе раннего доступа. Другой преградой для релиза стала высокая стоимость инференса - Anthropic пытается оптимизировать архитектуру, чтобы сделать использование модели рентабельным.
fortune.com
Обновление ориентировано в первую очередь на корпоративные IT-команды, которые смогут упаковывать рабочие процессы, интеграции и настройки MCP-серверов в версионируемые пакеты. Из коробки Codex поддерживает работу с Slack, Figma, Notion и Gmail.
Через эти плагины Codex может брать на себя задачи по планированию, сбору информации и координации, которые предшествуют разработке и управлять последующими процессами.
Новая функция уже доступна в приложении Codex, CLI и расширениях для IDE. В будущем OpenAI планирует запустить официальный каталог плагинов и добавить платформу для их публикации.
OpenAI Developers в сети Х
Федеральный суд США вынес предварительное постановление, запрещающее Министерству обороны разрывать связи с разработчиком чат-бота Claude. Судья встала на сторону стартапа, расценив действия властей как незаконную месть за корпоративную позицию, а не как защиту национальной безопасности.
Суд также отверг аргументы правительства о риске саботажа со стороны Anthropic. Юристы стартапа доказали техническую невозможность подобных сценариев: после развертывания модели на стороне заказчика компания лишается доступа к ней и не может удаленно отключить нейросеть, изменить ее код или отследить, как именно военные ее применяют.
Вступление судебного приказа в силу отложено на семь дней, чтобы дать правительству время на апелляцию. Представитель Минобороны назвал вердикт «позором», сославшись на фактические ошибки суда.
bloomberg.com
Google добавила в Gemini возможность легкого перехода с конкурирующих ИИ-платформ. Теперь можно перенести предпочтения, сохраненный контекст и полную историю чатов из ChatGPT и Claude.
Механика миграции работает двумя способами. Для переноса персональных настроек используется промпт: его нужно скопировать в старый ИИ-ассистент для генерации сводки, а затем вставить ответ в Gemini. Историю диалогов предлагается загружать архивом истории в формате ZIP объемом до 5 ГБ. Это позволит продолжить старые беседы уже в интерфейсе Google.
В рамках обновления раздел Past Chats также переименован в Memory.
blog.google
Вслед за релизом инструмента Video Studio на базе Seedance 2.0, CapCut открыла доступ к функциям генерации для новых регионов. Теперь обновление доступно пользователям из Европы, Канады, Австралии, Новой Зеландии и Южной Кореи.
Опробовать возможности модели можно в бесплатном пробном периоде на всех платформах сервиса, включая мобильное приложение, десктопный клиент и веб-версию.
Для пользователей сервиса также опубликовано руководство по работе с новыми ИИ-инструментами редактора.
СupCut в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25👍22🤔19🔥3👏2😍2