Машинное обучение RU
17.1K subscribers
1.29K photos
160 videos
11 files
1.78K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Forwarded from Machinelearning
🌟 Diffusion-4K – это новый инструмент для синтеза изображений в 4K.

Модель text-to-image генерирует фотореалистичные изображения с высоким уровнем детализации и точно следует заданным промптам.

Алгоритм синтеза изображений в рамках Diffusion-4K работает следующим образом:​

🟢Обучение модели: Используется латентная диффузионная модель, такая как SD3-2B или Flux-12B, которая предварительно обучена на изображениях более низкого разрешения.​

🟢Wavelet-based дообучение: Модель дообучается на 4K-изображениях с применением вейвлет-преобразования.
Wavelet-based Fine-tuning – это метод, который использует вейвлет-преобразование для разложения данных (например, изображений) на составляющие с разными частотными характеристиками, после чего проводится дополнительное обучение модели с акцентом на восстановление высокочастотных деталей.
Это позволяет модели фокусироваться на высокочастотных компонентах изображения, улучшая детализацию и качество синтезируемых изображений.​

🟢Генерация изображений: После дообучения модель способна генерировать фотореалистичные 4K-изображения на основе текстовых описаний, обеспечивая высокую точность и соответствие заданным текстовым промптам.​

Алгоритм сочетает в себе предварительное обучение на низких разрешениях и специализированное дообучение на высококачественных 4K-изображениях и позволяет получать качественные генерации на выходе.

Также разработчики выложили Aesthetic-4K – датасет на 10.2 GB отобранных вручную изображений с описаниями к ним, сгенерированными GPT-4o.

🟢 Github
🟢 Dataset
🟢 Статья

@ai_machinelearning_big_data

#ml #ai #4k #imagegenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ ByteDance выпустила InfiniteYou: бесконечные вариации портрета.

ByteDance представила InfiniteYou — ИИ-систему, которая генерирует фотореалистичные портреты, сохраняя сходство с оригиналом и точно следуя текстовым запросам. В отличие от PuLID-FLUX, в InfiniteYou черты лица обрабатываются отдельным слоем, что повышает качество без риска переобучения.

Технология использует двухэтапное обучение: сначала на реальных фото, затем — на синтетических изображениях. По данным тестов, 72,8% участников выбрали результаты InfiniteYou из-за детализации и отсутствия артефактов вроде «копирования» лиц. Система совместима с ControlNet и LoRA, а для генерации нужно всего 4 шага.

Исходный код и веса модели уже доступны на GitHub и Hugging Face, демо-версия доступна тут.
analyticsindiamag.com

✔️ NVIDIA представила Project G-Assist: локальный ИИ-агент для геймеров.

Компания NVIDIA анонсировала экспериментальный релиз Project G-Assist — ИИ-агента, использующего компактную языковую модель, которая обрабатывает голосовые или текстовые запросы, оптимизируя настройки игр, мониторинг производительности и даже управление подсветкой периферии от Logitech или Corsair. Всё работает оффлайн, без подписок и облачных серверов.

Для разработчиков открыт доступ к GitHub-репозиторию: там есть шаблоны для создания плагинов, интеграции со Spotify, Twitch или Google Gemini. Технические требования — RTX 30/40/50 серии, 12 ГБ видеопамяти и свежие драйверы.
nvidia.com

✔️ Роботы Figure 02 ходят почти как люди.

Figure разработала революционный метод обучения человекоподобных роботов — кастомная end-to-end нейросеть на основе RL за несколько часов «прокачала» движения Figure 02 до уровня естественной человеческой походки.

Все благодаря симулятору, где тысячи виртуальных роботов учились ходить по разным поверхностям, падать и реагировать на толчки. Ключевая фишка — перенос навыков из симуляции в реальность без доработок: помогли рандомизация параметров и мгновенная коррекция крутящего момента. Обещают, что уже скоро робот Helix на этой же базе сможет готовить и убираться.
figure.ai

✔️ Apple планирует обучать ИИ на фото из Look Around в Apple Maps.

Apple обновила раздел сайта, подтвердив использование снимков из Look Around (аналог Street View) для тренировки ИИ-моделей с марта 2025 года. Данные, собранные камерами на автомобилях и с переносных инсталляций (для пешеходных зон), включая 3D-карты, помогут улучшить распознавание изображений, генерацию контента и поиск в приложении «Фото».

Для защиты приватности Apple блюрит лица и номера машин на фото, а также готова скрыть частные строения по запросу. Обучение моделей будет проводиться только с обработанными изображениями. Подробности о конкретных алгоритмах компания пока не раскрывает, возможно о них станет известно на WWDC 2025, который пройдет с 9 по 13 июня.
9to5mac.com

✔️ Tesla покажет своего робота Optimus представителям Капитолия.

Tesla присоединится к симпозиуму по робототехнике в Капитолии, чтобы продемонстрировать своего человекоподобного робота Optimus конгрессменам и сотрудникам Белого дома. Мероприятие, организованное A3 Automate и Университетом Карнеги-Меллон. пройдёт в 26 марта в здании Cannon House Office.

В приглашении Tesla подчеркивает, что робот позволит «заглянуть в будущее», и приглашает всех желающих оценить разработку.
axios.com

@ai_machinelearning_big_data

#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 TripoSG и TripoSF — это новые модели генеративного ИИ для создания высококачественных 3D-моделей.

TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).

TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.

😶Как работают эти модели?
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .

😶Данные для обучения: Модель обучена на специально подготовленном наборе данных из 2 миллионов пар "изображение-SDF" (SDF — signed distance function, функция, описывающая расстояние до поверхности объекта).

😶Процесс работы: Вы загружаете одно изображение (например, фото статуи или рисунок персонажа). Модель анализирует его, используя вариационный автоэнкодер (VAE) с геометрическим надзором, и генерирует 3D-сетку с высокой детализацией.

😶Результат: На выходе получаем 3D-модель, которую можно использовать в играх, анимации или 3D-печати.
TripoSF

Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).

Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.

🟡Github
🟡Model
🟡Project
🟡Paper

@ai_machinelearning_big_data


#ai #3dgeneration #opensource #Tripo
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ Google добавила мультимодальный поиск в AI Mode.

Свежее обновление AI Mode в Google Поиске добавило мультимодальные функции — система анализирует изображения, понимая контекст и связи между объектами. Загрузите фото или сделайте снимок через Lens, задайте вопрос — нейросеть на основе Gemini выдаст развёрнутый ответ с рекомендациями и ссылками.

Раньше эта функция была доступна подписчикам Google One AI Premium, но теперь она доступна через Google Labs.
blog.google

✔️ Samsung представила обновление Gemini Live для Galaxy S25 с визуальным ИИ в реальном времени.

С 7 апреля владельцы Galaxy S25 получат бесплатное обновление Gemini Live. Теперь можно обсуждать увиденное через камеру или экран, удерживая боковую кнопку. Например, ИИ подскажет, как организовать шкаф или выбрать одежду, анализируя изображение в реальном времени. Функция доступна бесплатно, но требует подключения к интернету и активации в поддерживаемых странах.
news.samsung.com

✔️ Cloudflare упрощает создание AI-агентов с MCP и бесплатным доступом к Durable Objects.

Cloudflare представила серию обновлений, ускоряющих разработку AI-агентов. Теперь в Agents SDK добавлена поддержка MCP, позволяющая агентам подключаться к внешним сервисам с автоматической аутентификацией и управлением соединениями. Для безопасного доступа интегрированы провайдеры Stytch, Auth0 и WorkOS — это упрощает настройку прав доступа через OAuth 2.1 и гибкие сценарии разрешений.

Новинка в SDK — гибернация для MСРAgent: серверы автоматически «засыпают» при простое, экономя ресурсы, и мгновенно активируются при новых запросах. Для хранения состояния агентов теперь доступны Durable Objects даже на бесплатном тарифе — с поддержкой SQLite и 5 ГБ памяти.

Обновления дополнены примерами готовых MCP-серверов — от управления задачами до анализа кода. Разработчики могут развернуть их через кнопку Deploy и настроить под свои нужды.
blog.cloudflare.com

✔️ Google Sec-Gemini v1: ИИ для кибербезопасности.

Google анонсировал экспериментальную модель Sec-Gemini v1, которая создана для помощи специалистам по кибербезопасности через интеграцию ИИ и актуальных данных об угрозах.

Система объединяет OSV, Mandiant Threat Intelligence и Google Threat Intelligence, обеспечивая анализ в реальном времени. По внутренним тестам Google, модель на 11% эффективнее аналогов в CTI-MCQ (оценка знаний об угрозах) и на 10,5% — в CTI-RCM (поиск первопричин инцидентов). Она ускоряет обнаружение атак, оценку уязвимостей и даже идентификацию хакерских групп.

Sec-Gemini v1 уже доступна бесплатно для НКО, исследователей и компаний — это часть стратегии Google по совместной борьбе с угрозами. Модель не только предупреждает о рисках, но и объясняет контекст уязвимостей, помогая командам быстрее реагировать.
cybermagazine.com

✔️ LLM в биомедицине: GPT-4 лидирует, но тонкая настройка все еще важна.

Исследование, опубликованное в Nature, показало, что LLM дают неоднозначные результаты в биомедицинских задачах. Закрытые модели (GPT-4) превзошли конкурентов в задачх, требующих логики — например, отвечая на медицинские тесты с точностью до 75%. Однако в извлечении данных (распознавание болезней, связей между белками) лидируют традиционные подходы с файнтюном BERT-моделей, опережая LLM на 30–40%.

Открытые решения без дообучения справляются хуже: в 22% случаев генерируют недостоверную информацию. Эксперты отмечают, что даже добавление одного примера в промпт снижает число ошибок. Все данные и выводы исследования доступны в репозитории для независимой проверки.
nature.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Pusa-VidGen — новый подход к генерации видео с точным управлением движением

Обычно в генерации видео модели обрабатывают весь ролик "размазанным" шумом — как бы в целом.

А тут модель управляет шумом отдельно для каждого кадра, и делает это с помощью векторизованных "timesteps" (временных шагов) — более гибко, точно и эффективно.

Новая модель генерации видео на базе Mochi1-Preview и поддерживает:

🔹 Text-to-Video
🔹 Image-to-Video
🔹 Frame Interpolation
🔹 Video Transitions
🔹 Looping, удлинение видео и многое другое

Эффективность:
16× H800 GPU
0.1k GPU-часов
Обучение: 500 итераций, batch size 32
По заявления разработчиков - стоимость обучения всего 100$ 🤯

Github
Paper
Dataset
Model

#diffusion #videogen #pusa #opensource #AI #text2video #mochi1 #fvdm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ OpenAI разрабатывает собственную соцсеть

По данным нескольких источников, OpenAI работает над собственной социальной платформой.
Внутренний прототип уже существует — он включает социальную ленту с генерацией изображений от ChatGPT. Сэм Альтман также собирает обратную связь от внешних тестировщиков.

Собственная соцсеть даст OpenAI прямой доступ к реальным пользовательским данным — как у X, которые используют их для обучения своих ИИ.
Один из мотиваторов — интеграция Grok в X, с которой пользователи создают вирусный контент прямо в реальном времени.

✔️ Groq запускает ИИ-систему Compound Beta с функциями поиска в Интернете и выполнения кода.

Groq объявила о предварительном запуске Compound Beta, своей первой системы искусственного интеллекта, размещенной на GroqCloud. Она позволяет пользователям осуществлять поиск в Интернете и выполнять программный код. Система предназначена для разработки агентов с расширенным функционалом и ее хвалят бета-тестеры, получившие ранний доступ. Попробовать Compound Beta можно в Groq Console.
Groq в X (ex-Twitter)

✔️ Anthropic анонсировала голосовой режим для Claude и интеграцию с Google Workspace.

Anthropic анонсировала 2 обновления для Claude, ориентированных на корпоративных пользователей. Первое — интеграция с Google Workspace, которая позволяет Claude работать с Gmail, Google Calendar и Google Docs. Функция доступна в бета-режиме для подписчиков планов Max, Team, Enterprise и Pro.

Второе — режим «Исследование», меняющий подход к поиску информации. Вместо стандартных запросов Claude автономно проводит цепочку взаимосвязанных поисков, формируя детальные ответы. Сейчас функция тестируется в США, Японии и Бразилии для планов Max, Team и Enterprise, а вскоре станет доступна и для Pro.

Также Anthropic готовит голосовой режим с 3 вариантами озвучки: Airy, Mellow и Buttery. Он появится для подписчиков премиум-плана Max.
bloomberg.com

✔️ Cohere выпустила Embed 4.

Cohere объявила о релизе Embed 4 — эмбединг-модели, которая упрощает поиск в сложных бизнес-документах. Технология поддерживает мультимодальность: анализирует текст, изображения, графики и рукописные заметки, избавляя компании от ручной обработки данных.

Модель работает с документами до 128 тыс. токенов (это примерно 200 страниц) и понимает 100+ языков. Embed 4 также оптимизирована для регулируемых отраслей: в финансах она анализирует отчеты, в здравоохранении — медицинские карты, а в производстве — спецификации. Embed 4 уже доступна на платформах Cohere, Azure AI Foundry и Amazon SageMaker.
cohere.com

✔️ OpenAI обновила Preparedness Framework и вводит трехкомпонентный режим инцидентов ИИ.

OpenAI внесла существенные изменения в свою систему Preparedness Framework, предназначенную для отслеживания и подготовки к продвинутым возможностям ИИ, которые могут привести к серьезному ущербу.

В результате пересмотра была исключена категория убеждения и введен новый мониторинг рисков, связанных с самовоспроизведением и "sandbagging". Обновленная структура поясняет, как OpenAI классифицирует риски ИИ на основе определенных критериев, подчеркивая, что риски должны быть правдоподобными, измеримыми, серьезными, новыми и либо мгновенными, либо неустранимыми.
openai.com

✔️ Adobe инвестирует в ИИ-стартап Synthesia.

Adobe Ventures сделала стратегическую инвестицию в Synthesia, британский стартап, разрабатывающий ИИ-аватары для корпоративных видео. Решение последовало после того, как компания преодолела отметку в $100 млн годовой выручки.

Synthesia позволяет создавать реалистичные видео с цифровыми персонажами (готовыми или записанными с реальных людей). Платформа уже используется 60 тыс. компаний, включая 70% из Fortune 100, для обучения, маркетинга и коммуникаций.

Synthesia планирует развивать новые продукты — AI-ассистент для видео, мультиязыковой дубляж, кастомизируемые аватары и готовит платформу Synthesia 2.0 для масштабируемых решений. С поддержкой Adobe и растущей клиентской базой стартап намерен перейти от экспериментов с ИИ к устойчивому бизнесу.
maginative.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🔥 Text‑to‑FILM становится реальностью!

SkyReels‑V2 - опенсорс генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину генераций.

✔️ Что умеет SkyReels V2:

- Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео.
- Image‑to‑Video
- Camera Director: управление виртуальной камерой — смена углов, зум, трекинг.
- Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд.

🌟 Режимы инференса: поддерживаются как синхронный (full‑sequence diffusion), так и асинхронный (Diffusion Forcing) режимы для гибкой работы на разных GPU-конфигурациях

На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0.


Попробовать
Github
Technical Report
Hugging Face
ModelScope


#AI #TextToFilm #VideoGeneration #SkyReelsV2 #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 CoMotion: одновременное отслеживание движения нескольких людей в видео.

CoMotion - метод, разработанный Apple для одновременного отслеживания 3D-движений нескольких людей, который принципиально отличается от покадрового обнаружения и классических способов трекинга.

CoMotion использует рекуррентную модель, которая поддерживает набор отслеживаемых 3D-поз и обновляет их при поступлении нового кадра, непосредственно анализируя пиксели изображения. Способность использовать визуальные подсказки вкупе с парадигмой tracking by attention позволяет CoMotion эффективно отслеживать перекрывающихся и временно исчезающих из виду людей.

Архитектура CoMotion состоит из модуля обнаружения (он определяет кандидатов на новые треки) и модуля обновления поз (корректирует позы существующих треков). Оба модуля работают с признаками изображения, извлеченными с помощью стандартной модели ConvNextV2. Модуль обновления поз использует cross-attention к признакам изображения для каждого трека, опираясь на предыдущие состояния, и применяет GRU для рекуррентного обновления скрытых состояний.

Прогнозирование 3D-поз выполняется путем параметризации модели SMPL, а управление треками основано на эвристических правилах, использующих модифицированную метрику Object Keypoint Similarity (OKS).

Модель CoMotion обучается в 3 этапа. Первый - предварительное обучение энкодера и модуля обнаружения на больших наборах данных отдельных изображений (псевдо-размеченные InstaVariety, COCO, MPII и синтетический BEDLAM). Второй - обучение модуля обновления поз на коротких видео из BEDLAM, WHAC-A-MOLE и размеченных PoseTrack и DanceTrack. На финальном этапе обучение модуля обновления поз продолжается на более длинных видеопоследовательностях.

Экспериментальная оценка CoMotion проводилась на стандартных бенчмарках для отслеживания и оценки поз. На PoseTrack21 CoMotion показал значительное улучшение метрик (MOTA на 14% и IDF1 на 12%). При этом CoMotion работает на порядок быстрее, чем сопоставимая система 4DHumans.

▶️Локальный инференс:

# Clone the repo
git clone https://github.com/apple/ml-comotion.git
cd ml-comotion

# Create a conda env
conda create -n comotion -y python=3.10
conda activate comotion

# Install dependencies
pip install -e

# Download models
bash get_pretrained_models.sh

# Run CoMotion
python demo.py -i path/to/video.mp4 -o results/


📌Лицензирование: Apple License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3DTracking #CoMotion #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ Adobe запускает публичную бета-версию механизма маркировки сгенерированных изображений.

Adobe запустила публичную бета-версию веб-приложения Content Authenticity — бесплатного инструмента, который помогает закрепить за контентом «цифровой паспорт» (Content Credentials). С его помощью можно привязать к файлам идентификатор, ссылки на соцсети и даже запретить обучение ИИ на своих работах.

Технология объединяет криптографические метаданные, цифровые отпечатки и невидимые водяные знаки, которые сохраняются даже после скриншотов. Проверить данные можно через Chrome-расширение или Inspect-сервис.

Adobe ведет переговоры с Leica, Nikon, Samsung и OpenAI, чтобы встроить Content Credentials в камеры, смартфоны и ИИ-инструменты. Для авторов это не только защита, но и возможность повысить доверие аудитории. Пользователи, в свою очередь, получат прозрачность: «паспорт» покажет, кто и как создал контент, что особенно актуально в эпоху deepfake-угроз.
blog.adobe.com

✔️ Tavus представила липсинк-модель Hummingbird-0.

Tavus, разработчик в области ИИ-видео, запустила в превью модель Hummingbird-0 — модель для синхронизации движений губ без предварительного обучения. Теперь достаточно одного видео и аудиодорожки, чтобы «оживить» речь человека, сохранив его мимику и качество изображения.

Hummingbird-0 построен на компонентах флагманской модели Phoenix-3 и превосходит аналоги по точности синхронизации (LSE-D — 6,74) и сохранению идентичности (Arcface — 0,84). Интеграция с генераторами видео (Veo или Sora) позволяет добавлять голос даже к «немым» роликам, превращая их в полноценные истории. Модель доступна на платформах Tavus и FAL — попробовать можно уже сегодня.
tavus.io

✔️ Классические игры стали новым бенчмарком для ИИ.

Game Arena представила исследование, где платформеры и игры-головоломки используются для тестирования фундаментальных моделей. Оказалось, что Claude 3.7 или GPT-4o справляются хуже людей в задачах, требующих быстрой реакции и пространственного мышления - в Tetris модели часто ошибались при выборе блоков, а в Sokoban не могли пройти уровни, которые человек решает за минуты.

Для экспериментов игры адаптировали: добавили модули преобразования изображений в текст, «заморозку» процесса и память для долгосрочного планирования. Лучшие результаты показали модели с усиленным логическим мышлением, но разрыв с человеческим уровнем все еще значителен.
Проект открыт для разработчиков — код доступен на GitHub.
lmgame.org

✔️ Google DeepMind запустила модель генерации музыки Lyria 2 в обновленном сервисе Music AI Sandbox.

Google DeepMind представила обновление платформы Music AI Sandbox, добавив инструменты для генерации и редактирования музыки на базе ИИ. В основе — модель Lyria 2, создающая высококачественные треки с детализацией жанровых нюансов, и Lyria RealTime, позволяющая экспериментировать со звуком в реальном времени.

Новые функции включают генерацию инструментальных партий по текстовым описаниям, расширение композиций и редактирование стиля с помощью текстовых подсказок. Музыканты могут менять темп, тональность или полностью переосмыслить трек. Платформа, разработанная при участии артистов, теперь доступна в США — заявки принимаются через запись в вейтлист.
deepmind.google

✔️ YouTube тестирует AI Overviews в поиске.

YouTube начал ограниченное тестирование AI Overviews — "карусели" с ключевыми фрагментами видео в результатах поиска. Система анализирует ролики по запросам (например, «лучшие беспроводные наушники» или «музеи Сан-Франциско») и выводит «выжимку» из самых информативных моментов. Пока функция доступна лишь части пользователей YouTube Premium в США и работает на английском языке.

Тестовый период продлится недолго, а его итоги определят судьбу AI Overviews. Пользователи смогут оценивать функцию через лайки/дизлайки, а YouTube — собрать обратную связь для доработки функции.
searchengineland.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI и Microsoft отдаляются друг от друга.

В партнерстве OpenAI с Microsoft появляются трещины. Хотя Microsoft помогла проекту OpenAI ChatGPT добиться большого успеха за счет огромных инвестиций, у генеральных директоров обеих сторон имеются разногласия по таким вопросам, как предоставление вычислительной мощности, доступ к моделям и способность ИИ достичь AGI. Microsoft активно разрабатывал Copilot и тайно сформировал команду для разработки модели, которая заменит OpenAI.

Даже несмотря на то, что обе стороны готовятся к своему независимому будущему, они остаются в зависимости друг от друга. Microsoft имеет право не допустить преобразования OpenAI в независимую коммерческую компанию, в то время как OpenAI может помешать Microsoft получить доступ к своим самым передовым технологиям.
wsj.com

✔️ Duolingo переходит на ИИ: людей заменят нейросети.

Duolingo объявила о запуске стратегии «AI-first» - компания постепенно откажется от наемных работников в пользу ИИ. Основатель, Луис фон Ан, в письме сотрудникам пояснил, что ИИ поможет убрать рутину, перестроить процессы и ускорить создание обучающего контента.

Внедрение ИИ коснется найма и оценки сотрудников — новые штатные позиции одобрят, только если команда не сможет автоматизировать задачи. При этом фон Ан подчеркивает: речь не о замене людей, а о перераспределении ресурсов. Сотрудникам обещают поддержку в обучении и переход к творческим проектам.

В Duolingo уверены, что ИИ не только повысит эффективность, но и приблизит миссию — сделать обучение доступным для миллионов. Технологии вроде «Video Call», имитирующие репетитора, уже тестируются. Компания готова мириться с временными недочетами в качестве, лишь бы не упустить момент.
theverge.com

✔️ Глава xAI анонсировал запуск Grok 3.5 на следующей неделе.

Илон Маск написал в X, что на следующей неделе ранняя бета-версия Grok 3.5 будет выпущена только для подписчиков SuperGrok. По его словам, это первый ИИ, который может точно отвечать на вопросы о ракетных двигателях или электрохимических технологиях.
Elon Musk в X (ex-Twitter)

✔️ Google добавила более 50 языков в сервис в NotebookLM.

Audio Overviews, который превращает ваши источники в диалоги в стиле подкастов, теперь поддерживает свыше 50 языков. Помимо английского, доступны испанский, португальский, французский, хинди, турецкий и РУССКИЙ.

Чтобы сменить язык, нужно зайти в настройки NotebookLM (в правом верхнем углу), выбрать «Язык вывода» — и AI начнёт генерировать ответы и озвучивать обзоры на нужном вам языке. NotebookLM интегрирован ещё и в Gemini, а также Google Docs — так что даже текстовые документы можно превратить в аудиоформат.

➡️ Аудио-версия дайджеста, сделана NotebookLM, зацените.
blog.google

✔️ Разработчики Llama запустила приложение для голосового взаимодействия с ИИ.

Разработчики llama представили новое приложение, где главной фишкой стал голосовой ассистент, работающий на модели Llama 4. В отличие от стандартных чат-ботов, здесь упор сделан на естественность диалога: ИИ генерирует речь в реальном времени благодаря полнодуплексной технологии, а не просто зачитывает текст. Пока функция доступна в США, Канаде, Австралии и Новой Зеландии — разработчики просят пользователей тестировать демо-режим и делиться фидбеком.

Приложение интегрируется с соцсетью компании, WhatsUp, и очками Ray-Ban Meta — начатый на одном устройстве диалог можно продолжить в веб-версии или мобильном интерфейсе. Ассистент учится на ваших данных: если подключить аккаунты соцсетей, он подстраивает ответы под интересы, запоминает предпочтения и предлагает персонализированные рекомендации.

Для тех, кто любит эксперименты, есть генератор изображений и шаблоны для документов — их можно редактировать голосом или текстом. А чтобы не перегружать интерфейс, голосовое управление включается одной кнопкой, а иконка микрофона всегда показывает, когда система вас «слышит». Скачать приложение уже можно на iOS и Android.
about.fb.com

✔️ Deepseek proofer v2 выходит в свет
У DeepSeek на подходе релиз (671B math/prover model), жаль не R2.
HF

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Suno снова задаёт тон — новая модель V4.5 звучит как живая музыка!

— Добавлены новые жанры;
— Вокал эмоциональнее: от шёпота до мощного форте;
— Мелодии сложнее и чётче;
— Инструменты звучат реалистично, без металлического скрежета;
— Теперь песни до 8 минут!

Доступ ограничен, проверяем!

#Suno #AI #музыка #V45

https://suno.com/create
Forwarded from Machinelearning
🌟 ReasonIR: обучение ретриверов для ризонинга.

Традиционные модели для поиска информации часто проваливаются в задачах, где нужны глубокие рассуждения: короткие фактологические запросы и простые документы из обучающих данных не учат их работать с многошаговыми вопросами.

ReasonIR был создан, чтобы решить эту проблему через синтетическую генерацию данных. Авторы создали ReasonIR-Synthesizer — пайплайн, который генерирует сложные запросы и «ложные» документы, похожие на полезные, но бесполезные на деле. Это заставляет модель учиться отличать настоящие паттерны, а не хвататься за поверхностные совпадения.

▶️Особенность метода — 2 типа данных:

🟢Первый, VL (varied-length), включает запросы длиной от 300 до 2000 слов, чтобы модель научилась работать с контекстом любой сложности.

🟢Второй, HQ (hard queries), — это вопросы, требующие анализа и логических шагов, например: «Как изменения климата повлияют на экономику прибрежных регионов к 2040 году?».

Для обучения тестовой модели ReasonIR-8B использовали контрастивное обучение с «хард негативами» (документами, которые кажутся релевантными, но таковыми не являются). Под капотом — доработанная LLama3.1-8B с двунаправленной маской внимания, обученная на смеси публичных данных (1,3 млн. примеров) и синтетики (около 345 тыс.).

На бенчмарке BRIGHT, (задачи из биологии, экономики и программирования), ReasonIR-8B показала 29.9 nDCG@10 без реранкера и 36.9 — с ним. Для сравнения: BM25, классический алгоритм, дает всего 14.8.

В RAG-сценариях модель подняла точность на MMLU на 6.4%, а на GPQA — на 22.6%, обогнав даже поисковик you.com. Причем чем детальнее переписывался запрос (например, добавлением контекста через GPT-4), тем лучше работала модель — другие ретриверы на длинных запросах «задыхались».

Авторы также оптимизировали вычисления: модель обходит LLM-реранкеры в 200 раз по эффективности, экономя ресурсы без потерь в качестве.

▶️Пример инференса на Transformers:

from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("reasonir/ReasonIR-8B", torch_dtype="auto", trust_remote_code=True)

query = "The quick brown fox jumps over the lazy dog."
document = "The quick brown fox jumps over the lazy dog."
query_instruction = ""
doc_instruction = ""
model = model.to("cuda")
model.eval()
query_emb = model.encode(query, instruction=query_instruction)
doc_emb = model.encode(document, instruction=doc_instruction)
sim = query_emb @ doc_emb.T



📌Лицензирование кода : CC-BY-NC-4.0 License.

📌Лицензирование модели: CC-BY-SA-4.0 License.


🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #ReasonIR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ ОАЭ вводит обязательное обучение ИИ для школьников всех возрастов.

ОАЭ сделали искусственный интеллект обязательным предметом для всех учащихся — от детского сада до 12 класса. Это часть стратегии, которая должна превратить страну в ведущий центр ИИ-разработок на Ближнем Востоке. Уже с 2025-26 учебного года в государственных школах начнут преподавать основы ИИ, включая этические аспекты и реальное применение технологий.

Параллельно страна активно внедряет ИИ в госуправление: разрабатывает систему для автоматического анализа и обновления законов. Эксперты прогнозируют, что к 2030 году ИИ добавит $96 млрд к ВВП ОАЭ. Сейчас страна лидирует в своем регионе по технологическому развитию, и такие проекты только укрепят ее позиции в будущем.
bloomberg.com

✔️ OpenAI остается некоммерческой структурой, но есть нюансы.

OpenAI объявила о смене корпоративной структуры: теперь коммерческое направление будет работать как Public Benefit Corporation (PBC), но под полным контролем некоммерческой организации. Это решение отменяет предыдущие планы по полному переходу в коммерческий сектор. Основная цель — сохранить миссию компании: развитие искусственного интеллекта на благо всего человечества, а не ради прибыли акционеров.

Как объяснил CEO Сэм Альтман в письме сотрудникам, OpenAI изначально создавалась как некоммерческая организация, и этот принцип останется неизменным. Новая структура позволит привлекать сотни миллиардов долларов для развития ИИ, делая технологии доступнее.

Решение о реструктуризации было принято после консультаций с юристами и общественными деятелями. OpenAI также планирует усилить работу в области безопасности ИИ и открыть доступ к мощным моделям.
openai.com

✔️ Tether анонсирует ИИ-платформу с поддержкой криптоплатежей.

Tether, крупнейший эмитент стейблкоинов, готовит запуск открытой ИИ-платформы. Как сообщил CEO Паоло Ардоино в соцсетях, система будет работать на любом устройстве без API-ключей и централизованных узлов, принимая платежи в биткоинах и USDT. Это решение может стать альтернативой для регионов с ограниченным доступом к фиатным банкам. Пока детали ИИ-платформы раскрыты частично, но цель амбициозна: проект планирует интеграцию криптовалют в повседневные технологии.

Параллельно Tether планирует выпустить новый стейблкоин, привязанный к доллару, для рынка США — при условии одобрения закона GENIUS Act.
pymnts.com

✔️ Anthropic запускает программу "ИИ для науки" с бесплатным доступом к API.

Anthropic анонсировала новую инициативу "AI for Science", которая поможет ускорить научные исследования через предоставление бесплатных API-кредитов. Программа ориентирована на биологию и науки о жизни.

Участвовать могут исследователи из научных учреждений. Заявки отберут по потенциалу проекта, его влиянию и роли ИИ в ускорении работы. Приоритет получат работы по геномике или борьбе с крупными заболеваниями. Податься можно через специальную форму, а решения будет принимать команда Anthropic с привлечением экспертов.
anthropic.com

✔️ Microsoft предложила стратегию развития социально-ориентированного ИИ.

Концепция Societal AI — это подход к разработке ИИ, который учитывает влияние технологий на общество. Основная цель: создание систем, отвечающих потребностям здравоохранения, образования и госуслуг, а также минимизация рисков вроде поляризации мнений.

Проект выделяет 3 принципа: гармония (снижение конфликтов), синергия (усиление человеческих возможностей) и устойчивость (адаптивность к изменениям). Особое внимание уделено 10 ключевым вопросам от этического выравнивания ИИ до трансформации труда и регуляторных рамок. Подробности — в полной версии документа.
microsoft.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 ZeroSearch: Обучение языковых моделей поиску без реальных поисковиков.

ZeroSearch — фреймворк на базе RL от Alibaba, который учит языковые модели искать данные, вообще не подключаясь к реальным поисковым системам.

Пайплайн ZeroSearch начинается с тонкой настройки (SFT): модель учат генерировать документы, похожие на вывод реального поисковика. Через промпты вида «создай пять полезных/мусорных документов» LLM осваивает 2 режима: релевантные ответы с правильными фактами и «мусор» с случайной информацией.

Дальше в дело вступает RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала рассуждает в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>.

Сквозь весь процесс происходит поэтапное усложнение. В начале тренировки 90% документов чистые, чтобы агент освоил базовую логику. С каждым шагом доля шума растет по специальной формуле: через 200 итераций вероятность получить бесполезный документ увеличивается вчетверо.

Это заставляет модель учиться фильтровать информацию даже в условиях хаоса. Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов — так фокус остается на улучшении стратегии поиска, а не на подгонке под шум.

На выходе получается автономный агент, который не просто ищет, но и учится когда искать, как формулировать запросы и что игнорировать. И все это без единого реального API, только симуляция и математика.

Итоги экспериментальных тестов выглядят позитивными. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct показала 43.24% точности (EM), оставляя позади Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще заметнее: 29.21% против 34.55% у конкурента.

Но главное, 14B-версия модели превосходит живой поисковик по среднему показателю на 33.97% против 32.47% у Google. Интересно еще и то, как масштаб влияет на результат: 3B модель дает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.

▶️ На Huggingface опубликованы Simulation модели c 3, 7 и 14 млрд. параметров, заточенные под имитацию работы поисковых систем для фреймворка ZeroSearch. Их назначение - генерировать документы двух типов:

🟢Релевантные (содержат точные ответы на запросы);

🟠Зашумленные (включают нерелевантный текст, ошибки или отвлеченные факты).

⚠️ В промпте к этим моделям необходимо добавить метки [useful] или [noisy] . В инференсе модель возвращает 5 документов заданного типа.

🔜 Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в этой коллекции


🟡Arxiv
🟡Датасет
🟡Набор Simulation моделей
🟡Коллекция обученных моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #ZeroSearch #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Google I/O 2025.

Главным событием стал запуск Gemini Ultra — подписки за $249,99 в месяц, включающей доступ к Veo 3 (генератор видео со звуком), Imagen 4 (создание изображений) и Flow (редактор видео на базе ИИ). Для разработчиков анонсирован Stitch — инструмент, генерирующий код и UI по текстовому описанию или изображению.

Project Mariner, ИИ-агент для автоматизации веб-задач, теперь выполняет до 10 действий одновременно. В Gemini добавлены Live-режим с трансляцией экрана и интеграция с Google сервисами. Project Astra, мультимодальный ИИ с почти нулевой задержкой, будет использоваться в умных очках от Gentle Monster и Warby Parker.

В Поиске появится AI Mode для сложных запросов, а Beam (бывший Starline) предлагает 3D-телеконференции с переводом речи в реальном времени. В Workspace появятся умные ответы в Gmail и новые функции для Google Meet.
techcrunch.com

✔️ Apple представит SDK для интеграции ИИ-моделей в приложения на WWDC 2025.

Apple анонсировала WWDC 2025: ключевое выступление пройдёт 9 июня в 10:00 PT, а трансляция будет доступна через Apple TV и на YouTube. Главной новостью станет выпуск SDK и фреймворков, позволяющих сторонним разработчикам внедрять ИИ-модели компании в свои приложения. Упор сделан на компактные локальные модели, работающие непосредственно на устройствах, — это отличает подход Apple от облачных решений конкурентов.
apple.com

✔️ Red Hat внедряет ИИ в управление Enterprise Linux.

Red Hat анонсировала обновления для RHEL, усилив интеграцию ИИ и контейнерных технологий. Теперь Red Hat Insights предлагает ИИ-рекомендации по выбору пакетов и планированию обновлений, упрощая подготовку систем под задачи ИИ-разработки. Сервис анализирует потребности инфраструктуры, помогает оптимизировать сборку образов и снижает риски при переходе на новые версии RHEL и AppStream.

Для изолированных сред в Red Hat Satellite 6.17 появился Insights advisor в виде контейнера — правила и исправления будут храниться локально и обновляться без интернета.

Satellite теперь поддерживает image mode, объединяя управление контейнерами и традиционными пакетами в единый рабочий процесс. Не осталась без внимания и безопасность: Insights proxy позволяет подключаться к аналитике RHEL через прокси, минуя прямое соединение с интернетом.
Обновления уже доступны через Hybrid Cloud Console для подписчиков RHEL.
businesswire.com

✔️ SAP запустила ИИ-платформу Joule с интеграцией Perplexity AI и 230 сценариями использования.

На мероприятии SAP Sapphire представлена Joule — ИИ-платформа для трансформации бизнес-процессов. Решение интегрируется с S4/Hana, Ariba, ServiceNow, Gmail и LinkedIn, используя ИИ для оптимизации CRM и финансовых операций. Уже сейчас платформа поддерживает 1600 навыков и 230 готовых ИИ-сценариев, а к концу 2025 года их число вырастет до 400.

Особый акцент был сделан на партнерстве с Perplexity: их поисковый движок станет основой для Joule. Гендиректор Perplexity подчеркнул преимущества технологии — широкий охват веба и скорость, опережающие Google и OpenAI.
community.sap.com

✔️ Hunyuan-TurboS: гибридная модель с адаптивным мышлением.

Tencent опубликовала техотчет Hunyuan-TurboS — гибридной LLM, сочетающей архитектуры Transformer и Mamba2. Ее ключевая фишка — адаптивный CoT, который автоматически переключается между быстрыми ответами для простых задач и глубоким анализом для сложных. Это экономит ресурсы: модель тратит на 47% меньше токенов при генерации, чем DeepSeek-R1.

Под капотом 128 слоев (57 Mamba2, 7 Attention, 64 FFN) с 56 млрд. активных параметров и 560 млрд. общих. Обучалась на 16 трлн. токенов, а контекстное окно расширено до 256 тыс. токенов благодаря NTK-позиционному кодированию.

В тестах LMSYS Chatbot Arena модель набрала 1356 баллов, войдя в топ-8. Она лидирует в китайском, французском и испанском сегментах, а в математике и STEM-задачах почти догоняет DeepSeek-V3. При этом скорость вывода в 1,8 раза выше, чем у чисто трансформерных аналогов.
Попробовать модель можно в демо-спейсе на HF.
Tencent-Hunyuan на Github

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Intel выпустила новые Xeon 6 для ИИ-систем.

Intel представила 3 новых процессора серии Xeon 6, оптимизированных для управления GPU в ИИ-задачах. Модели на базе P-ядер используют технологии PCT и SST-TF и отличаются повышенной пропускной способностью памяти (на 30% быстрее аналогов) и на 20% большим числом PCIe-линий.

Intel заверяет, что надежность решений гарантирована — встроенные механизмы RAS-функций минимизируют простои. Сотрудничество с NVIDIA стало ключевым моментом: Xeon 6776P уже работает в системе NVIDIA DGX B300, которая позиционируется как одна из самых мощных ИИ-платформ на рынке.
Процессоры доступны для заказа. Intel ожидает роста спроса со стороны корпоративного сектора.
intel.com

✔️ Cursor обновился до версии 0.50.

Главное новшество — новая "Tab"модель, которая ускоряет навигацию и редактирование: теперь она предлагает изменения не только в текущем файле, но и нескольких файлах проекта, позволяя буквально «пролететь» через правки с помощью табов.

Режим Max Mode стал доступен для всех моделей: он расширяет контекстное окно и снимает лимиты на вызовы инструментов. Встроенный редактор (Command-K) тоже прокачали — теперь им можно править целые файлы, а не только фрагменты.

Для больших проектов добавили мульти-рутовые рабочие пространства и тегирование папок, чтобы подключать к контексту целые кодовые базы. Еще одна фишка — фоновые агенты: они выполняют задачи параллельно, помогая с дебагом, стилями или подготовкой PR. В ближайших планах — интеграция агентов с issue-трекерами, чтобы автоматизировать рутину.
Cursor в сети X (ex-Twitter)

✔️ Vercel представила ИИ-модель для веб-разработки.

Vercel открыла бета-доступ к своей ИИ-модели V0-1.0-md, заточенной под задачи фронтенда и фулл-стек разработки. Модель доступна через API и принимает текстовые или графические промпты и умеет исправлять в автоматическом режиме типовые баги, интегрируясь с инструментами, поддерживающими формат OpenAI.

Модель обучена на популярных фреймворках и обрабатывает до 128 тыс. токенов за раз (около 750 тыс. слов). Правда, тестировать новинку смогут только те, кто подключит премиум-план V0 ($20/мес.) или корпоративную подписку ($30 за пользователя/mec).
techcrunch.com

✔️ NVIDIA DreamGen: обучение роботов на синтетических данных.

NVIDIA Research представила DreamGen — четырехэтапную систему генерации "нейронных траекторий» с помощью специальных видео-моделей для обучения роботов без предварительных демонстраций.

Сначала модель адаптируют под конкретного робота, затем генерируют видео с новыми сценариями по текстовым инструкциям. Из этих роликов извлекают псевдо-действия с помощью обратной динамики или латентных моделей, из которых формируют политики.

Эксперименты показали: чем больше синтетических данных, тем выше эффективность. При этом DreamGen работает на разных платформах — от дорогих манипуляторов до бюджетных моделей. Технология уже тестируется в реальных сценариях: от складов до домашних задач.
research.nvidia.com

✔️ Skywork Super Agents возглавил рейтинг GAIA, обойдя Manus и OpenAI.

SkyWork AI представила своего «супер-агента», который сразу занял первое место в GAIA Benchmark — ключевом тесте для ИИ-агентов. Система обошла конкурентов в первых двух уровнях сложности, а на третьем сравнялась с Manus.

Главный козырь: поддержка 5 форматов (Word, PPT, Excel, веб-кодинг, подкасты) с возможностью редактирования и отслеживания источников. Платформа максимально проста: вместо сложных промптов — выбор сценария и готовый результат.

Skywork Super Agents доступен как онлайн сервис (стоимость от $20/мес., есть пробный период), а для разработчиков открыли исходники фреймворка DeepResearch и API для вызова агентов по выбору.
globenewswire.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI открывает офис в Сеуле.

OpenAI объявила об открытии первого офиса в Сеуле, реагируя на стремительный рост спроса на ChatGPT в Южной Корее. Страна занимает 2 место по числу платных подписчиков сервиса после США. Уже начат набор команды для укрепления местных партнерств, а детали проектов обещают раскрыть в ближайшие месяцы.

«От чипов до софта и от студентов до старшего поколения — корейская экосистема идеальна для внедрения ИИ», — отметил Джейсон Квон, директор по стратегии OpenAI. Ранее компания анонсировала сотрудничество с Kakao, разработчиком популярного мессенджера, для создания новых продуктов на базе ИИ.
bloomberg.com

✔️ Компания Марка Цукерберга использует посты европейцев для обучения ИИ.

С 27 мая техно-гигант начнет использовать публикации пользователей из Европы в своих соцсетях для обучения собственных ИИ-моделей. Пользователи могут попытаться ограничить доступ к своим данным, отправив запрос, но компания не гарантирует удовлетворение таких обращений — заявки будут рассматриваться «в соответствии с законами о защите данных».

Регуляторы Бельгии, Франции и Нидерландов уже выразили обеспокоенность таким подходом на фоне глобальных споров о сборе онлайн-данных для ИИ. Создатели моделей ИИ, в свою очередь, настаивают, что весь открытый контент пригоден для обучения, однако это инициирует судебные иски из-за нарушений авторских прав и приватности.
euronews.com

✔️ Модель о3 обнаружила уязвимость нулевого дня в ядре Linux.

Модель o3 от OpenAI помогла выявить критическую уязвимость в модуле ksmbd ядра Linux, реализующем протокол SMB3. Речь идёт о CVE-2025-37899 — use-after-free в обработчике команды logoff, где освобождённый объект остаётся доступным для других потоков из-за отсутствия подсчета ссылок.

Автор исследования, ранее находивший подобные баги вручную, использовал o3 для анализа ~12 тыс. строк кода, что в итоге привело к обнаружению проблемы, требующей понимания параллельных подключений.
Хотя o3 выдает ложные срабатывания, ее способность анализировать код уже близка к человеческой.
sean.heelan.io

✔️ Анонс CosyVoice 3: новый уровень синтеза речи.

Команда SpeechLab (Alibaba Group) анонсировала CosyVoice 3 — новое поколение моделей для генерации речи, которое получило поддержку русского языка и улучшенную по сравнению с CosyVoice 2 передачу интонаций и эмоций.

Согласно препринту техотчета, в семействе 2 модели, на 0.5 и 1.5 млрд параметров с новым токенизатором MinMo. Модели обучались методом оптимизации наград DiffRO
на 1 млн. часов аудио с имитацией более 100 различных интонаций и эмоций.

По тестам CosyVoice 3 снизил частоту ошибок (CER/WER) на 44% для китайского и 51% для английского по сравнению с CosyVoice 2, и обошел F5-TTS, Spark-TTS в кросс-языковых задачах. Кода и весов моделей пока нет.
funaudiollm.github.io

✔️ Google расширил доступ к Veo 3 для 71 страны.

Всего через несколько дней после запуска, Google расширил доступ к Veo 3, добавив 71 новую страну. Как сообщил вице-президент Gemini Джош Вудворд в сети Х, подписчики Gemini Pro получат пробный пакет из 10 генераций. А вот обладатели Ultra-подписки за $250 в месяц смогут создавать неограниченное количество роликов с ежедневным обновлением квот.

Но есть нюансы: Veo 3 работает исключительно в веб-версии Gemini Pro, поддерживает только английскую аудиодорожку, а в Flow mode нельзя добавить голос поверх загруженных изображений.
Похоже, Google повторяет успех NotebookLM, но теперь — на уровне визуального контента. Техническое комьюнити ждtт, когда модель научится мультиязычности и расширит функционал.
Josh Woodward в сети Х

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔊 Ke-Omni-R-3B
👉 Открытая модель, которая понимает аудио и отвечает на вопросы по аудио.
🏆 Лидирует на бенчмарках аудиорассуждений.
📌 Построена на базе Qwen 3B.

🎥 Omni-R1
👉 Модель для видеоанализа, которая "смотрит" на видео и рассуждает на уровне каждого пикселя.
⚔️ Уже конкурирует с лучшими проприетарными решениями.
📌 Построена на Qwen 7B.

💡 Qwen2.5 - основа для мультимодального ИИ: текст + аудио + видео.
Если ты делаешь проекты в этой сфере — обязательно посмотри, что уже делают на базе Qwen.

#Qwen #AI #Multimodal #HuggingFace #OpenSource #LLM

📎 Модель: https://huggingface.co/KE-Team/Ke-Omni-R-3B
🎓 Хочешь разобраться в MCP (Model Context Protocol)? Вот с чего начать:

1️⃣ Курс от Hugging Face
Пошаговое введение в MCP и как он работает внутри LLM-экосистем
huggingface.co/learn/mcp-course

2️⃣ Курс от Microsoft
Практический гайд для новичков — с кодом, примерами и понятным объяснением
github.com/microsoft/mcp-for-beginners

3️⃣ Workshop
Онлайн-интенсив "MCP Fundamentals" — 25 июня, регистрация уже открыта
epicai.pro/events/workshop-mcp-fundamentals-2025-06-25

📦 MCP — это новый стандарт, который скоро будет везде: от агентов до LLM-интерфейсов. Самое время разобраться.

#MCP #AI #LLM #MachineLearning #Courses #DevTools