Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Очень интересная штука появилась у Eleven Labs
Это типа video2video, только audio2audio. Если ещё точнее - style transfer.
Берете чью-то речь. Например, актер с хорошим баритоном наговорил рекламу, и понимаете, что хотите немного исправить акценты, микропаузы и пр.
Наговариваете так, как сами бы озвучили, а ИИ переносит ваши акценты на чужую озвучку.
Поглядите видео, там достаточно понятно.
Это как бы перенос стиля, а не голоса.
Они называют это Actor Mode, хотя как по мне - это больше Director Mode.
И меня дико поражает, что это вообще возможно. Просто вдумайтесь, что происходит. И что было три года назад.
@cgevent
Это типа video2video, только audio2audio. Если ещё точнее - style transfer.
Берете чью-то речь. Например, актер с хорошим баритоном наговорил рекламу, и понимаете, что хотите немного исправить акценты, микропаузы и пр.
Наговариваете так, как сами бы озвучили, а ИИ переносит ваши акценты на чужую озвучку.
Поглядите видео, там достаточно понятно.
Это как бы перенос стиля, а не голоса.
Они называют это Actor Mode, хотя как по мне - это больше Director Mode.
И меня дико поражает, что это вообще возможно. Просто вдумайтесь, что происходит. И что было три года назад.
@cgevent
Google Gemini 2.5 Pro теперь ещё и лидер в работе с длинным контекстом! Причем с ощутимым отрывом. И он у тому же доступен бесплатно на AI studio.
Кажется OpenAI и правда пора релизить что-то из тяжеловесов. Google отбирает инициативу.
Бенчмарк работы с текстом для писателей
https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
Кажется OpenAI и правда пора релизить что-то из тяжеловесов. Google отбирает инициативу.
Бенчмарк работы с текстом для писателей
https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
Forwarded from gonzo-обзоры ML статей
Просочились детали про открытую модель от OpenAI (https://t.me/gonzo_ML/3521). По данным The Information (https://www.theinformation.com/briefings/openai-plans-release-free-model-reasoning-coming-months) у OpenAI уже есть эта модель и в данный момент она проходит тестирования безопасности.
Что известно про модель:
* Middle-sized model, то есть вероятно в районе 20-70B, также будет маленькая версия или несколько, чтобы можно было гонять on-device
* Модель мультиязычная, с поддержкой function calling. Ну этим сейчас уже никого не удивишь, необходимый минимум, не то что год назад (https://t.me/gonzo_ML/2821). Надеюсь, в отличие от Гугла (https://t.me/gonzo_ML/3447) список языков опубликуют?
* Это будет reasoning модель, что уже интересно. Reasoning модели такого размера нет, DeepSeek не для простых смертных с его 8x H200 (https://t.me/gonzo_ML/3239), и нишу для домашнего и мобильного использования пока ещё никто не занял, OpenAI будет первым (если новая Llama не обгонит).
* Модель мультимодальная, но что совсем интересно, в модальности будет аудио и новая модель в каком-то смысле является миксом Whisper и o3-mini. Про картиночную модальность неизвестно, но звук на входе и выходе это очень интересно, особенно мультиязычный. В on-device устройствах OpenAI планирует заюзать одновременно NPU и DSP (для звука они хороши), что видимо заметно улучшит скорость работы.
* Но что совсем бомба, это что ризонинг может идти в звуковой модальности! Модели будут рассуждать вслух! Но чтобы не сильно отвлекать пользователя, рассуждать модель будет шёпотом (Whisper же!). Если можно будет менять голос для ризонинга, то можно запускать GPT-радиостанцию!
Инсайдеры сообщают, что уже тестируют устную математику, но модель пока постоянно забывает перенести единичку.
Самый главный вопрос -- название модели пока неизвестно.
Хорошо, хорошо. Ждём ответку от Meta и Google. Ходят слухи, что Цукерберг уже нанял Eminem'а, чтобы обучить свою модель ритмичному reasoning'у под бит. А в Google DeepMind созвали экстренное совещание и, кажется, планируют выпустить би-ризонинг, когда модель играет сразу две роли, обычную и критика, причём разными голосами -- не просто так ведь модель называется Gemini. И она на самом деле уже тоже есть и проходит тестирования, включая старый добрый NotebookLM (https://t.me/gonzo_ML/2976) -- помните подкасты?
Что известно про модель:
* Middle-sized model, то есть вероятно в районе 20-70B, также будет маленькая версия или несколько, чтобы можно было гонять on-device
* Модель мультиязычная, с поддержкой function calling. Ну этим сейчас уже никого не удивишь, необходимый минимум, не то что год назад (https://t.me/gonzo_ML/2821). Надеюсь, в отличие от Гугла (https://t.me/gonzo_ML/3447) список языков опубликуют?
* Это будет reasoning модель, что уже интересно. Reasoning модели такого размера нет, DeepSeek не для простых смертных с его 8x H200 (https://t.me/gonzo_ML/3239), и нишу для домашнего и мобильного использования пока ещё никто не занял, OpenAI будет первым (если новая Llama не обгонит).
* Модель мультимодальная, но что совсем интересно, в модальности будет аудио и новая модель в каком-то смысле является миксом Whisper и o3-mini. Про картиночную модальность неизвестно, но звук на входе и выходе это очень интересно, особенно мультиязычный. В on-device устройствах OpenAI планирует заюзать одновременно NPU и DSP (для звука они хороши), что видимо заметно улучшит скорость работы.
* Но что совсем бомба, это что ризонинг может идти в звуковой модальности! Модели будут рассуждать вслух! Но чтобы не сильно отвлекать пользователя, рассуждать модель будет шёпотом (Whisper же!). Если можно будет менять голос для ризонинга, то можно запускать GPT-радиостанцию!
Инсайдеры сообщают, что уже тестируют устную математику, но модель пока постоянно забывает перенести единичку.
Самый главный вопрос -- название модели пока неизвестно.
Хорошо, хорошо. Ждём ответку от Meta и Google. Ходят слухи, что Цукерберг уже нанял Eminem'а, чтобы обучить свою модель ритмичному reasoning'у под бит. А в Google DeepMind созвали экстренное совещание и, кажется, планируют выпустить би-ризонинг, когда модель играет сразу две роли, обычную и критика, причём разными голосами -- не просто так ведь модель называется Gemini. И она на самом деле уже тоже есть и проходит тестирования, включая старый добрый NotebookLM (https://t.me/gonzo_ML/2976) -- помните подкасты?
Telegram
gonzo-обзоры ML статей
Неужели??? Для 1 апреля запоздалая шутка. На пару лет.
https://openai.com/open-model-feedback/
We’re planning to release our first open language model since GPT‑2 in the coming months. We’re excited to collaborate with developers, researchers, and the broader…
https://openai.com/open-model-feedback/
We’re planning to release our first open language model since GPT‑2 in the coming months. We’re excited to collaborate with developers, researchers, and the broader…
Forwarded from Machinelearning
⚡️ Gemma 3 QAT
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Google дообучили существующие модели Gemma 3 с использованием QAT примерно на 5000 шагах, ориентируясь на предсказания оригинальных, неквантованных моделей.
Выпущены чекпоинты для всех размеров Gemma (
🤏 Новые версии теперь требуют в 3 меньше памяти.
✔️ HF
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Google дообучили существующие модели Gemma 3 с использованием QAT примерно на 5000 шагах, ориентируясь на предсказания оригинальных, неквантованных моделей.
Выпущены чекпоинты для всех размеров Gemma (
1B, 4B, 12B, 27B
)🤏 Новые версии теперь требуют в 3 меньше памяти.
ollama run hf(.)co/google/gemma-3-4b-it-qat-q4_0-gguf
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
Please open Telegram to view this post
VIEW IN TELEGRAM
Microsoft тут разродился новыми фичами в Copilot.
Память: Copilot запоминает предпочтения и интересы пользователя для персонализации рекомендаций.
Действия (Actions): Автоматическое выполнение задач в браузере, например бронирование ресторанов или билетов. Опять отъедают рынок Automation.
Copilot Vision: Анализ изображений и контента с экрана для лучших советов.
Pages: Организация заметок и документов в структурированные проекты.
Подкасты: Генерация подкастов на основе интересов пользователя.
Шопинг: Персональный помощник для поиска товаров и скидок в интернете.
Глубокое исследование: Помощь в проведении сложных, многоступенчатых исследований.
Copilot Search: Генеративные ответы в результатах поиска Bing.
https://blogs.microsoft.com/blog/2025/04/04/your-ai-companion/
В общем, подтягивают фичи OpenAI глубже в свой софт
Память: Copilot запоминает предпочтения и интересы пользователя для персонализации рекомендаций.
Действия (Actions): Автоматическое выполнение задач в браузере, например бронирование ресторанов или билетов. Опять отъедают рынок Automation.
Copilot Vision: Анализ изображений и контента с экрана для лучших советов.
Pages: Организация заметок и документов в структурированные проекты.
Подкасты: Генерация подкастов на основе интересов пользователя.
Шопинг: Персональный помощник для поиска товаров и скидок в интернете.
Глубокое исследование: Помощь в проведении сложных, многоступенчатых исследований.
Copilot Search: Генеративные ответы в результатах поиска Bing.
https://blogs.microsoft.com/blog/2025/04/04/your-ai-companion/
В общем, подтягивают фичи OpenAI глубже в свой софт
The Official Microsoft Blog
Your AI Companion
As I look back on the incredible impact that Microsoft has had over its now 50 years of relentless innovation, I’m inspired by the simplicity and power of Bill Gates’ bold ambition all those years ago: to put a PC on every desk and in every home. At Microsoft…
Forwarded from LLM под капотом
Llama 4 вышла - MoE по 17B на эксперта
Пока в мире гадают, что это за модель Quasar на OpenRouter, Meta выпустила четвертую версию Llama
Читать тут. Любоваться тут.
Модели Llama 4 — это мультимодальные MoE модели, оптимизированные для многоязычных задач, программирования, вызова инструментов и создания автономных систем (агентов). Знания - по август 2024.
Llama 4 Scout:
- Поддерживается ввод текста и до 5 изображений.
- Поддерживает арабский, английский, французский, немецкий, хинди, индонезийский, итальянский, португальский, испанский, тагальский, тайский и вьетнамский языки (понимание изображений — только на английском).
- 16 экспертов по 17B
- Может работать на одном GPU (при использовании INT4-квантованной версии на одном GPU H100).
- Максимальная длина контекста: 10 млн токенов.
Llama 4 Maverick:
- Мультимодальность
- Поддерживает те же языки, что и Scout (понимание изображений — только на английском).
- 128 экспертов по 17B параметров
- Максимальная длина контекста: 1 млн токенов.
Хотя общее число параметров составляет 109B и 400B, во время вычислений активны только 17B, что уменьшает задержки при выводе и обучении. Это очень неплохо должно лечь на Apple Silicon!
Ваш, @llm_under_hood 🤗
Пока в мире гадают, что это за модель Quasar на OpenRouter, Meta выпустила четвертую версию Llama
Читать тут. Любоваться тут.
Модели Llama 4 — это мультимодальные MoE модели, оптимизированные для многоязычных задач, программирования, вызова инструментов и создания автономных систем (агентов). Знания - по август 2024.
Llama 4 Scout:
- Поддерживается ввод текста и до 5 изображений.
- Поддерживает арабский, английский, французский, немецкий, хинди, индонезийский, итальянский, португальский, испанский, тагальский, тайский и вьетнамский языки (понимание изображений — только на английском).
- 16 экспертов по 17B
- Может работать на одном GPU (при использовании INT4-квантованной версии на одном GPU H100).
- Максимальная длина контекста: 10 млн токенов.
Llama 4 Maverick:
- Мультимодальность
- Поддерживает те же языки, что и Scout (понимание изображений — только на английском).
- 128 экспертов по 17B параметров
- Максимальная длина контекста: 1 млн токенов.
Хотя общее число параметров составляет 109B и 400B, во время вычислений активны только 17B, что уменьшает задержки при выводе и обучении. Это очень неплохо должно лечь на Apple Silicon!
Ваш, @llm_under_hood 🤗
Недавно рассказывал про инструменты быстрого создания разных инструментов для бизнеса. Вместо того, чтобы пилить кастомные разработки с нуля. Держите список:
- Ассистенты для саппорта и сотрудников, боты, RAG (ответы на вопросы по базе знаний) - OpenAI Assistants - https://platform.openai.com/playground/assistants
- Чтобы использовать в мессенджерах или рабочих инструментах, проще всего подключить в Buildship, например- https://docs.buildship.com/triggers-bots/telegram-bot
- RAG для поддержки пользователей на сайте - DifyAI - https://dify.ai/
- Сайт-одностраничник (можно с помощью какого-нибудь ChatGPT или Claude, например, сделать клон вашей платной Тильды) - GitHub Pages - https://pages.github.com/
- Простое, но гибкое создание голосовых ассистентов (входящие звонки для, например, бронирований, или массовый обзвон) - https://vapi.ai (номер телефона для него можно купить на https://zadarma.com/)
- Ассистенты для саппорта и сотрудников, боты, RAG (ответы на вопросы по базе знаний) - OpenAI Assistants - https://platform.openai.com/playground/assistants
- Чтобы использовать в мессенджерах или рабочих инструментах, проще всего подключить в Buildship, например- https://docs.buildship.com/triggers-bots/telegram-bot
- RAG для поддержки пользователей на сайте - DifyAI - https://dify.ai/
- Сайт-одностраничник (можно с помощью какого-нибудь ChatGPT или Claude, например, сделать клон вашей платной Тильды) - GitHub Pages - https://pages.github.com/
- Простое, но гибкое создание голосовых ассистентов (входящие звонки для, например, бронирований, или массовый обзвон) - https://vapi.ai (номер телефона для него можно купить на https://zadarma.com/)
Openai
OpenAI Platform
Explore developer resources, tutorials, API docs, and dynamic examples to get the most out of OpenAI's platform.
OpenAI тут предлагает Евросоюзу не крышечки к бутылкам привинчивать, а нормально так вложиться в AI, чтобы не потерять все полимеры.
Представили План развития AI в ЕС: https://openai.com/global-affairs/openais-eu-economic-blueprint
- в 3 раза за 5 лет увеличить дата-центры для инференса, в дополнение к тому, что для дообучения моделей будет построено. Плюс обеспечить все кадрами и дешёвой энергией.
- Упростить законодательство и убрать барьеры для AI. Со стартапами вместе работать, чтобы безопасность не тормозила прогресс, но про alignment никто не забывал.
- Создать фонд в 1 миллиард евро для инвестиций в перспективные разработки
- Обучить 100 миллионов европейцев инструментам с AI всякими онлайн-курсами
- С молодежью активно сотрудничать, чтобы интересы их программа учитывала, а не бюрократов разных стран.
В целом все жизненно, но что-то кажется Европе сейчас вообще не до AI.
Представили План развития AI в ЕС: https://openai.com/global-affairs/openais-eu-economic-blueprint
- в 3 раза за 5 лет увеличить дата-центры для инференса, в дополнение к тому, что для дообучения моделей будет построено. Плюс обеспечить все кадрами и дешёвой энергией.
- Упростить законодательство и убрать барьеры для AI. Со стартапами вместе работать, чтобы безопасность не тормозила прогресс, но про alignment никто не забывал.
- Создать фонд в 1 миллиард евро для инвестиций в перспективные разработки
- Обучить 100 миллионов европейцев инструментам с AI всякими онлайн-курсами
- С молодежью активно сотрудничать, чтобы интересы их программа учитывала, а не бюрократов разных стран.
В целом все жизненно, но что-то кажется Европе сейчас вообще не до AI.
Openai
OpenAI’s EU Economic Blueprint
Today, OpenAI is sharing the EU Economic Blueprint—a set of proposals to help Europe seize the promise of artificial intelligence, drive sustainable economic growth across the region, and ensure that AI is developed and deployed by Europe, in Europe, for…
This media is not supported in your browser
VIEW IN TELEGRAM
Блин, новый липсинк от CapCut прям классно работает. Нужен американский VPN. Тогда AI Avatar - Lip Sync.
https://dreamina.capcut.com/ai-tool/home/
https://dreamina.capcut.com/ai-tool/home/
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Они выкатили Firebase Studio - новую облачную агенсткую среду разработки, в которой есть весь инструментарий для быстрого создания полнофункциональных приложений с искусственным интеллектом, и все это в одном месте.
Вы можете создавать приложения на естественном языке, тестить их и развертывать в одном месте 🔥
По сути, это бесплатная альтернатива
Cursor, Bolt или v0,
прямо в браузере.https://goo.gle/4cvcUzY
Апдейт: Еще Google дропнули Agent Development Kit (ADK) — новую среду с открытым исходным кодом работы с мульит-агентами!
- открыли доступ к Veo 2 через Gemini API!
- и запускать свой новый MCP протокол Agent2Agent Protocol
@ai_machinelearning_big_data
#GoogleCloudNext #FirebaseStudio
Please open Telegram to view this post
VIEW IN TELEGRAM
И если вы стартап и хотите работать вместе с OpenAI, то вступайте в ряды пионеров.
Обучат файнтюнингу, если поделитесь своими тестовыми выборками
https://openai.com/index/openai-pioneers-program/
Обучат файнтюнингу, если поделитесь своими тестовыми выборками
https://openai.com/index/openai-pioneers-program/
Openai
Announcing the OpenAI Pioneers Program
Advancing model performance and real world evaluation in applied domains.
О, а гугл добавила в Sheets AI функции и конечно же убила дюжину стартапов, которые это делали экстеншеном. Надо активировать в Labs: https://support.google.com/docs/answer/15877199?hl=en_SE
Пишете промпт, типа "выдели ключевые слова из фидбека пользователя - соседней ячейки," или там "определи страну из адреса слева", протягиваете на все ячейки фидбека и адресов и хоба, у вас тысячи ячеек обработались и в соседней колонке нужная информация. Супер полезная штука.
https://vc.ru/ai/1916855-google-dobavila-ii-v-tablicy-i-anonsirovala-gemini-2-5-flash
Пишете промпт, типа "выдели ключевые слова из фидбека пользователя - соседней ячейки," или там "определи страну из адреса слева", протягиваете на все ячейки фидбека и адресов и хоба, у вас тысячи ячеек обработались и в соседней колонке нужная информация. Супер полезная штука.
https://vc.ru/ai/1916855-google-dobavila-ii-v-tablicy-i-anonsirovala-gemini-2-5-flash
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
• Помнит все интересы и стиль общения
• Подстраивается твои цели: учёба, код, тексты, советы
• Работает незаметно, но помогает как будто «знает пользователя давно»
Это новый уровень взаимодействия с ИИ — теперь он не просто отвечает, а действительно помогает тебе как личный ассистент.
Улучшенная память в ChatGPT доступна с сегодняшнего дня всем пользователям Plus и Pro, за исключением Великобритании, Швейцарии, Норвегии, Исландии и Лихтенштейна.
Пользователи Team, Enterprise и Edu получат доступ через несколько недель.
P.S. Память можно настраивать и полностью отключать👌
https://x.com/OpenAI/status/1910378768172212636
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Очень хочу найти время вдумчиво почитать State of the AI, но пока только выводы
Производительность ИИ на сложных тестах продолжает расти. В 2023 году исследователи представили новые бенчмарки — MMMU, GPQA и SWE-bench — для проверки возможностей продвинутых ИИ-систем. Уже через год их производительность резко выросла: показатели улучшились на 18,8, 48,9 и 67,3 процентных пункта соответственно. Помимо тестов, ИИ-системы значительно продвинулись в генерации качественного видео, а в некоторых случаях агенты на базе языковых моделей превзошли людей в задачах программирования с ограниченным временем.
ИИ всё глубже внедряется в повседневную жизнь. От здравоохранения до транспорта — ИИ быстро выходит из лабораторий в реальный мир. В 2023 году FDA одобрила 223 медицинских устройства с ИИ, тогда как в 2015 году их было всего 6. На дорогах беспилотные автомобили перестали быть экспериментом: Waymo делает уже более 150 000 автономных поездок в неделю в США, а флот доступных роботакси Apollo Go от Baidu уже обслуживает множество городов Китая.
Бизнес полностью делает ставку на ИИ, способствуя рекордным инвестициям и росту использования. В 2024 году частные инвестиции в ИИ в США достигли $109,1 млрд — почти в 12 раз больше, чем в Китае ($9,3 млрд), и в 24 раза больше, чем в Великобритании ($4,5 млрд). Генеративный ИИ особенно популярен, привлекая $33,9 млрд частных инвестиций по всему миру (+18,7% к 2023 году). Использование ИИ в бизнесе также ускоряется: 78% организаций сообщили об использовании ИИ в 2024 году (против 55% годом ранее). Всё больше исследований подтверждают, что ИИ повышает производительность и помогает сократить разрыв в навыках сотрудников.
США продолжают лидировать в разработке топовых ИИ-моделей, но Китай сокращает отставание. В 2024 году институты из США создали 40 заметных ИИ-моделей, Китай — 15, Европа — 3. Несмотря на количественное лидерство США, китайские модели быстро сокращают разрыв по качеству: различия в производительности на таких бенчмарках, как MMLU и HumanEval, уменьшились с двузначных до почти нулевых в 2024 году. Китай по-прежнему лидирует по количеству публикаций и патентов в области ИИ. Разработка моделей становится всё более глобальной, включая Ближний Восток, Латинскую Америку и Юго-Восточную Азию.
Экосистема ответственного ИИ развивается неравномерно. Количество инцидентов, связанных с ИИ, резко растёт, но стандартизированные оценки RAI (Responsible AI — Ответственный ИИ) остаются редкими среди ведущих промышленных разработчиков. Однако новые бенчмарки, такие как HELM Safety, AIR-Bench и FACTS, предлагают перспективные инструменты оценки правдивости и безопасности. Среди компаний сохраняется разрыв между осознанием рисков RAI и реальными действиями. В отличие от этого, правительства начинают действовать активнее: в 2024 году усилилось международное сотрудничество в области регулирования ИИ, включая инициативы от ОЭСР, ЕС, ООН и Африканского союза по обеспечению прозрачности, доверия и других ключевых принципов ответственного ИИ.
Оптимизм по поводу ИИ в мире растёт, но сохраняются региональные различия. В таких странах, как Китай (83%), Индонезия (80%) и Таиланд (77%), подавляющее большинство считает ИИ-продукты и сервисы полезными. В то же время в Канаде (40%), США (39%) и Нидерландах (36%) уровень оптимизма значительно ниже. Тем не менее, настроение меняется: с 2022 года оптимизм вырос в странах, ранее настроенных скептически, включая Германию (+10%), Францию (+10%), Канаду (+8%), Великобританию (+8%) и США (+4%).
ИИ становится более эффективным, доступным и дешёвым. Благодаря более мощным малым моделям, стоимость инференса (исполнения модели) для уровня GPT-3.5 снизилась более чем в 280 раз с ноября 2022 по октябрь 2024. Аппаратные издержки упали на 30% в год, а энергоэффективность улучшалась на 40% ежегодно. Модели с открытым доступом к весам почти догнали закрытые: разрыв в производительности сократился с 8% до 1,7% за год. Эти тренды резко снижают барьеры к использованию продвинутого ИИ.
Производительность ИИ на сложных тестах продолжает расти. В 2023 году исследователи представили новые бенчмарки — MMMU, GPQA и SWE-bench — для проверки возможностей продвинутых ИИ-систем. Уже через год их производительность резко выросла: показатели улучшились на 18,8, 48,9 и 67,3 процентных пункта соответственно. Помимо тестов, ИИ-системы значительно продвинулись в генерации качественного видео, а в некоторых случаях агенты на базе языковых моделей превзошли людей в задачах программирования с ограниченным временем.
ИИ всё глубже внедряется в повседневную жизнь. От здравоохранения до транспорта — ИИ быстро выходит из лабораторий в реальный мир. В 2023 году FDA одобрила 223 медицинских устройства с ИИ, тогда как в 2015 году их было всего 6. На дорогах беспилотные автомобили перестали быть экспериментом: Waymo делает уже более 150 000 автономных поездок в неделю в США, а флот доступных роботакси Apollo Go от Baidu уже обслуживает множество городов Китая.
Бизнес полностью делает ставку на ИИ, способствуя рекордным инвестициям и росту использования. В 2024 году частные инвестиции в ИИ в США достигли $109,1 млрд — почти в 12 раз больше, чем в Китае ($9,3 млрд), и в 24 раза больше, чем в Великобритании ($4,5 млрд). Генеративный ИИ особенно популярен, привлекая $33,9 млрд частных инвестиций по всему миру (+18,7% к 2023 году). Использование ИИ в бизнесе также ускоряется: 78% организаций сообщили об использовании ИИ в 2024 году (против 55% годом ранее). Всё больше исследований подтверждают, что ИИ повышает производительность и помогает сократить разрыв в навыках сотрудников.
США продолжают лидировать в разработке топовых ИИ-моделей, но Китай сокращает отставание. В 2024 году институты из США создали 40 заметных ИИ-моделей, Китай — 15, Европа — 3. Несмотря на количественное лидерство США, китайские модели быстро сокращают разрыв по качеству: различия в производительности на таких бенчмарках, как MMLU и HumanEval, уменьшились с двузначных до почти нулевых в 2024 году. Китай по-прежнему лидирует по количеству публикаций и патентов в области ИИ. Разработка моделей становится всё более глобальной, включая Ближний Восток, Латинскую Америку и Юго-Восточную Азию.
Экосистема ответственного ИИ развивается неравномерно. Количество инцидентов, связанных с ИИ, резко растёт, но стандартизированные оценки RAI (Responsible AI — Ответственный ИИ) остаются редкими среди ведущих промышленных разработчиков. Однако новые бенчмарки, такие как HELM Safety, AIR-Bench и FACTS, предлагают перспективные инструменты оценки правдивости и безопасности. Среди компаний сохраняется разрыв между осознанием рисков RAI и реальными действиями. В отличие от этого, правительства начинают действовать активнее: в 2024 году усилилось международное сотрудничество в области регулирования ИИ, включая инициативы от ОЭСР, ЕС, ООН и Африканского союза по обеспечению прозрачности, доверия и других ключевых принципов ответственного ИИ.
Оптимизм по поводу ИИ в мире растёт, но сохраняются региональные различия. В таких странах, как Китай (83%), Индонезия (80%) и Таиланд (77%), подавляющее большинство считает ИИ-продукты и сервисы полезными. В то же время в Канаде (40%), США (39%) и Нидерландах (36%) уровень оптимизма значительно ниже. Тем не менее, настроение меняется: с 2022 года оптимизм вырос в странах, ранее настроенных скептически, включая Германию (+10%), Францию (+10%), Канаду (+8%), Великобританию (+8%) и США (+4%).
ИИ становится более эффективным, доступным и дешёвым. Благодаря более мощным малым моделям, стоимость инференса (исполнения модели) для уровня GPT-3.5 снизилась более чем в 280 раз с ноября 2022 по октябрь 2024. Аппаратные издержки упали на 30% в год, а энергоэффективность улучшалась на 40% ежегодно. Модели с открытым доступом к весам почти догнали закрытые: разрыв в производительности сократился с 8% до 1,7% за год. Эти тренды резко снижают барьеры к использованию продвинутого ИИ.
Государства активизируются в сфере ИИ — через регулирование и инвестиции. В 2024 году федеральные агентства США ввели 59 нормативных актов, связанных с ИИ — более чем вдвое больше, чем в 2023 году. Упоминания ИИ в законодательных актах выросли на 21,3% в 75 странах с 2023 года (рост в 9 раз с 2016 года). Параллельно растут инвестиции: Канада пообещала $2,4 млрд, Китай запустил фонд в $47,5 млрд для полупроводников, Франция — €109 млрд, Индия — $1,25 млрд, а инициатива Transcendence в Саудовской Аравии представляет собой проект на $100 млрд.
Образование в сфере ИИ и информатики расширяется, но сохраняются пробелы в доступности. Две трети стран уже предлагают или планируют предлагать компьютерные науки (CS) в школах (K–12), что вдвое больше, чем в 2019 году. Африка и Латинская Америка показали наибольший прогресс. В США количество выпускников бакалавриата в области CS выросло на 22% за последние 10 лет. Тем не менее, доступ к ИИ ограничен во многих африканских странах из-за проблем с базовой инфраструктурой, такой как электричество. В США 81% учителей CS считают, что ИИ должен быть частью базового образования, но менее половины готовы его преподавать.
Индустрия лидирует в разработке ИИ — но передний край становится конкуретнее. Почти 90% заметных ИИ-моделей в 2024 году были созданы в индустрии (против 60% в 2023), хотя научная среда остаётся главным источником наиболее цитируемых исследований. Масштабы моделей продолжают расти: вычислительные ресурсы удваиваются каждые 5 месяцев, датасеты — каждые 8 месяцев, энергопотребление — ежегодно. При этом разрывы в производительности уменьшаются: разница в рейтинге Elo между первой и десятой моделью сократилась с 11,9% до 5,4%, а между первой и второй — всего 0,7%. Конкуренция на переднем крае усиливается.
ИИ получает признание за вклад в науку. Это отражается в наградах: две Нобелевские премии были присуждены за работы, связанные с глубинным обучением (физика) и применением ИИ к прогнозированию структуры белков (химия), а премия Тьюринга — за достижения в области обучения с подкреплением.
Сложные рассуждения остаются трудной задачей. Хотя ИИ-модели справляются с задачами уровня Международной математической олимпиады, они по-прежнему испытывают трудности с более сложными задачами логики и планирования, например на PlanBench. Часто модели не способны надёжно решать логические задачи даже при наличии проверяемо правильного решения, что ограничивает их применение в критически важных областях, где требуется высокая точность.
https://hai-production.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf
Образование в сфере ИИ и информатики расширяется, но сохраняются пробелы в доступности. Две трети стран уже предлагают или планируют предлагать компьютерные науки (CS) в школах (K–12), что вдвое больше, чем в 2019 году. Африка и Латинская Америка показали наибольший прогресс. В США количество выпускников бакалавриата в области CS выросло на 22% за последние 10 лет. Тем не менее, доступ к ИИ ограничен во многих африканских странах из-за проблем с базовой инфраструктурой, такой как электричество. В США 81% учителей CS считают, что ИИ должен быть частью базового образования, но менее половины готовы его преподавать.
Индустрия лидирует в разработке ИИ — но передний край становится конкуретнее. Почти 90% заметных ИИ-моделей в 2024 году были созданы в индустрии (против 60% в 2023), хотя научная среда остаётся главным источником наиболее цитируемых исследований. Масштабы моделей продолжают расти: вычислительные ресурсы удваиваются каждые 5 месяцев, датасеты — каждые 8 месяцев, энергопотребление — ежегодно. При этом разрывы в производительности уменьшаются: разница в рейтинге Elo между первой и десятой моделью сократилась с 11,9% до 5,4%, а между первой и второй — всего 0,7%. Конкуренция на переднем крае усиливается.
ИИ получает признание за вклад в науку. Это отражается в наградах: две Нобелевские премии были присуждены за работы, связанные с глубинным обучением (физика) и применением ИИ к прогнозированию структуры белков (химия), а премия Тьюринга — за достижения в области обучения с подкреплением.
Сложные рассуждения остаются трудной задачей. Хотя ИИ-модели справляются с задачами уровня Международной математической олимпиады, они по-прежнему испытывают трудности с более сложными задачами логики и планирования, например на PlanBench. Часто модели не способны надёжно решать логические задачи даже при наличии проверяемо правильного решения, что ограничивает их применение в критически важных областях, где требуется высокая точность.
https://hai-production.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf
OpenAI жалуется, как тяжело было тренировать GPT-4.5
https://youtu.be/6nJZopACRuQ
📅 Планирование проекта GPT-4.5 началось за ~2 года до запуска.
🎯 Цель - ~10-кратное эффективное увеличение вычислений по сравнению с GPT-4.
📈 Переход к большему количеству GPU делает редкие сбои (аппаратные, программные, данные) гораздо более частыми и значимыми.
🏃 Большие запуски часто начинаются с нерешенными проблемами; исправления и улучшения происходят в процессе работы.
🐞 Ошибка в torch.sum вызывала проблемы с корректностью в течение ~40 % времени выполнения.
💾 Доступность данных становится более узким местом, чем вычисления.
💡 Предварительное обучение действует как сжатие; меньшие потери сильно коррелируют с лучшими возможностями.
🛠 Переобучение GPT-4 в настоящее время потребует лишь части первоначальных усилий (сейчас - 5-10 человек)
https://youtu.be/6nJZopACRuQ
📅 Планирование проекта GPT-4.5 началось за ~2 года до запуска.
🎯 Цель - ~10-кратное эффективное увеличение вычислений по сравнению с GPT-4.
📈 Переход к большему количеству GPU делает редкие сбои (аппаратные, программные, данные) гораздо более частыми и значимыми.
🏃 Большие запуски часто начинаются с нерешенными проблемами; исправления и улучшения происходят в процессе работы.
🐞 Ошибка в torch.sum вызывала проблемы с корректностью в течение ~40 % времени выполнения.
💾 Доступность данных становится более узким местом, чем вычисления.
💡 Предварительное обучение действует как сжатие; меньшие потери сильно коррелируют с лучшими возможностями.
🛠 Переобучение GPT-4 в настоящее время потребует лишь части первоначальных усилий (сейчас - 5-10 человек)
YouTube
Pre-Training GPT-4.5
Sam Altman sits down with Amin Tootoonchian, Alex Paino, and Daniel Selsam to discuss the journey to get to GPT-4.5.