AI Product | Igor Akimov
4.2K subscribers
698 photos
124 videos
46 files
706 links
Download Telegram
Дошли руки по мультиспикерной генерации голоса от гугла - https://aistudio.google.com/generate-speech

Можно расписывать параметры каждого голоса, в целом сценарии, выбирать из 30 голосов и 20 языков. Работает круто по эмоциям, хотя с ударениями иногда косячит, ну долго, конечно. Речь выше генерил больше 30 секунд, так что для рекламы и озвучки скорее, а не для живой речи и ассистентов. Для них есть другое - Live API, с голосами попроще.
DeepSeek R1 вчера обновился и теперь вошел в топ-3 моделей, обогнав даже Gemini последний. И это опенсорс! Особен силен стал в кодинге, математике и логике
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs закрывает все больше сценариев сторонних голосовых сервисов и внедряет к себе. Их продакт-менеджеру и команде респект.
Для прототипов и даже продакшн голосовых ассистентов сейчас самый простой и стабильный вариант.
Выложили Conversational AI 2.0:
https://elevenlabs.io/blog/conversational-ai-2-0

- Автоматическое определение паузы (типа когда надо замолчать и дождаться, пока человек например в почте найдет свой номер заказа)
- RAG (можно доки загрузить и их использовать в разговоре)
- Мультиязычность (автоматически определяет язык и переключается на него)
- Персоны (может во время разговора активировать разных "людей")
- Безопасность (HIPPA для работы с медицинскими данными, EU хранение и так далее)
- Мультимодальности (раньше только голос, теперь можно еще и текстом что-то донабирать, например на сайте)
- Телефония (раньше был только Twilio с так себе условиями подключения, теперь можно с любой IP-телефонией коннектиться).

Короче, прям вау. Но единственное, что это все еще недешево. 11 центов за минуту.
О, Мэри Микер (легендарная аналитик и инвесторша, которая пишет отчеты о трендах про интернет), написала теперь полностью отчет про AI. 340 страниц, но текста мало, в основном графики.
https://www.bondcap.com/reports/tai

Вот основное, что пишет:
- Темпы изменений действительно ускорились. Почти все ключевые-метрики ИИ (пользователи, запросы, модели, вложения) растут кратно быстрее, чем аналогичные показатели раннего интернета.

- Использование + затраты растут одновременно и беспрецедентно. Сотни миллионов пользователей-человек и триллионы токенов в месяц подстёгивают гигантские капитальные затраты; только «большая шестёрка» компаний США вложила $212 млрд в 2024 г.

- Экономика вычислений разворачивается: дорогая тренировка ↔️ дёшевый инференс. Стоимость обучения моделей продолжает расти, тогда как цена вывода на токен падает, выравнивая качество разных моделей и стимулируя массовую разработку.

- Монетизация под давлением: открытый код + Китай → новая конкуренция. Волна open-source-моделей и стремительный подъём китайских платформ повышают планку предложений и сокращают «ренту» за проприетарность.

- ИИ выходит в физический мир. Автономные автомобили, дроны, «умные» фермы, оборонные системы и добыча полезных ископаемых показывают, что интеллект становится встроенной функцией вещей, а не только софта.

- Следующий миллиард интернет-пользователей придёт сразу в AI-нативный интерфейс. Мобильные приложения ChatGPT/DeepSeek и глобальное покрытие Starlink открывают доступ к «разговорному» интернету там, где классические веб-сервисы даже не прижились.

- Работа трансформируется быстро и на практие. Компании внедряют агенты, копилоты и вертикальные решения (Duolingo, Shopify, Kaiser Permanente, JP Morgan), фиксируя двух-значный рост продуктивности и перенося AI-критерии в найм и KPI.

- Гонка США-Китай превращает ИИ в элемент геостратегии. Обе державы рассматривают технологическое лидерство как рычаг влияния.

- Польза колоссальна, но риски растут синхронно. От лечения болезней и роста мирового ВВП до кибероружия и предвзятых решений — двойственность ИИ требует новых рамок регулирования и культуры «safety-by-design».

Общий тон - осторожный оптимизм. Суммарное давление конкуренции, капитала и открытых знаний делает вероятность негативных сценариев неизбежной, но авторы верят, что взаимное сдерживание и быстрое распространение лучших практик сыграют роль «ядерного сдерживания» для ИИ-рисков. «Джина уже не загнать обратно в бутылку — значит, нужно научиться жить с ним».
Ну из интересных фактов:
- Рост поискового трафика: ChatGPT вышел на 365 млрд запросов в год всего за 2 года — Google потребовалось 11 лет для той же отметки.
- Молниеносная глобализация: уже к третьему году 90 % мобильных пользователей ChatGPT находятся за пределами Северной Америки; интернету понадобилось 23 года, чтобы достичь такого же рубежа.
- Взрывной рост аудитории: еженедельная база ChatGPT превысила 800 млн человек за 17 месяцев — восьмикратный прирост с момента запуска.
- Взрыв данных для обучения: объёмы обучающих корпусов языковых моделей росли в среднем на 260 % в год последние 15 лет.
- Скачок вычислений: за тот же период затраты на тренировочные вычисления увеличивались в среднем на 360 % ежегодно.
- «Халявные» вычисления за счёт алгоритмов: улучшения алгоритмов дали эквивалент +200 % «бесплатной» вычислительной мощности в год.
- Гонка суперкомпьютеров: производительность топ-AI-кластеров росла на 150 % ежегодно с 2019 года.
- Тонна новых моделей: число крупных моделей (>10²³ FLOP) прибавляло 167 % в год — с единиц до сотни за семь лет.
- AI-перегрев CapEx: «большая шестёрка» США нарастила капитальные траты на 63 % за год, до 212 млрд $.
- Армия разработчиков NVIDIA: сообщество выросло до 6 млн (+6 раз за семь лет), показывая, как быстро «железо» превращается в экосистему.
- AI уже похож на человек: в Turing-тесте 73 % участников приняли ответы GPT-4.5 за человеческие.
- Голосовой бум ElevenLabs: всего за два года пользователи сгенерировали «1000 лет» аудио; решения компании применяются более чем в 60 % Fortune 500.
- Медтех-экспресс: число одобренных FDA AI-устройств подскочило до 223 к 2023 году против единиц десять лет назад.
- AI ускоряет фарму: платформы Insilico и Cradle сокращают путь до доклинических испытаний на 30-80 %, переводя месяцы и годы в недели.
- Рынок труда переворачивается: вакансии с AI-навыками в США +448 % с 2018 г., тогда как обычные IT-позиции -9 %.
- Беспилотные такси в городе: Waymo заняло 27 % выручки ride-hailing в Сан-Франциско всего за 20 месяцев.
- Роботы-«мастерская мира»: Китай каждый год ставит больше промышленных роботов, чем США и остальной мир вместе взятые.
- Облачная подпитка AI: доходы ИТ-гигантов росли в среднем на 37 % ежегодно десятилетие подряд, финансируя новый виток ИИ-инфраструктуры.
- Фотореализм за два года: Midjourney от грубой графики v1 (февраль 2022) до почти фотокачества v7 (апрель 2025) всего за 26 месяцев.
- Патентное цунами: после выхода ChatGPT в 2022 г. число «компьютерных» патентов в США выросло на 6000 за один год - рекорд за все шесть десятилетий статистики.
Всё как у людей 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
При этом интересно, что после выхода Claude 4 как-то вообще мало было восторженных отзывов и писаний кипятком. И видимо неспроста.
На арене и соннет, и опус где-то на 4-7 месте, но да, все еще сильны в веб-разработке и длинном контексте, и - что интересно - креативных текстах. По реальным бенчмаркам - на уровне DeepSeek, чуть лучше GPT-4.1. Ну-у... Такое.
https://artificialanalysis.ai/models/claude-4-opus
https://artificialanalysis.ai/models/claude-3-7-sonnet-thinking/providers
О, Codex в ChatGPT теперь доступен и в Plus подписке, но с лимитами. Плюс дали возможность голосом говорить, чего там в вашей проге поправить надо, и доступ в интернет дали, чтобы обновлять вашу машинку, свежие библиотеки скачивать, инфу искать по вашей задаче. Ну и багов пофиксили.
https://help.openai.com/en/articles/11428266-codex-changelog
This media is not supported in your browser
VIEW IN TELEGRAM
Конкуренты ElevenLabs подтягиваются

Chatterbox от Resemble AI

> Обучен на 500 тысячах часов аудио
> В основе 500M LLaMa
> Эмоциональная речь
> Клонирование голоса по 5 секундам

Но только английский пока, но звучит клево вообще.

Превью - https://huggingface.co/spaces/ResembleAI/Chatterbox

Модели - https://huggingface.co/ResembleAI/chatterbox
AI Product | Igor Akimov
О, Codex в ChatGPT теперь доступен и в Plus подписке, но с лимитами. Плюс дали возможность голосом говорить, чего там в вашей проге поправить надо, и доступ в интернет дали, чтобы обновлять вашу машинку, свежие библиотеки скачивать, инфу искать по вашей задаче.…
Попробовал Codex на своем старом Swift проекте (может, допилю-так и выложу в стор). На Swift я писал до этого 10 лет назад, так что делал медленно и печально, а курсор мучил полными переделками.
Ну... Глобально мне понравилось! Там небольшой проект, правда, файлов 50, в целом каких-то фейлов было 2 на 15 запросов, которые можно было поправить в чате. А так. Всё аккуратно менял, зависимости уточнял, тесты переписывал, сохранял код стайл. И прикольно, что можно до 10 сразу агентов запускать. В общем, реально вайб кодинг для Энтерпрайза, рекомендую.

https://openai.com/codex/
Вышли свежие анонсы OpenAI, а там супер полезное для компаний.

UPD: я посмотрел видос, а не только в LinkedIn их пост и там огнищще! Можно попросить полазить по всем докам, лидам, хранилищам, почте и собрать отчёт на какую-то тему, свежие данные по продажам проанализировать и собрать в презентацию или там роадмап накидать, в том числе маякнув, что надо корпоративный шаблон использовать. Плюс MCP можно вообще кастомные делать и подключать! То есть ChatGPT по умолчанию может работать вообще со всеми текстами и данными внутри организации и делать любую офисную работу! Я даже не представляю, сколько времени это будет экономить компаниям!

Вот кратко анонсы:

* Deep Research теперь может выполнять поиск в GitHub, Google Docs, Gmail, Calendar, Microsoft SharePoint, Outlook, OneDrive, HubSpot, Dropbox, Box и других источниках, с учётом прав доступа и безопасного хранения.

* Вы можете подключить любой чат к Google Docs, SharePoint, Dropbox и Box.

* Админы могут добавить свои MCP для корпоративного аккаунта для любого софта!

* Режим записи звука в ChatGPT: захват, расшифровка и обобщение встреч прямо в ChatGPT app. Структурированный вывод и полная расшифровка с временными метками через приложение ChatGPT для Mac. Убили сотню стартапов снова.

* SSO для команды в ChatGPT

* Кредитное ценообразование для ChatGPT Enterprise (а вскоре и для Team), чтобы каждый мог получить доступ к функциям, даже при выходе за лимиты.

Коннекторы Deep Research доступны для пользователей Plus и Pro с сегодняшнего дня, а поддержка MCP будет доступна для пользователей Pro.

https://openai.com/business/updates-to-chatgpt-business-plans-livestream-june-2025/
Cursor обновился до 1.0 версии (хотя конечно по анонсу просто очередной следующий релиз, но видимо инвесторы настояли)

Добавили авто-поиск багов в ваших коммитах, с возможностью сразу исправить.
"Память", как ChatGPT, которая автоматически создает правила работы из ваших уточнений и правок
Возможность подключения MCP-серверов в один клик
Поддержку Jupyter
Background Agents, возможность запускать агентов, которые анализируют и правят код в удаленной среде (было в превью раньше)
И агент для Slack (тоже был в превью)

Видос краткий: https://youtu.be/s5kX-UHgMLo
Обзор: https://www.cursor.com/en/changelog/1-0
О, знакомый поделился гайдом, как саммари голосовых заметок делать бесплатно с Make.com.
Всегда люблю читать его большие обзоры. До сих пор с теплотой вспоминаю выбор транскрибатора для встреч (мне кажется, это уже маст-хев для любой компании).

Я бы сказал, что в эпоху вайб-кодинга no-code немножко менее актуален, но make и n8n оперативно подтянулись и помогают разные первоначальные автоматизации c AI сделать гораздо быстрее. Ну, а после голосовых заметок можно настроить, чтобы тот же самодельный AI-инструмент разгребал завалы из ссылок и видосов, которые мы сохраняем, чтобы "посмотреть потом" (и в итоге не смотрим никогда).

Продолжение этого гайда автор обещает в канале AIDEA.
Одна из любимых LLM Gemini-2.5 Pro обновилась. Стала лучше в кодинге и математике, лучше следует инструкциям. По многим бенчам обходит o3. Пока в превью в ai studio, скоро будет в API
https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🎙️ ElevenLabs представила Eleven v3 (alpha) — самую выразительную модель озвучки текста

Самая выразительная модель озвучки текста на сегодня.
Поддерживает 70+ языков, многоголосовой режим, и теперь — аудио-теги, которые задают интонацию, эмоции и даже паузы в речи.

🧠 Новая архитектура лучше понимает текст и контекст, создавая естественные, "живые" аудио.

🗣️ Что умеет Eleven v3:
• Генерировать реалистичный диалог с несколькими голосами
• Считывать эмоциональные переходы
• Реагировать на контекст и менять тон в процессе речи

🎛 МОдель уаправляется через теги:
- Эмоции: [sad], [angry], [happily]
- Подача: [whispers], [shouts]
- Реакции: [laughs], [sighs], [clears throat]

📡 Публичный API обещают выкатить очень скоро.

⚠️ Это превью версия — может требовать точной настройки промптов. Но результат действительно впечатляет

💸 Весь июньдают 80% скидки на генерацию
🟡 Промпт-гайд для v3: https://elevenlabs.io/docs/best-practices/prompting/eleven-v3
Eleven v3.
🟡 Eleven v3: https://elevenlabs.io/v3

@ai_machinelearning_big_data

#ElevenLabs #tts
Please open Telegram to view this post
VIEW IN TELEGRAM