AI Product | Igor Akimov

Ну Veo 3, конечно, сумасшедший.

И пускай это все черри-пик видео, но все равно ощущается как генеративный видео-контент не сбавляет темп. Красота.

1.4K views17:59

Хах, OpenAI покупает Джони Айва с его компанией впридачу за 6.5 миллиардов. Надо бы пересмотреть фильм Her.
https://www.bloomberg.com/news/articles/2025-05-21/openai-to-buy-apple-veteran-jony-ive-s-ai-device-startup-in-6-5-billion-deal

Bloomberg.com

OpenAI to Buy AI Device Startup From Apple Veteran Jony Ive in $6.5 Billion Deal

OpenAI will acquire the AI device startup co-founded by Apple Inc. veteran Jony Ive in a nearly $6.5 billion all-stock deal, joining forces with the legendary designer to make a push into hardware.

1.8K viewsedited 18:32

AI Product | Igor Akimov

Ну что же, есть время разобрать анонсы от OpenAI для разработчиков, там есть много интересного
https://openai.com/index/new-tools-and-features-in-the-responses-api/

- Поддержка удалённых MCP серверов: по сути убили все конкурирующие стандарты, потому что поддержка Anthropic + Microsoft + OpenAI + комьюнити означает доминирующее положение и все большую поддержку. Можете теперь в API вызывать другие приложения через их MCP (по сути API для ллм-ок) и конечно же добавить в свой продукт MCP.

- Генерация изображений: выделили для генерации новую модель gpt-image-1, которая может выдавать потоковую генерацию картинок (постепенно улучшать качество, как в ChatGPT) и позволять редактировать сгенерированные изображения дальше (просто ID картинки прошлой запихнуть в промпт)

- Code Interpreter - наконец-то: и в Responses теперь есть написание и вызов кода, а также можно "думать по картинке", например, какую-то часть "увеличить", чтобы детальнее рассмотреть или перевернуть.

- Улучшенный поиск по файлам: тоже маст-хев для RAG, а теперь добавили возможность поиска сразу по нескольким хранилищам данных и расширенные фильтры поиска, но пока только на уровне файлов, то есть можно например указать дату файла и при поиске, например, данных по прошлой неделе, фильтровать для RAG только файлы с датой на прошлой неделе.

- Фоновый режим, как в Deep Search: не нужно постоянно опрашивать результат и бояться таймаута, можно запулить и потом получить вебхук о том, что результат готов.

- Сводки рассуждений (Reasoning Summaries): естественные описания внутренней логики модели для удобства отладки и аудита. Так же как в ChatGPT работают. Можно внутри использовать, либо прям пользователям показывать.

- Шифрование элементов рассуждений: возможность повторного использования контекста без его хранения на серверах OpenAI, улучшая безопасность и производительность. Но только для тех, у кого персональный контракт и Zero Retention.

Все функции доступны в моделях GPT-4o, GPT-4.1, а также в линейке моделей OpenAI o-series (o1, o3, o3-mini, o4-mini).

Openai

New tools and features in the Responses API

New features in the Responses API: Remote MCP, image gen, Code Interpreter, and more. Powering faster, smarter agents with GPT-4o & o-series models, plus new features for reliability and efficiency.

1.8K viewsedited 06:32

AI Product | Igor Akimov

Forwarded from Machinelearning

Anthropic представили: Claude Opus 4 и Claude Sonnet 4 — новое поколение ИИ

Компания Anthropic выпустила обновлённую линейку моделей — Claude Opus 4 и Claude Sonnet 4. Это шаг вперёд в разработке ИИ, ориентированного на глубокое мышление и эффективное программирование.

Claude Opus 4 — самая мощная ИИ-модель от Anthropic на сегодняшний день и, по их утверждению, лучший в мире инструмент для программирования. Он способен работать часами над сложными задачами, что делает его идеальным для автономных агентов и масштабных проектов.

Claude Sonnet 4 стал серьёзным обновлением по сравнению с предыдущей версией (Sonnet 3.7). Он демонстрирует улучшенные способности в кодинге и логике, а также предоставляет пользователю больше контроля над тем, как быстро модель генерирует код.

Обе модели являются гибридными — умеют переключаться между быстрыми откликами и глубокой проработкой задач, а также комбинируют рассуждение с инструментами вроде веб-поиска для повышения качества ответов.

Они показывают лучшие результаты на SWE-bench Verified — эталонном тесте, оценивающем способность ИИ решать реальные программные проблемы.

Anthropic позиционирует Claude Opus 4 как платформу для новых возможностей, а Sonnet 4 — как инструмент для более точной и контролируемой работы.

1.9K views16:52

AI Product | Igor Akimov

Кстати, кто следил за этим с прошлого Google I/O, Google движется-таки к релизу Gemini-модели внутри Chrome, то есть можно будет на веб-сайте вызывать локальную небольшую модель и делать все, что нужно, офлайн, безопасно, без использования сторонних библиотек. Мне кажется это просто нереальные возможности открывает, в частности в корпоративном и закрытом окружении.
Вот подробности
https://developer.chrome.com/docs/ai

Пока зарелизили только определение языка, но в сентябре будет и все остальное, причем как на странице, так и в экстеншенах: writer для написания текстов, rewriter, translator, summarizer и в целом кастомный prompt. Сейчас можно присоединиться к preview.
Но конечно нужен Win 10+, Mac OS 13+, 4 GB GPU, 22GB на жестком диске (жестоко)

1.6K viewsedited 16:05

AI Product | Igor Akimov

4:01

Media is too big

VIEW IN TELEGRAM

Andrew Ng представил новый Agentic Document Extraction, OCR с помощью LLM-ок.
Обещают правильно понимать формат, в том числе инвойсы всякие, и не галлюцинировать. Но конечно координаты найденных частей текста не выдают. Интересно потестить с классическим Document Understanding от Microsoft и Google.
На страницу сейчас уходит 8 секунд. Можно потестить на va.landing.ai

9.9K views15:28

AI Product | Igor Akimov

Вау, grok будет встроен в Telegram. Дуров договорился с Маском. И что мне нравится, что это прям нормальные живые сценарии, а не просто "давайте просто приткнем куда-нибудь AI". Убили сотню стартапов )
- Ask Grok в поиске
- Разделение вопросов к Гроку на группы автоматические
- Переписывание/модификация текста сообщения
- Саммаризация группового чата
- Саммаризация загруженных документов и ссылок
- Модерация каналов
- Агенты для бизнеса
- Факт-чекинг
- Ну и генерация стикеров и аватаров, блин, как же без нее )

1.5K viewsedited 12:50

AI Product | Igor Akimov

Forwarded from Pavel Durov (Paul Du Rove)

0:50

Media is too big

VIEW IN TELEGRAM

🔥 This summer, Telegram users will gain access to the best AI technology on the market. Elon Musk and I have agreed to a 1-year partnership to bring xAI’s chatbot Grok to our billion+ users and integrate it across all Telegram apps 🤝

💪 This also strengthens Telegram’s financial position: we will receive $300M in cash and equity from xAI, plus 50% of the revenue from xAI subscriptions sold via Telegram 💰

Telegram + Grok = ❤️

📈

🏆

Please open Telegram to view this post

VIEW IN TELEGRAM

1.5K views12:50

AI Product | Igor Akimov

Дошли руки по мультиспикерной генерации голоса от гугла - https://aistudio.google.com/generate-speech

Можно расписывать параметры каждого голоса, в целом сценарии, выбирать из 30 голосов и 20 языков. Работает круто по эмоциям, хотя с ударениями иногда косячит, ну долго, конечно. Речь выше генерил больше 30 секунд, так что для рекламы и озвучки скорее, а не для живой речи и ассистентов. Для них есть другое - Live API, с голосами попроще.

1.9K views14:24

AI Product | Igor Akimov

1.9K views14:24

AI Product | Igor Akimov

DeepSeek R1 вчера обновился и теперь вошел в топ-3 моделей, обогнав даже Gemini последний. И это опенсорс! Особен силен стал в кодинге, математике и логике

2.2K views14:38

About

Blog

Apps

Platform