AI Product | Igor Akimov
4.21K subscribers
701 photos
125 videos
46 files
709 links
Download Telegram
Ну что же, есть время разобрать анонсы от OpenAI для разработчиков, там есть много интересного
https://openai.com/index/new-tools-and-features-in-the-responses-api/

- Поддержка удалённых MCP серверов: по сути убили все конкурирующие стандарты, потому что поддержка Anthropic + Microsoft + OpenAI + комьюнити означает доминирующее положение и все большую поддержку. Можете теперь в API вызывать другие приложения через их MCP (по сути API для ллм-ок) и конечно же добавить в свой продукт MCP.

- Генерация изображений: выделили для генерации новую модель gpt-image-1, которая может выдавать потоковую генерацию картинок (постепенно улучшать качество, как в ChatGPT) и позволять редактировать сгенерированные изображения дальше (просто ID картинки прошлой запихнуть в промпт)

- Code Interpreter - наконец-то: и в Responses теперь есть написание и вызов кода, а также можно "думать по картинке", например, какую-то часть "увеличить", чтобы детальнее рассмотреть или перевернуть.

- Улучшенный поиск по файлам: тоже маст-хев для RAG, а теперь добавили возможность поиска сразу по нескольким хранилищам данных и расширенные фильтры поиска, но пока только на уровне файлов, то есть можно например указать дату файла и при поиске, например, данных по прошлой неделе, фильтровать для RAG только файлы с датой на прошлой неделе.

- Фоновый режим, как в Deep Search: не нужно постоянно опрашивать результат и бояться таймаута, можно запулить и потом получить вебхук о том, что результат готов.

- Сводки рассуждений (Reasoning Summaries): естественные описания внутренней логики модели для удобства отладки и аудита. Так же как в ChatGPT работают. Можно внутри использовать, либо прям пользователям показывать.

- Шифрование элементов рассуждений: возможность повторного использования контекста без его хранения на серверах OpenAI, улучшая безопасность и производительность. Но только для тех, у кого персональный контракт и Zero Retention.

Все функции доступны в моделях GPT-4o, GPT-4.1, а также в линейке моделей OpenAI o-series (o1, o3, o3-mini, o4-mini).
Forwarded from Machinelearning
Anthropic представили: Claude Opus 4 и Claude Sonnet 4 — новое поколение ИИ

Компания Anthropic выпустила обновлённую линейку моделей — Claude Opus 4 и Claude Sonnet 4. Это шаг вперёд в разработке ИИ, ориентированного на глубокое мышление и эффективное программирование.

Claude Opus 4 — самая мощная ИИ-модель от Anthropic на сегодняшний день и, по их утверждению, лучший в мире инструмент для программирования. Он способен работать часами над сложными задачами, что делает его идеальным для автономных агентов и масштабных проектов.

Claude Sonnet 4 стал серьёзным обновлением по сравнению с предыдущей версией (Sonnet 3.7). Он демонстрирует улучшенные способности в кодинге и логике, а также предоставляет пользователю больше контроля над тем, как быстро модель генерирует код.

Обе модели являются гибридными — умеют переключаться между быстрыми откликами и глубокой проработкой задач, а также комбинируют рассуждение с инструментами вроде веб-поиска для повышения качества ответов.

Они показывают лучшие результаты на SWE-bench Verified — эталонном тесте, оценивающем способность ИИ решать реальные программные проблемы.

Anthropic позиционирует Claude Opus 4 как платформу для новых возможностей, а Sonnet 4 — как инструмент для более точной и контролируемой работы.
Кстати, кто следил за этим с прошлого Google I/O, Google движется-таки к релизу Gemini-модели внутри Chrome, то есть можно будет на веб-сайте вызывать локальную небольшую модель и делать все, что нужно, офлайн, безопасно, без использования сторонних библиотек. Мне кажется это просто нереальные возможности открывает, в частности в корпоративном и закрытом окружении.
Вот подробности
https://developer.chrome.com/docs/ai

Пока зарелизили только определение языка, но в сентябре будет и все остальное, причем как на странице, так и в экстеншенах: writer для написания текстов, rewriter, translator, summarizer и в целом кастомный prompt. Сейчас можно присоединиться к preview.
Но конечно нужен Win 10+, Mac OS 13+, 4 GB GPU, 22GB на жестком диске (жестоко)
Media is too big
VIEW IN TELEGRAM
Andrew Ng представил новый Agentic Document Extraction, OCR с помощью LLM-ок.
Обещают правильно понимать формат, в том числе инвойсы всякие, и не галлюцинировать. Но конечно координаты найденных частей текста не выдают. Интересно потестить с классическим Document Understanding от Microsoft и Google.
На страницу сейчас уходит 8 секунд. Можно потестить на va.landing.ai
Вау, grok будет встроен в Telegram. Дуров договорился с Маском. И что мне нравится, что это прям нормальные живые сценарии, а не просто "давайте просто приткнем куда-нибудь AI". Убили сотню стартапов )
- Ask Grok в поиске
- Разделение вопросов к Гроку на группы автоматические
- Переписывание/модификация текста сообщения
- Саммаризация группового чата
- Саммаризация загруженных документов и ссылок
- Модерация каналов
- Агенты для бизнеса
- Факт-чекинг
- Ну и генерация стикеров и аватаров, блин, как же без нее )
Forwarded from Pavel Durov (Paul Du Rove)
Media is too big
VIEW IN TELEGRAM
🔥 This summer, Telegram users will gain access to the best AI technology on the market. Elon Musk and I have agreed to a 1-year partnership to bring xAI’s chatbot Grok to our billion+ users and integrate it across all Telegram apps 🤝

💪 This also strengthens Telegram’s financial position: we will receive $300M in cash and equity from xAI, plus 50% of the revenue from xAI subscriptions sold via Telegram 💰

Telegram + Grok = ❤️📈🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
Дошли руки по мультиспикерной генерации голоса от гугла - https://aistudio.google.com/generate-speech

Можно расписывать параметры каждого голоса, в целом сценарии, выбирать из 30 голосов и 20 языков. Работает круто по эмоциям, хотя с ударениями иногда косячит, ну долго, конечно. Речь выше генерил больше 30 секунд, так что для рекламы и озвучки скорее, а не для живой речи и ассистентов. Для них есть другое - Live API, с голосами попроще.
DeepSeek R1 вчера обновился и теперь вошел в топ-3 моделей, обогнав даже Gemini последний. И это опенсорс! Особен силен стал в кодинге, математике и логике