Forwarded from Точки над ИИ
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Ну Veo 3, конечно, сумасшедший.
И пускай это все черри-пик видео, но все равно ощущается как генеративный видео-контент не сбавляет темп. Красота.
И пускай это все черри-пик видео, но все равно ощущается как генеративный видео-контент не сбавляет темп. Красота.
Хах, OpenAI покупает Джони Айва с его компанией впридачу за 6.5 миллиардов. Надо бы пересмотреть фильм Her.
https://www.bloomberg.com/news/articles/2025-05-21/openai-to-buy-apple-veteran-jony-ive-s-ai-device-startup-in-6-5-billion-deal
https://www.bloomberg.com/news/articles/2025-05-21/openai-to-buy-apple-veteran-jony-ive-s-ai-device-startup-in-6-5-billion-deal
Bloomberg.com
OpenAI to Buy AI Device Startup From Apple Veteran Jony Ive in $6.5 Billion Deal
OpenAI will acquire the AI device startup co-founded by Apple Inc. veteran Jony Ive in a nearly $6.5 billion all-stock deal, joining forces with the legendary designer to make a push into hardware.
Ну что же, есть время разобрать анонсы от OpenAI для разработчиков, там есть много интересного
https://openai.com/index/new-tools-and-features-in-the-responses-api/
- Поддержка удалённых MCP серверов: по сути убили все конкурирующие стандарты, потому что поддержка Anthropic + Microsoft + OpenAI + комьюнити означает доминирующее положение и все большую поддержку. Можете теперь в API вызывать другие приложения через их MCP (по сути API для ллм-ок) и конечно же добавить в свой продукт MCP.
- Генерация изображений: выделили для генерации новую модель gpt-image-1, которая может выдавать потоковую генерацию картинок (постепенно улучшать качество, как в ChatGPT) и позволять редактировать сгенерированные изображения дальше (просто ID картинки прошлой запихнуть в промпт)
- Code Interpreter - наконец-то: и в Responses теперь есть написание и вызов кода, а также можно "думать по картинке", например, какую-то часть "увеличить", чтобы детальнее рассмотреть или перевернуть.
- Улучшенный поиск по файлам: тоже маст-хев для RAG, а теперь добавили возможность поиска сразу по нескольким хранилищам данных и расширенные фильтры поиска, но пока только на уровне файлов, то есть можно например указать дату файла и при поиске, например, данных по прошлой неделе, фильтровать для RAG только файлы с датой на прошлой неделе.
- Фоновый режим, как в Deep Search: не нужно постоянно опрашивать результат и бояться таймаута, можно запулить и потом получить вебхук о том, что результат готов.
- Сводки рассуждений (Reasoning Summaries): естественные описания внутренней логики модели для удобства отладки и аудита. Так же как в ChatGPT работают. Можно внутри использовать, либо прям пользователям показывать.
- Шифрование элементов рассуждений: возможность повторного использования контекста без его хранения на серверах OpenAI, улучшая безопасность и производительность. Но только для тех, у кого персональный контракт и Zero Retention.
Все функции доступны в моделях GPT-4o, GPT-4.1, а также в линейке моделей OpenAI o-series (o1, o3, o3-mini, o4-mini).
https://openai.com/index/new-tools-and-features-in-the-responses-api/
- Поддержка удалённых MCP серверов: по сути убили все конкурирующие стандарты, потому что поддержка Anthropic + Microsoft + OpenAI + комьюнити означает доминирующее положение и все большую поддержку. Можете теперь в API вызывать другие приложения через их MCP (по сути API для ллм-ок) и конечно же добавить в свой продукт MCP.
- Генерация изображений: выделили для генерации новую модель gpt-image-1, которая может выдавать потоковую генерацию картинок (постепенно улучшать качество, как в ChatGPT) и позволять редактировать сгенерированные изображения дальше (просто ID картинки прошлой запихнуть в промпт)
- Code Interpreter - наконец-то: и в Responses теперь есть написание и вызов кода, а также можно "думать по картинке", например, какую-то часть "увеличить", чтобы детальнее рассмотреть или перевернуть.
- Улучшенный поиск по файлам: тоже маст-хев для RAG, а теперь добавили возможность поиска сразу по нескольким хранилищам данных и расширенные фильтры поиска, но пока только на уровне файлов, то есть можно например указать дату файла и при поиске, например, данных по прошлой неделе, фильтровать для RAG только файлы с датой на прошлой неделе.
- Фоновый режим, как в Deep Search: не нужно постоянно опрашивать результат и бояться таймаута, можно запулить и потом получить вебхук о том, что результат готов.
- Сводки рассуждений (Reasoning Summaries): естественные описания внутренней логики модели для удобства отладки и аудита. Так же как в ChatGPT работают. Можно внутри использовать, либо прям пользователям показывать.
- Шифрование элементов рассуждений: возможность повторного использования контекста без его хранения на серверах OpenAI, улучшая безопасность и производительность. Но только для тех, у кого персональный контракт и Zero Retention.
Все функции доступны в моделях GPT-4o, GPT-4.1, а также в линейке моделей OpenAI o-series (o1, o3, o3-mini, o4-mini).
Openai
New tools and features in the Responses API
New features in the Responses API: Remote MCP, image gen, Code Interpreter, and more. Powering faster, smarter agents with GPT-4o & o-series models, plus new features for reliability and efficiency.
Forwarded from Machinelearning
Anthropic представили: Claude Opus 4 и Claude Sonnet 4 — новое поколение ИИ
Компания Anthropic выпустила обновлённую линейку моделей — Claude Opus 4 и Claude Sonnet 4. Это шаг вперёд в разработке ИИ, ориентированного на глубокое мышление и эффективное программирование.
Claude Opus 4 — самая мощная ИИ-модель от Anthropic на сегодняшний день и, по их утверждению, лучший в мире инструмент для программирования. Он способен работать часами над сложными задачами, что делает его идеальным для автономных агентов и масштабных проектов.
Claude Sonnet 4 стал серьёзным обновлением по сравнению с предыдущей версией (Sonnet 3.7). Он демонстрирует улучшенные способности в кодинге и логике, а также предоставляет пользователю больше контроля над тем, как быстро модель генерирует код.
Обе модели являются гибридными — умеют переключаться между быстрыми откликами и глубокой проработкой задач, а также комбинируют рассуждение с инструментами вроде веб-поиска для повышения качества ответов.
Они показывают лучшие результаты на SWE-bench Verified — эталонном тесте, оценивающем способность ИИ решать реальные программные проблемы.
Anthropic позиционирует Claude Opus 4 как платформу для новых возможностей, а Sonnet 4 — как инструмент для более точной и контролируемой работы.
Компания Anthropic выпустила обновлённую линейку моделей — Claude Opus 4 и Claude Sonnet 4. Это шаг вперёд в разработке ИИ, ориентированного на глубокое мышление и эффективное программирование.
Claude Opus 4 — самая мощная ИИ-модель от Anthropic на сегодняшний день и, по их утверждению, лучший в мире инструмент для программирования. Он способен работать часами над сложными задачами, что делает его идеальным для автономных агентов и масштабных проектов.
Claude Sonnet 4 стал серьёзным обновлением по сравнению с предыдущей версией (Sonnet 3.7). Он демонстрирует улучшенные способности в кодинге и логике, а также предоставляет пользователю больше контроля над тем, как быстро модель генерирует код.
Обе модели являются гибридными — умеют переключаться между быстрыми откликами и глубокой проработкой задач, а также комбинируют рассуждение с инструментами вроде веб-поиска для повышения качества ответов.
Они показывают лучшие результаты на SWE-bench Verified — эталонном тесте, оценивающем способность ИИ решать реальные программные проблемы.
Anthropic позиционирует Claude Opus 4 как платформу для новых возможностей, а Sonnet 4 — как инструмент для более точной и контролируемой работы.
Кстати, кто следил за этим с прошлого Google I/O, Google движется-таки к релизу Gemini-модели внутри Chrome, то есть можно будет на веб-сайте вызывать локальную небольшую модель и делать все, что нужно, офлайн, безопасно, без использования сторонних библиотек. Мне кажется это просто нереальные возможности открывает, в частности в корпоративном и закрытом окружении.
Вот подробности
https://developer.chrome.com/docs/ai
Пока зарелизили только определение языка, но в сентябре будет и все остальное, причем как на странице, так и в экстеншенах: writer для написания текстов, rewriter, translator, summarizer и в целом кастомный prompt. Сейчас можно присоединиться к preview.
Но конечно нужен Win 10+, Mac OS 13+, 4 GB GPU, 22GB на жестком диске (жестоко)
Вот подробности
https://developer.chrome.com/docs/ai
Пока зарелизили только определение языка, но в сентябре будет и все остальное, причем как на странице, так и в экстеншенах: writer для написания текстов, rewriter, translator, summarizer и в целом кастомный prompt. Сейчас можно присоединиться к preview.
Но конечно нужен Win 10+, Mac OS 13+, 4 GB GPU, 22GB на жестком диске (жестоко)
Media is too big
VIEW IN TELEGRAM
Andrew Ng представил новый Agentic Document Extraction, OCR с помощью LLM-ок.
Обещают правильно понимать формат, в том числе инвойсы всякие, и не галлюцинировать. Но конечно координаты найденных частей текста не выдают. Интересно потестить с классическим Document Understanding от Microsoft и Google.
На страницу сейчас уходит 8 секунд. Можно потестить на va.landing.ai
Обещают правильно понимать формат, в том числе инвойсы всякие, и не галлюцинировать. Но конечно координаты найденных частей текста не выдают. Интересно потестить с классическим Document Understanding от Microsoft и Google.
На страницу сейчас уходит 8 секунд. Можно потестить на va.landing.ai
Вау, grok будет встроен в Telegram. Дуров договорился с Маском. И что мне нравится, что это прям нормальные живые сценарии, а не просто "давайте просто приткнем куда-нибудь AI". Убили сотню стартапов )
- Ask Grok в поиске
- Разделение вопросов к Гроку на группы автоматические
- Переписывание/модификация текста сообщения
- Саммаризация группового чата
- Саммаризация загруженных документов и ссылок
- Модерация каналов
- Агенты для бизнеса
- Факт-чекинг
- Ну и генерация стикеров и аватаров, блин, как же без нее )
- Ask Grok в поиске
- Разделение вопросов к Гроку на группы автоматические
- Переписывание/модификация текста сообщения
- Саммаризация группового чата
- Саммаризация загруженных документов и ссылок
- Модерация каналов
- Агенты для бизнеса
- Факт-чекинг
- Ну и генерация стикеров и аватаров, блин, как же без нее )
Forwarded from Pavel Durov (Paul Du Rove)
Media is too big
VIEW IN TELEGRAM
Telegram + Grok =
Please open Telegram to view this post
VIEW IN TELEGRAM
Дошли руки по мультиспикерной генерации голоса от гугла - https://aistudio.google.com/generate-speech
Можно расписывать параметры каждого голоса, в целом сценарии, выбирать из 30 голосов и 20 языков. Работает круто по эмоциям, хотя с ударениями иногда косячит, ну долго, конечно. Речь выше генерил больше 30 секунд, так что для рекламы и озвучки скорее, а не для живой речи и ассистентов. Для них есть другое - Live API, с голосами попроще.
Можно расписывать параметры каждого голоса, в целом сценарии, выбирать из 30 голосов и 20 языков. Работает круто по эмоциям, хотя с ударениями иногда косячит, ну долго, конечно. Речь выше генерил больше 30 секунд, так что для рекламы и озвучки скорее, а не для живой речи и ассистентов. Для них есть другое - Live API, с голосами попроще.