AI Product | Igor Akimov
3.82K subscribers
657 photos
101 videos
44 files
655 links
Download Telegram
Европейцы продолжают пытаться в свои LLM - выпустили Teuken-7B-Base & Teuken-7B-Instruct, натренированные на 24 европейских языках (русского нет).

Все вроде как правильно сделали, но результаты оказались хуже базовой старенькой Meta Llama-3.1.

https://arxiv.org/abs/2410.03730
А вот GPT-4.1-Mini выглядит прям на удивление хорошо для типичных задач. Стоит $0.40 за вход и $1.60 за выход по сравнению с GPT-4o с ценами в $2.50 и $10.00, при даже лучшем качестве. То есть затраты можно снизить в 6 раз при лучшем качестве и скорости.
This media is not supported in your browser
VIEW IN TELEGRAM
Ого, Грок быстро догоняет
https://vc.ru/ai/1929777-grok-studio-rezhim-redaktirovaniya

В Grok появился режим редактирования — аналог Canvas в ChatGPT. Поле открывается автоматически, когда пользователь просит написать текст, код, отчёт или создать игру.
Для работы с документами добавили возможность форматировать заголовки, текст и списки.

В окне Preview можно увидеть, как будет выглядеть анимация, инфографика или игра, код для которой пишет чат-бот. Есть поддержка HTML, Python, C++, JavaScript, TypeScript и Bash-скриптов.

В Grok также добавили поддержку Google Drive. Теперь чат-боту можно прислать не только файл с компьютера, но и документ, электронную таблицу или презентацию с «Диска». Для этого придётся подключить аккаунт Google и дать Grok доступ к файлам.
Forwarded from эйай ньюз
o3 и o4-mini от OpenAI релизятся

Главная фишка — новые модели натренировали использовать тулы прямо во время ризонинга. То есть они могут не только искать в интернете, но и исполнять код и пользоваться другими тулами. Обе модели мультимодальные и могут использовать это во время размышлений.

По бенчам — разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. Но оно и не удивительно — на тренировку o3 ушло более чем в 10x больше компьюта чем у o1.

Модели начинают раскатывать уже в ChatGPT для Pro и Plus планов, остальным через неделю. Какие лимиты — не сказали, так что скорее всего будут как у прошлых моделей. Для Pro подписчиков обещают и o3-pro, но релизнут её немного позже.

В API релизят тоже сегодня, но пока что без тулюза. Цена за o3 — $10/$40 за миллион токенов, это на треть дешевле чем o1 и в 15 (!) раз дешевле o1-pro. При этом o1 для решения задачи нужно больше токенов чем o3, поэтому o1 собираются полностью заменить на o3. А вот o3-mini стоит столько же сколько o4-mini — $1.1/$4.4 за миллион токенов, но интеллекта на доллар там тоже больше, из-за чего и o3-mini полностью заменят на o4-mini.

@ai_newz
Подписавшись на супер-полезную рассылку для продакт-менеджеров от Lenny Rachitsky на год можно получить десяток годовых подписок на сервисы, вау!
Подписка стоит 200 баксов, одними только вайб-код-инструментами можно окупить
https://www.lennysnewsletter.com/p/an-unbelievable-offer-now-get-one

Вот что входит:
Bolt: One year of the Pro plan ($240 value)
Cursor: One year of the Pro plan ($240 value)
Lovable: One year of the Starter plan ($240 value)
Replit: One year of the Core plan ($360 value)
v0: One year of the Premium plan ($240 value)
Granola: One year of the Business plan for you and your team—up to 100 seats ($10,000+ value)
Notion: One year of the Plus plan (plus unlimited AI) for you and your team—up to 10 seats ($2,000+ value)
Linear: One year of the Business plan—two seats ($336 value)
Superhuman: One year of the Starter plan ($300 value)
Perplexity: One year of the Pro plan ($240 value)
Forwarded from Machinelearning
🔥 Google только что выпустил Gemini 2.5 Flash

Ключевые особенности:

В 25 раз дешевле, чем Claude Sonnet 3.7 и Grok-3 и в 5–10 раз дешевле, чем Gemini‑2.5‑Pro.

Новая функция динамического «размышления» над сложными задачами.

Настраиваемый «бюджет мышления» (вы сами решаете, сколько токенов выделить на этап «размышлений»)

Делит #2, место на Арене вместе с GPT 4.5 Preview и Grok‑3.

🏆 Делит первое место в задачах Hard Prompts, Coding и Longer Query
💠 Входит в топ‑4 по всем категориям

Gemini Flash 2.5 — это лучшее соотношение цена/производительность. Google снова на высоте.

Бегом тестить

@ai_machinelearning_big_data

#Gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Точки над ИИ
This media is not supported in your browser
VIEW IN TELEGRAM
Canva показала гору новых AI-фич

Ребята из Canva решили, что мало просто делать красивые картинки и презентации. На своей конференции Create 2025 они запустили AI на полную.

Вот 5 основных фич, которые цепляют больше всего:

1. Canva Code
Теперь превращать идеи в готовые дизайны можно без кода. Просто опиши, что тебе надо, и AI всё сделает сам.

2. Magic Formulas и Magic Insights
AI-функции внутри Canva Sheets, которые сами проанализируют данные и подскажут, что дальше с ними делать.

3. Промпт голосом, текстом или картинкой
Скажи, напиши или покажи, что хочешь получить, и Canva за секунды соберёт презентацию, графику или документ.

4. Кнопка перевода и локализации
Всё, что делаешь, сразу переводится на разные языки. Пригодится тем, кто работает с контентом на зарубежную аудиторию.

5. Magic Charts
Превращают любые данные в стильные, интерактивные графики за один клик.

Ознакомиться можно тут.

#design@TochkiNadAI
Netflix рассказывает, как сделал одну большую модель для персональных рекомендаций
https://netflixtechblog.com/foundation-model-for-personalized-recommendation-1a0bd8e02d39

Раньше в Netflix использовались десятки отдельных моделей:
одна рекомендовала контент на главной,
другая — при поиске,
третья — для уведомлений и e-mail.

Это было сложно масштабировать и поддерживать. Поэтому они решили создать одну универсальную модель, которую можно использовать везде.
Transformer, обученный на миллиардных объемах событий:
просмотры,
скроллы,
клики,
добавления в список,
рейтинги.

Модель предсказывает "следующее действие" пользователя, учитывая весь контекст (устройство, время, сессию и др.).

Используется multi-task learning: одна модель решает сразу множество задач (например, "покажи на главной" и "выведи в поиске").

Входные данные: токены, представляющие действия, контент и контекст

Обучение идет на огромных логах взаимодействий. Используется self-supervised learning: модель учится предсказывать недостающие или следующие токены (например, какой фильм человек посмотрит).

Модель уже используется:
в рекомендациях на главной странице,
в системе "похожие фильмы",
в ранжировании результатов поиска.

Netflix называет это шагом к Unified Personalization Model — будущему, где весь UX будет персонализирован одной системой.
Anthropic вчера опубликовал, а сегодня на хабре перевели отличный гайд по использованию агентов в программировании, чтобы не ругаться на тупой chatgpt или Claude, когда он вам пол-проекта перепишет :)
Например там про то, чтобы план составить сначала:
https://habr.com/ru/articles/902422/
Все основные графики и резюме из AI Index от Стэнфорда
Forwarded from Sergey Tsyptsyn ️️
Перевод AI Index 2025 от Стэнфордского университета

Лидеры венчура. США - $109,1 млрд (в 12 раз больше, чем Китай с $9,3 млрд, и в 24 раз больше, чем Великобритания с $4,5 млрд).

Выигрыши. 49% отметили экономию в сервисных операциях, 71% - рост выручки в маркетинге и продажах.

Робототехника. В Китае установлено >276 300 промышленных роботов (51,1% мирового рынка, 2023).

Готовность учителей. 81% считают, что основы ИИ нужно учить в школе, но менее половины уверены в готовности преподавать ML и LLM.

https://habr.com/ru/amp/publications/902602/
20250421_EDU_GenerativeAI_S2E1.pdf
16.2 MB
Интересное от Байрама Аннакова (создателя App in the Air, а теперь - AI-сервисов для отдела продаж) - что нового произошло в GenAI-мире с начала года:

За 18 месяцев «стоимость интеллекта» упала в 280 раз — продукты можно продавать «в минус», зная, что через квартал себестоимость снова просядет.
Модели дешевеют и умнеют:
- GPT-4.1-mini и Groq + Mixtral дают топ-качество по цене < 2 $/M токенов.
- Claude 3.7 объединил «быстрое» и «глубокое» мышление в одной сети.
- GPT-o3 научился сам выбирать инструменты (поиск, Python) прямо в reasoning.

«Чувства, мысли, действия»:
- Распознавание речи и картинок уже выше human-level, а цена всё ниже.
- Генерация: GPT-4o генерация лидирует по изображениям, Sora/Kling/Veo2 быстро подтягивают видео.
- Роботы учатся по тем же LLM-методам — Figure 01 и Tesla Bot уже на улице.
- 2025 объявлен «годом AI-агентов»: компании буду платить тысячи $/мес. за микросейлз- или митинг-ботов
- Google и OpenAI выкатили собственные Agent SDK — готовят почву для «магазинов агентов» и жёсткого vendor lock-in.

Что дальше. Две школы мысли:
 1. «AI 2027» — автоматический AI-research ускорит прогресс до уровня опасности, возможна национализация компаний разработчиков AI.
 2. «AI как электричество» — полное внедрение в бизнес займёт 30–40 лет.

Что ждать в ближайшие 3–6 месяцев: код-агенты в IDE, real-time дубляж голосом студийного качества и первый публичный Agent Store.

TL;DR: интеллект дешевеет, возможности растут, следующий виток — это массовое появление узкоспециализированных агентов и борьба за их экосистемы.

https://youtu.be/R5TYcdPrEnU.

Презентация в аттаче.
Картиночки от OpenAI теперь и в API - GPT-Image-1
https://platform.openai.com/docs/models/gpt-image-1

Входные токены стоят 5 баксов за миллион (на уровне больших моделей), а генерация картинки 1024х1024 - в зависимости от качества (хм): 1.1 цент, 4.2 или 16.7. Интересно сравнить разницу в качестве этих режимов трех, но в целом идущий на 2-3-4 местах в топах по качеству HiDream стоит 3 цента за фото, Recraft и Imagen 4 цента. Можно делать какой-нибудь претест-промптинг на low, а потом финальный результат фигачить на high, возможно так и будет выходить.
Воу, вот что конкуренция животворящая делает.
OpenAI накинул дип ресерчей в Plus подписку, теперь 25 в месяц, а не 10
Очередное подтверждение, что ваши первые пол-минуты выступления важнее всего остального. Теперь это даже ИИ понимает.
ИИ читает спикера за секунды, угадывая успех выступления по первым фразам.
Модели GPT и Gemini оценивают научный доклад уже после 15–60 слов — и попадают в точку.
До сих пор сверхвозможности больших языковых моделей мы видели в «текстовом океане» — когда нужно осмыслить миллиарды слов. Новая работа Michigan State University показала, что те же модели не менее точны в микромире: по первым двум-трем предложениям (≈ 1-5 % текста, меньше полуминуты речи) они с корреляцией 0,7 предсказывают, как доклад оценят живые эксперты.
Иными словами, ИИ выхватывает те самые сигналы, по которым мы подсознательно решаем: «слушать дальше или переключиться». Это приближает к эмпирической проверке популярного «7-second rule» Роджера Айлза (авторы уточняют: точное число секунд условно) - популярный постулат о публичных выступлениях, ораторском мастерстве и деловом общении:

«Слушатели (или собеседники) составляют первичное и часто стойкое мнение о спикере за первые семь секунд после его появления».


Эти семь секунд включают момент выхода на сцену, первые слова, мимику, контакт глаз, позу и темп голоса - т.е. касаются в основном невербальной коммуникации. Авторы новой работы перенесли этот подход на вербальную коммуникацию, опираясь прежде всего на классическую «тонко-ломтевую» (thin-slice) линию исследований, начатую в 1990-е Натали Амбади и Робертом Розенталем (их эксперименты показали, что по 30-секундным беззвучным отрывкам можно с высокой точностью предсказывать оценки преподавателей студентами).

С тех пор на основе “тонких срезов” вырос целый корпус работ. Например:
• «speed-dating»: по нескольким секундам общения оценивали перспективу отношений
• микроданные невербального поведения на собеседованиях
• сигналы эмоций через невербальные каналы
• восприятие харизмы только по голосу (и шире - по акустике речи)
• мгновенные решения о доверии и компетентности по выражению лица
• как впечатления о спикере влияют на восприятие самого контента
Всё это - фундамент доказательства, что крошечные отрывки поведения и речи несут достаточную информацию о навыках, эмоциях и чертах личности.

Но лишь революция ChatGPT позволила применить подобный подход в языково-текстовом микромире (где нет ни голоса, ни внешности, а есть только стенограмма).

Как это делали:
• 128 докладов,
• 2 модели GPT-4o-mini и Gemini 1.5
• срезы размером 1-75 % текста стенограмм
• оценки моделей сравнивали с 60 экспертами - людьми

Что из этого следует для нас?
1) Золотое правило «зацепи аудиторию в первую минуту» получило эмпирическое подтверждение: если первые фразы скучны, дальше уже поздно спасать ситуацию.
2) LLM открывают дорогу к молниеносной, практически бесплатной обратной связи для преподавателей, политиков, учёных и всех, кому важно говорить убедительно. Соединяя идеи «тонких срезов» и возможности ИИ, мы получаем масштабируемый, надёжный и валидный инструмент, который поможет прокачивать публичные выступления и доводить их восприятие аудиторией до максимума (в пределах харизмы спикера).
3) А уж какая лафа ожидается в деловом общении с использованием презентаций и иных публичных выступлений (для клиентов, партнеров, инвесторов …)!

Вангую: очень скоро к LLM-анализу «тонких срезов» стенограмм добавится анализ тонких срезов аудио и видео выступлений (т.е. мультимедийный синтез всех каналов вербальной и невербальной коммуникации).

И тогда ИИ станет незаменимым инструментом для политтехнологов, спичрайтеров и имиджмейкеров.

А уж из совсем крышесносных перспектив - преодоление несжимаемости эволюционного опыта Homo sapiens.

#ВовлечениеАудитории #ИнтеллектуальнаяПродуктивность #LLMvsHomo
О, ChatGPT обновили функционал запуска по расписанию и сделали подраздел Tasks, и теперь они запускаются на o3 или o4-mini https://help.openai.com/en/articles/10291617-scheduled-tasks-in-chatgpt