AI Product | Igor Akimov
4.05K subscribers
691 photos
121 videos
46 files
695 links
Download Telegram
Воу, вот что конкуренция животворящая делает.
OpenAI накинул дип ресерчей в Plus подписку, теперь 25 в месяц, а не 10
Очередное подтверждение, что ваши первые пол-минуты выступления важнее всего остального. Теперь это даже ИИ понимает.
ИИ читает спикера за секунды, угадывая успех выступления по первым фразам.
Модели GPT и Gemini оценивают научный доклад уже после 15–60 слов — и попадают в точку.
До сих пор сверхвозможности больших языковых моделей мы видели в «текстовом океане» — когда нужно осмыслить миллиарды слов. Новая работа Michigan State University показала, что те же модели не менее точны в микромире: по первым двум-трем предложениям (≈ 1-5 % текста, меньше полуминуты речи) они с корреляцией 0,7 предсказывают, как доклад оценят живые эксперты.
Иными словами, ИИ выхватывает те самые сигналы, по которым мы подсознательно решаем: «слушать дальше или переключиться». Это приближает к эмпирической проверке популярного «7-second rule» Роджера Айлза (авторы уточняют: точное число секунд условно) - популярный постулат о публичных выступлениях, ораторском мастерстве и деловом общении:

«Слушатели (или собеседники) составляют первичное и часто стойкое мнение о спикере за первые семь секунд после его появления».


Эти семь секунд включают момент выхода на сцену, первые слова, мимику, контакт глаз, позу и темп голоса - т.е. касаются в основном невербальной коммуникации. Авторы новой работы перенесли этот подход на вербальную коммуникацию, опираясь прежде всего на классическую «тонко-ломтевую» (thin-slice) линию исследований, начатую в 1990-е Натали Амбади и Робертом Розенталем (их эксперименты показали, что по 30-секундным беззвучным отрывкам можно с высокой точностью предсказывать оценки преподавателей студентами).

С тех пор на основе “тонких срезов” вырос целый корпус работ. Например:
• «speed-dating»: по нескольким секундам общения оценивали перспективу отношений
• микроданные невербального поведения на собеседованиях
• сигналы эмоций через невербальные каналы
• восприятие харизмы только по голосу (и шире - по акустике речи)
• мгновенные решения о доверии и компетентности по выражению лица
• как впечатления о спикере влияют на восприятие самого контента
Всё это - фундамент доказательства, что крошечные отрывки поведения и речи несут достаточную информацию о навыках, эмоциях и чертах личности.

Но лишь революция ChatGPT позволила применить подобный подход в языково-текстовом микромире (где нет ни голоса, ни внешности, а есть только стенограмма).

Как это делали:
• 128 докладов,
• 2 модели GPT-4o-mini и Gemini 1.5
• срезы размером 1-75 % текста стенограмм
• оценки моделей сравнивали с 60 экспертами - людьми

Что из этого следует для нас?
1) Золотое правило «зацепи аудиторию в первую минуту» получило эмпирическое подтверждение: если первые фразы скучны, дальше уже поздно спасать ситуацию.
2) LLM открывают дорогу к молниеносной, практически бесплатной обратной связи для преподавателей, политиков, учёных и всех, кому важно говорить убедительно. Соединяя идеи «тонких срезов» и возможности ИИ, мы получаем масштабируемый, надёжный и валидный инструмент, который поможет прокачивать публичные выступления и доводить их восприятие аудиторией до максимума (в пределах харизмы спикера).
3) А уж какая лафа ожидается в деловом общении с использованием презентаций и иных публичных выступлений (для клиентов, партнеров, инвесторов …)!

Вангую: очень скоро к LLM-анализу «тонких срезов» стенограмм добавится анализ тонких срезов аудио и видео выступлений (т.е. мультимедийный синтез всех каналов вербальной и невербальной коммуникации).

И тогда ИИ станет незаменимым инструментом для политтехнологов, спичрайтеров и имиджмейкеров.

А уж из совсем крышесносных перспектив - преодоление несжимаемости эволюционного опыта Homo sapiens.

#ВовлечениеАудитории #ИнтеллектуальнаяПродуктивность #LLMvsHomo
О, ChatGPT обновили функционал запуска по расписанию и сделали подраздел Tasks, и теперь они запускаются на o3 или o4-mini https://help.openai.com/en/articles/10291617-scheduled-tasks-in-chatgpt
Знакомые запустили опенсорсный MCP коннектор у базам данным. https://github.com/centralmind/gateway
Позволяет подключать ее ко всяким курсорам или продуктам и "чатиться" с вашими данными.

Вот что пишут:
Автоматическая генерация API — создание API на основе схемы таблицы и выборочных данных с помощью LLM

🗄️ Поддержка структурированных баз данных — PostgreSQL, MySQL, ClickHouse, Snowflake, MSSQL, BigQuery, Oracle Database, SQLite, ElasticSearch

🌍 Поддержка множества протоколов — предоставление API в формате REST или MCP Server, включая режим SSE

📜 Документация по API — автоматическая генерация документации Swagger и спецификации OpenAPI 3.1.0

🔒 Защита PII — внедрение плагина на основе регулярных выражений или Microsoft Presidio для маскировки персональных данных

Гибкая конфигурация — легко расширяемая через YAML-конфигурацию и систему плагинов

🐳 Варианты развёртывания — запуск в виде бинарного файла или Docker-контейнера, готовые Helm-чарты

🤖 Поддержка множества AI-провайдеров — OpenAI, Anthropic, Amazon Bedrock, Google Gemini и Google VertexAI

📦 Локальное и корпоративное размещение — поддержка самостоятельного размещения LLM через настраиваемые конечные точки и модели

🔑 Безопасность на уровне строк (RLS) — детальный контроль доступа к данным с использованием Lua-скриптов

🔐 Опции аутентификации — встроенная поддержка API-ключей и OAuth

👀 Комплексный мониторинг — интеграция с OpenTelemetry (OTel) для отслеживания запросов и ведения журналов аудита

🏎️ Оптимизация производительности — реализация стратегий кэширования на основе времени и LRU (Least Recently Used)
Новые топовые модели от китайцев - Qwen3. От 0.6B параметров для телефонов до 32B параметров для серверных видюх, в том числе 2 из группы экспертов (MoE), то есть весит 30B, но запускается 3B параметров при расчете, что может мощную модель запускать даже на обычных видюхах. И есть ещё 235B-22B для серверов.
Поддерживает гибридный режим работы: и сразу ответ, и размышление.
Сносит по бенчмаркам все, что есть опенсорсное, от gemma и llama до deepseek.

Facebook на их сегодняшней презентации LlamaCon будет тяжело...

https://habr.com/ru/news/905314/
А OpenAI идёт в консьюмерские продукты и поиск, будет теперь больше информации показать о товарах найденных и всякие автокомплиты, как в Гугле, в чате показывать. https://techcrunch.com/2025/04/28/openai-upgrades-chatgpt-search-with-shopping-features/
This media is not supported in your browser
VIEW IN TELEGRAM
Meta тоже хочет больше ваших данных, делает отдельную приложеньку для AI https://vc.ru/ai/1956238-meta-vypustila-prilozhenie-s-chat-botom-lama-4
Forwarded from эйай ньюз
На Llama Con показали официальное API Llama

Сразу на запуске будет доступен неплохой базовый набор фич — мультимодальные API, tool calling, structured outputs. Всё совместимо с API OpenAI, но при желании можно использовать и специальные SDK, доступные для Python и TypeScript. В придачу к этому обещают скоро запустить инференс на железе от Cerebras и Groq.

Есть и полноценные тулы для файнтюна моделей, причём не только тулзы для тюна, но и для оценки моделей. Но главная фишка — возможность скачивать свои затюненные модели, что убирает вендорлок и позволяет легко мигрировать между провайдерами.

API будет доступно в превью уже сегодня. На старте будет четыре модели — Llama 4 Scout и Maverick и Llama 3.3 8B и 70B.

@ai_newz
Понравился подход к Gemini 2.5 Pro, когда нужные изменения находятся в тексте (коде) и заменяются, а не переписывается весь кусок или блок. Все изменения становятся нормально читаемыми и отслеживаемыми.
Вот как можно попросить сделать.

../assets/https://lnkd.in/eX96vTNn
<<<<<<< SEARCH
OLD CONTENT
=======
NEW CONTENT
>>>>>>> REPLACE


Формат редактирования «diff-fenced» просит LLM указать правки файла в виде серии блоков поиска/замены с указанием пути к файлу.
Пример тут: https://github.com/philschmid/gemini-samples/blob/main/examples/gemini-file-editing.ipynb
В Claude завезли интеграции. Можно из чата действия в нужных системах проводить. Например, в Jira тикеты двигать
https://youtu.be/c_9pLTnWIPg?si=4NsJbcLeWU-N6o8-

Пока доступно десяток: Atlassian’s Jira and Confluence, Zapier, Cloudflare, Intercom (MCP server), Asana, Square, Sentry, PayPal, Linear, and Plaid.
Давно не писал про генерацию музыки, а там ведь тоже все фигачат. И для корпоративной музыки, рекламы, всяких заставок в видео, поздравлений это уже давно маст-хев.
This media is not supported in your browser
VIEW IN TELEGRAM
Suno V4.5

Попробовавшие пищат от качества.

Вокал стал живым, от шёпота до громких эмоций, добавили новых жанров. Следование промпту.
Мелодии интереснее, а инструменты звучат как настоящие.
Продолжительность трека до 8 минут за одну генерацию.

Только для платных подписанов
Кстати, знакомый проект, которому помогаю с технологиями, ищет Conversational AI Engineer на фул-тайм https://hh.ru/vacancy/120042005

Нужен опыт в LLM/RAG, Python/NodeJS и голосе (ASR, TTS), чтобы быстро въехать и масштабировать проект. Полная удаленка, нормальное руководство.
Если сами готовы или знаете кого-то - откликайтесь на hh.ru или присылайте резюме.
И пока в аэропорту (лечу на неделю на родину DeepSeek) и есть время скину статью, что давно была в загажниках, наконец разобрал. Месяц прошел, уже "устарело".

Про перевод с помощью LLM. И конечно от моих любимых Intento.
https://inten.to/blog/generative-ai-for-translation-in-2025/

LLM-ки на графиках зеленые, традиционные переводники - синие. Они спрятаны, но грубо говоря везде самые сильные - Deepl и Google Translate.
Ну и как бы вот.

GPT-4.5 и o1 пока в топе по переводу, часто превосходя всех классических переводчиков, при этом если брать какой-нибудь 4o (думаю теперь уже 4.1), то качество будет отличное, а стоимость в десятки раз ниже классических движков. И пока LLM отстают только в скорости.

Но! Если это специализированная доменная область, типа юриспруденция или медицина, то LLM-ки путаются и теряют контекст, видимо нужно дообучать или промпт тщательно расписывать.
И последняя “на выходные”, из незаслуженно обделенного вниманием другими каналами. Microsoft продолжает радовать своими маленькими опенсорсными модельками и выпустила 2 дня назад Phi-4-reasoning, Phi-4-reasoning-plus (дообучена, чтобы еще более дольше и лучше размышлять), обе на 14B параметров, и Phi-4-mini-reasoning на 3.6 млрд. (на смартфонах даже работать может).
Специально тренировали на цепочках размышлений от O3-mini, и в итоге даже обошла по математическим и логическим бенчмаркам в 48 раз более крупный DeepSeek-R1 и приблизилась к o1-mini и o3-mini, при этом работает супер-быстро и ее можно дообучить под ваши задачи. Короче, ваша собственная рассуждающая модель, супер-сильная в логике и математике, бесплатно без смс. А Microsoft их будет использовать в Windows и в смартфонных приложеньках.

Лежат тут: https://aka.ms/phi4-mini-reasoning/hf
Подробнее тут: https://azure.microsoft.com/en-us/blog/one-year-of-phi-small-language-models-making-big-leaps-in-ai/