AI Product | Igor Akimov
3.86K subscribers
665 photos
103 videos
44 files
665 links
Download Telegram
Sequoia выпустила интересный обзор новых возможностей для стартапов в связи с выходом o1, "рассуждающей модели", и LLM нового типа в целом
https://www.sequoiacap.com/article/generative-ais-act-o1/

Вот что для стартапов полезного пишут:
Большие игроки, такие как OpenAI, Google и Meta, заняли прочные позиции на уровне моделей и инфраструктуры. Конкурировать на этом уровне для стартапов сложно, но возможности есть на других уровнях.

Приложения — ключевая возможность для стартапов. Несмотря на мощь моделей и инфраструктуры крупных компаний, они не успевают внедрять ИИ на уровне конечных продуктов. Здесь появляются стартапы, которые могут создавать более специфичные и удобные решения для реальных задач. В прошлом приложения казались просто «обертками» для моделей, но теперь они развиваются в полноценные когнитивные архитектуры.

Фокус на агентные приложения. Новая волна стартапов нацелена на разработку приложений, которые не просто предоставляют интерфейс к ИИ, а выполняют конкретные задачи. Такие агентные приложения, как Harvey (ИИ-юрист) или XBOW (ИИ-пентестер), превращают трудозатратные процессы в автоматизированные решения.

Новая бизнес-модель — продажа результата (не software-as-a-service, а service-as-a-software, а это триллионный рынок!). Если раньше компании продавали ПО по подписке, то стартапы с агентными ИИ-приложениями могут продавать не ПО, а результат выполнения задач (например, оплата за решение запроса клиента, как у Sierra).

Таким образом, для стартапов сейчас открыты значительные возможности на уровне приложений и решений для реального мира, в отличие от работы на уровне базовых моделей или инфраструктуры, где доминируют большие компании.
И туда же к теме агентов - Writer (лингвисты, которые с 2020 c LLM работают, писал уже о них), теперь взялись за агентов и выпустили новую Palmyra X 004. Цель - уметь разбирать запрос на подзадачи и обращаться к корпоративным базам и софту, чтобы ее решать, то есть по сути заменить всех офисных сотрудников, хах )

Соответственно в новой модели прокачали вызов функций, RAG, цитирование и рассуждение, добавили генератор кода с деплоем, расширили контекст до 128к токенов и планируют выпустить точное соблюдение формата скоро (аналог structured output от OpenAI).

Вот чего пишут (продакты, берегитесь)
Допустим, менеджер по продукту определяет приоритетность запросов на новые функции в Zendesk на основе отзывов клиентов. Теперь Palmyra может автоматизировать этот процесс, интерпретируя запрос и решая, какие инструменты нужно использовать для ответа пользователю. Определив нужные инструменты, она может интерпретировать запрос и составить последовательность действий, которые необходимо предпринять. Затем она собирает отзывы из Zendesk, прогоняет их через инструмент определения приоритетов и создает тикет в Jira - все автоматически.

Скоро и посты за меня будет писать )

https://writer.com/blog/actions-with-palmyra-x-004/
Meta выпустила интересное исследование про "рассуждающие LLM" - Thinking LLMs: General Instruction Following with Thought Generation"
Исследуют новый метод тренировки, позволяющий генерировать "мысли" перед ответом - TPO (Thought Preference Optimization), что-то среднее между chain-of-though и мультиагентами. Мысли в итоге скрыты от пользователя.

Принцип работы:
- Модель генерирует идеи до того, как выдаст финальный ответ.
- Генерируются несколько мыслей и ответов, после чего модель-судья оценивает, какие ответы лучше.
- Модель обучается на основе предпочтений, выбирая наилучший и худший ответ, чтобы оптимизировать свои внутренние процессы.

Результаты:
Модели, обученные по TPO, показали улучшение не только в задачах, требующих рассуждений, но и в более креативных сферах, таких как маркетинг и написание текстов.
На тестах AlpacaEval и Arena-Hard такие модели демонстрировали лучшую производительность, достигая 52,5% успешных решений.

Статья тут - https://arxiv.org/abs/2410.10630
И Apple тоже показала интересный прогресс в их исследовании агентных LLM на мобилке - CAMPHOR, тюненая версия Phi-3.5

https://machinelearning.apple.com/research/collaborative-agents

В CAMPHOR используется иерархическая архитектура, в которой агент рассуждений высокого порядка декомпозирует сложные задачи и координирует работу экспертных агентов, отвечающих за поиск персонального контекста, взаимодействие с инструментами и динамическую генерацию планов. Реализовав совместное использование параметров агентами и используя сжатие оперативной информации, мы значительно сократили размер модели, время ожидания и объем используемой памяти. Эксперименты показывают, что агенты SLM, прошедшие тонкую настройку, не только превосходят закрытые LLM по скорости выполнения задачи F1 на 35 %, но и устраняют необходимость в связи с серверным устройством, повышая при этом уровень конфиденциальности.
Мне-таки дали визу в Великобританию (как обычно у UK, практически в последний момент), так что попадаю на OpenAI Dev Day 30 октября. Буду постить (если разрешат), все, что будет интересное.

Сейчас вот прислали список партнерских сессий (полная программа все еще недоступна):

Parloa: Maik Hummel, Principal AI Evangelist
Building agents with OpenAI o1 and GPT-4o for automation, quality assurance, and human-in-the-loop solutions.

VEED: Sabba Keynejad, CEO and Co-Founder
Increasing text-to-video capabilities to democratize video creation from any medium.

Sana AI: Gerald Parloiu, AI Lead and Viktor Qvarfordt, Head of Engineering
Architecting RAG for enterprise-scale data retrieval and processing while optimizing performance through rigorous evals.

Tortus: Nina Montaña Brown, Research Engineer and Sal Khalil, Founding Engineer
Evaluating LLMs by developing an in-house data labeling platform and production monitoring systems for real-time safety assurance.

Cosine: Alistair Pullen, CEO and Co-Founder
Fine-tuning a SOTA AI developer powered by GPT-4o with insights into the model training process, data quality, and evals.

Klarna: Echo Zhao, Lead AI Engineer
Scaling prompt engineering for enterprise use cases using leading LLM application development principles.

Stainless: Robert Craigie, Software Engineer
Building APIs and SDKs from OpenAI, Stripe, and Twilio, and exploring future possibilities with new interfaces and modalities.
Согласен )
О, JetBrains выпустила свою LLM для разработчиков, специально для code completion, - Mellum
Работает с Java, Kotlin, Python, Go, and PHP

По результатам тестов скорость на треть выше, подтверждение пользователем саджеста в 40% случаев, отказов от саджеста в 3-4 раза меньше и в 2 раза больше предложений по автодополнению, чем было раньше,

Ну и естественно это своя LLM, а значит никакой паранойи у бизнеса. Хотя никаких данных о том, что за модель, на чем тренили и тем более весов, - нет.

https://blog.jetbrains.com/blog/2024/10/22/introducing-mellum-jetbrains-new-llm-built-for-developers/
Новый Sonnet и Haiku от Anthropic!
https://www.anthropic.com/news/3-5-models-and-computer-use
Claude 3.5 Sonnet сильно прокачали по всем фронтам, особенно в кодинге (где даже o1 обошли). А маленький Claude 3.5 Haiku теперь на уровне прошлой большой модели, в том числе в кодинге и размышлениях, при этом стоит копейки.

Плюс сделали фичу Computer Use - https://www.anthropic.com/news/developing-computer-use
Теперь можно попросить модель "использовать компьютер за вас": двигать мышкой, кликать, вводить. Пока только для разработчиков и работает нестабильно, но выглядит круто. RPA-провайдеры нервно закурили

Смотрите крутой видос - https://youtu.be/ODaHJzOyVCQ
Shanghai AI Lab парсила книжки и статьи для обучения своей LLM-ки и попутно сделала библиотеку распознавания PDF, включая модуль сложной разметки - DocLayout-YOLO.

Демо тут https://huggingface.co/spaces/opendatalab/DocLayout-YOLO
Код - https://github.com/opendatalab/DocLayout-YOLO
Ресерч - https://arxiv.org/abs/2410.12628

Все это в итоге завернули в полную обработку PDF - https://github.com/opendatalab/PDF-Extract-Kit

А также в отдельный парсер PDF в Markdown - https://github.com/opendatalab/MinerU

Круто, что сообщество, причем скорее всего небольшими силами, так как университет, улучшает работу распознавалок документов, которыми занимаются десятки тысяч человек.
О, выложили видосы из митапа Wrike на Кипре про QA AI
1. Про AI для тестировщиков: от написания тестов до фикса багов
https://www.youtube.com/watch?v=ZIZCx_bDpIQ&ab_channel=Wrike%26WrikersCommunity
2. Про поисковую систему по вашему коду и базе знаний, которую можно сделать за 1 день
https://youtu.be/EFIH0wSYtms
3. Про 40000 тестов на Selenium, которые не мешают, а помогают жить
https://youtu.be/Gz9Tvrc-330
Кстати Voice Advanced Mode запустили-таки в ЕС. Попробовал греческий переводить в режиме реального времени, но пока такое себе... Видимо риалтаймовые библиотеки очень урезанные.
AI Product | Igor Akimov
Мне-таки дали визу в Великобританию (как обычно у UK, практически в последний момент), так что попадаю на OpenAI Dev Day 30 октября. Буду постить (если разрешат), все, что будет интересное. Сейчас вот прислали список партнерских сессий (полная программа все…
Вот и более детальная программа. Будет AMA with Sama :)

Main Stage Sessions
10:00–Opening Session: Dive into the latest AI advancements including reasoning and Realtime API
10:45–Structured Outputs: Learn how to increase reliability with precise JSON schema adherence
11:45–Distillation: Optimize scalability by transferring intelligence from large models to smaller, cost-effective ones
13:45–Realtime API: Create natural voice interactions in applications by integrating speech and text processing
15:00–Cost & Latency: Scale AI applications by balancing accuracy, latency, and cost
16:00–Virtual AMA with Sam Altman: Hear from Sam as he answers questions live, moderated by Harry Stebbings, 20VC

Vault Stage Sessions
12:30–Parloa: Transforming Contact Centers with GPT-4o Multi-Agent Crews and Human-in-the-Loop
12:45–Dust: Unified Text-to-SQL for Datalakes, Spreadsheets, and CSVs
13:00–Cosine: Fine-Tuning a SOTA AI Developer
13:15–Klarna: Lessons Learned from Deploying & Scaling Assistants
14:45–Tortus: Clinical Safety Evaluation of LLMs
15:00–Sana AI: Architecting Multi-Talented General Agents
15:15–VEED: Insights on Scaling a Custom Text-to-Video GPT
15:30–Stainless: Designing delightful APIs and SDKs
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic тоже запустил возможность в интерфейсе при ответе писать и запускать код, и на ее основе выпустил инструмент анализа данных - https://www.anthropic.com/news/analysis-tool

Вот что пишут:
- Маркетологи могут загружать данные о взаимодействии с клиентами на всех этапах воронки продаж, и Claude выявит возможности для повышения конверсий.
- Продавцы могут загружать глобальные данные о продажах, и Claude предоставит анализ производительности по странам.
- Продакт-менеджеры могут загружать данные о вовлеченности пользователей, и Claude поможет спланировать спринты и определить приоритеты разработки.
- Инженеры могут загружать журналы производительности серверов, и Claude определит области для оптимизации использования ресурсов.
- Финансовые команды могут загружать ежемесячные финансовые данные, и Claude создаст финансовую панель для отображения ключевых тенденций и поддержки принятия решений.
[EN] State of AI Apps 2024 Report.pdf
10.1 MB
Взял у мобильщиков.

SensorTower выпустили отчет о росте AI-приложений:
1. Выручка AI-приложений выросла на 51% в 2024 г. по сравнению с 2023 г.
2. Среднее время использования AI-чатов с персонажами – 1,5 часа в день.
3. Основные категории роста:
• Фото/видео редакторы (Remini $5M/мес, Photoroom $4M)
• Чаты на базе ChatGPT (ChatOn $5M, Chat&Ask $2M)
• Распознавание объектов (Picturethis $12M/мес, Plantin $2M)
• AI для учебы (Brainly $1M, Question AI $0.7M)
• AI-персонажи (Poly AI $0.7M, Replika $0.6M)
• AI-музыка (Donna AI $1M, AI Song Creator $0.4M)
• Text-to-audio (Speechify $3M, Otter $0.9M)