Идеальный стартап
374 subscribers
80 photos
5 videos
1 file
50 links
Стартапы, нейронки и прочее.

По всем вопросам: @monsetrum
Download Telegram
АИ агенты в Amplitude

На прошлой неделе амплитуда заанонсила запуск аи агентов для аналитики.

Amplitude - сервис «все в одном» для трекинга метрик вашего приложения. Шаблоны, подключения данных, создание графиков - все там, чтобы следить за успехами вашего стартапа.

Наконец-то они решили интегрировать АИ и сделать «как курсор но для аналитики». Обещают постановку экспериментов на основе целей. Хотите улучшить конверсию в оплату? Попросите агента: он проанализирует ваши данные, выдвинет гипотезы как их улучшить и может внести даже кое-какие изменения в продукт. Понятно, что не особо большие, но быстрые итерации стартапов станут еще быстрее: эксперименты и гипотезы будут создаваться автоматически с помощью ИИ.

Ждем MCP для Амплитуда - Курсор? Чтобы один выдвигал гипотезы, смотрел на данные и предлагал изменения в продукт, а курсор все это имплементировал.

Короче, ИИ команда все ближе и ближе. Где ИИ агент дизайнер от фигмы?
🤩4
«Нейросети могут сделать нас глупее!»

Пару дней назад увидел новость с таким заголовком с референсом на исследование MIT. И действительно, MIT не так давно провело исследование с использование электроэнцефалограммы – прибора для измерения электрической активности мозга. Давайте посмотрим, что получилось. Вдаваться в детали особо не буду – пробегусь только по выводам, а если хотите оригинал, то 200 страниц научного языка тут.

54 участника исследования поделили на три группы:
-без внешних инструментов
-с использовнием поиска (без AI)
-с использованием AI (gpt-4o)

Все они писали ЭССЕ на одну из трех SAT тем в течении 4-х сессий. Во время написания, у них замеряли активность мозга и на основе этого делали выводы. И пришли вот к чему:

🧠 Память в минусе. Активность мозга, отвечающая за запоминание была существенно меньше, чем у группы без использования инструментов. С использованием поиска на 34%-48% меньше, а у AI группы до 55%
👁️‍🗨️ Режим «копировать–вставить». У поиск-группы активировались визуальные участки (им приходилось зрительно искать информацию в гугл), а AI-группы эта зона не активировалась – участники просто копировали ответ LLM.
✍️ Потеря авторства. При использовании внешних инструментов, так же уменьшилась активация зон, отвечающих за мониторинг ошибок и оценивания себя. В группе без использования внешних инструментов 17 из 18 участников обозначили полное авторство над написанным текстом, когда в других группах признание было лишь частичным.
📢 Подверженность внешнему мнению. AI-группа была подвержена влиянию самой LLM – у них было меньше уникальных идей и слов. Поиск-группа показала корреляцию с самыми популярными ключевыми словами для запроса по теме эссе.

Исследователи называют накопительный эффект снижения мозговой активности «ментальным долгом». В краткосрочной перспективе это ускоряет работу, но приводит к избеганию умственного напряжения, а в долгосрочной:

-к снижению способностей критического мышления
-повышенной уязвимости к манипуляциям
-сниженной креативности
👍21
Мне кажется, что такое исследование супер важно с точки зрения образования. Как в эпоху LLM и "дешевого" способа получения информации и решения задач, сделать так, чтобы креативность и критическое мышление людей сохранились?

Исследователи предлагают вводить сессии "Без внешних инструментов", чтобы стимулировать работу мозга и не полагаться на их решения все время. Будут ли это делать и соблюдать? Вопрос открытый

Еще интереснее будет наблюдать борьбу ИИ-лобби за повсеместное внедрение ИИ-систем для ускорения работы \ учебы и получения результатов сейчас. В общем, необычное время нас ждет
👍5
Ресурсы в космосе

Пару месяцев назад прочитал сборник "Я, робот" от Айзека Азимова. Первая работа рассказывает про роботов на Марсе. Тогда я в разговоре с друзьями сказал: "Маск делает Оптимусов (роботы тесла) для того, чтобы отправить их на Марс". Кому-то же нужно подготовить инфраструктуру для людей, когда они прилетят. И недавно он и сам это подтвердил.

Сегодня я задумался: насколько выгодно добывать сырье из ближайших к Земле объектов с целью отправки обратно? Вся космическая экономике строится как раз на идеи экспании и добычи ресурсов за пределами нашей планеты. Считать я это, конечно, сам не буду, но спросил o3-pro.

Самые потенциально выгодные ресурсы:

-Луна и He-3 для термоядерных реакторов. Цена сейчас приблизительно 20 млн$ за кг. Проблема в том, что рынок термоядерной энергии пока не сформирован, но в ближайшие десятилетия крайней занятная перспектива.
-Астероиды и Платина. 42 тыс.$/кг. В теории это может стать рентабельным, если улучшить технологии добычи и поставить это на массовый поток, но вместе с этим упадет и цена, если потребление не возрастет. Вопросительно.

В целом, большая часть добываемых ресурсов в ближайшие десятилетия будет окупаться только на местных добываемых рынках и смысла перевозить что-то на Землю, кроме особенно ценных ресурсов на подобии Гелиума нет. Конечно, стоит учитывать, что наши развед. данные ограничены и возможно, где-то есть астероидный Эльдорадо, но инвестиции в раскопки Земли выглядят пока что более надежно и целесообразно.

Интересно, будет ли новая "золотая" или платиновая лихорадка лет так через 30-40? Лучше уж продавать лопаты, или же дронов для добычи ископаемых.

Если интересна таблица, то вот
🤔1🤯1😱1
вот как радуется мой cursor агент успехам. совсем скоро мидлом уже станет
😁11
ICML 2025

Одна из крупнейших конференций по ИИ в мире. В этом году проходит в Ванкувере. Мою статью про генерацию фактов для гроккинга на нее приняли и мы презентуем там постер. Точнее не мы, а мой коллега из универа. Почему не я, если я главный автор?

Немецкая бюрократия. В марте (это 5!!! Месяцев назад) я потерял свой немецкий ВНЖ, без которого я не могу въехать в Шенген и моя любимая листо-бумажная страна до сих пор не может его восстановить. Обещают это сделать в августе, но я уже пропустил 3 конференции, которые хотел посетить.

Чтобы сильно не расстраиваться, поехал на юг серфить и знакомиться с классными людьми. Одним из них оказалась AI SEO из Siemens и она рассказала, как они оптимизируют свои сайты под ИИ. Напишу чуть позже.

В общем, кому еще больше повезло. Буду держать вас в курсе постеров на конференции с помощью телефонов моих коллег.

Волны, кстати, очень хорошие
8
Время нашего постера. Если вы на конференции, то можете подходить и задавать вопросы. Либо в комментах
4
Как проходит моя конференция
4
Open-source от OpenAI

Давно такого не было для text2text моделей. С GPT-3 еще в далеком 2020 году. Они все же это сделали и вот блог

Получается хорошая базовая модель для чата или простых функций, как классификация интенций. Для больших проектов можно завести свои gpu сервера и платить большим корпорациям меньше.

Ждем тестов на бенчах

-21 млрд и 117 млрд, используется одновременно 3.6 и 5.1
- MoE с выбором эксперта на уровне токена
-4 битное квантирование. Помещается на h100 с 80гб, а маленькая в 16гб
-использование инструментов и следование инструкциям
-есть рассуждения и можно выбрать уровень усилий
-128к контекст

Ссылка
👍2
благодаря созданию опен сурс скелета для последующих претрейнов, OpenAI потенциально собирает коммьюнити программистов и стартаперов вокруг себя, которые будут пользоваться этими открытыми моделями.

Так же, как это было с ламмой (земля ей пухом) и дип сиком. Обе эти модели довольно популярны и на слуху, поэтому и новой модели опен аи перепадет часть славы.

Вопрос, правда, зачем? У b2c клиентов опен аи находится и так в около монополии по сравнению с остальными. Скорее всего для b2b и как раз конкуренции с Claude в кодовых и других инструментах

P.s. Фото 2024, но разница скорее всего стала еще больше
Кстати, еще вспомнил про кейсы вроде медицины, лигала, биг теха и 99% стартапов в Европе.

Им всем нельзя ходить в апи, тк данные должны быть на собственных серверах. Сейчас некоторые используют приватные от Амазона, к примеру, но теперь могут напрямую хостить модели опен аи у себя.

А там, и сам OpenAI придумает SaaS решение для таких случаев
👍1
Реально получается под закрытые компании делали
👍1
Forwarded from Сиолошная
Полистал разные бенчмарки, выглядит так, что больше всего, помимо кодинг-агентов, выиграло здравоохранение — модель на 120B в HealthBench почти достигает уровня o3, даже на сложной выборке заданий.

Можно начинать делать онлайн-клинику с AI-докторами — вот тут писал, что все промпты с пилота в Кении опубликованы 👀

(правда GPT-OSS обучалась в основном на английских текстах, поэтому для других регионов придётся или тратиться на переводчик, или пытаться вытянуть качество самостоятельно)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1🤯1
Паттерны AI agentic систем

👨‍🦳 Двух-уровневая иерархия агентов

-Основной агент поддерживает диалог, имеет память и контекст, разговаривает с юзером и разбивает задачи. Проджект менеджер своего рода

-Сабагенты нет контекста, памяти. Просто выполняют одну заданную фунцию, например, анализ или суммаризатор.

Сабагенты должны быть своего рода функцией, которую вызываешь и ожидаешь от нее схожего ответа каждый раз. Таким образом его можно распараллелить, протестировать и отлавливать ошибки.

🪑 Коммуникация

Общение между агентами должно быть структурированым.

Каждая задача для сабагента от основного:

•Понятная цель (Найти весь фидбек упомянающий "медленную загрузку")
•Ограниченный контекст (последние 30 дней)
•Формат возвращаемого значения (json, поля)
•Ограниченния (максимум 100 результатов)

Каждый ответ от сабагента основному:

•Статус (готово, ошибка)
•Результат
•Метаданные
•Рекомендации (следующие задачи, предупреждения)

🤔 Специализация агентов

-По возможностям

Исследователи исследуют. Анализаторы работают с данными исследователей. Валидационные проверяют качество.

-По области применения

Юристы понимают право. Финансовые работают с числами. Технические с кодом.

-По модели

Быстрые gpt-5-mini для быстрого ответа. Думающие для сложных вычислений и логики.

🗯 Оркестрация (комбинация агентов)

-Последовательная

Выход предыдущего агента уходит следующему.
Agent 1-> Agent 2 -> Agent 3 -> Result

-MapReduce

Распределить между множеством агентов и объединить результат. Когда нужно обработать много данных.

┌→ Agent 1 ─┐
Input → Agent 2 → Reducer → Result
└→ Agent 3 ─┘


-Консенсусная

Несколько агентов решают одну и ту же задачу. Сравнивают результаты и принимают решение. Хорошо для критичных решений
┌→ Agent 1 ─┐
Task ─→ Agent 2 ─→ Voting/Merge → Result
└→ Agent 3 ─┘


-Иерархическая

Основной агент делегирует сабагентам, которые могут делегировать сабагентам. Использовать стоит редко, так как сложно отлаживать и искать ошибки.

Primary Agent
├─ Subagent A
│ ├─ Sub-subagent A1
│ └─ Sub-subagent A2
└─ Subagent B


Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1🙏1
Тестирование 💫AI приложенений💫

Топик большой и сложный. Часть дизайна AI \ ML System. В чем проблема? Когда мы меняем промпт, входные данные или что-либо другое, то хотим удостовериться, что у нас ничего не сломалось, а в идеале улучшилось. Если вы собираетесь работать над проектом больше двух или трех дней, то совсем скоро вам надоест запускать скрипт, вручную вводить 10 разных данных и смотреть результаты. Как же быть? На самом деле правила здесь схожие с тем, что у нас есть в обычном мире software development: юнит, интеграционные и другие тесты.

Гипотеза и метрики

Наша цель – улучшать систему, вводить новые функции и удешевлять производство. Поэтому перед каждым изменением промпта / температуры и других параметров модели формируем гипотезы и метрики. Это могут быть:

-Качество (accuracy, faithfulness, f1, любая другая)
-Стоимость (количество токенов)
-Задержка

Гипотеза может быть:

Уменьшить стоимость на 30%, не потеряв в основной метрике более 3%.

Модульность

Когда мы работаем с большой системой хочется сделать один большой тест всей системы. Это тоже важно, но в первую очередь мы должны рассматривать нашу сложную систему как множество подсистем, чтобы тестировать каждую функцию отдельно. Так проще локализовать баг и исправить его. Например если мы сначала суммаризируем новость, затем делаем анализ, а на основе анализа что-то еще, то у нас будет минимум три разных теста.

Тестируем вход, выход, количество потраченных токенов, вызов функций, задержка – на любом этапе может возникнуть проблема.

Датасеты

Не должен вас удивить, если скажу, что прежде всего нам нужны датасеты. Чем больше, тем лучше. Собираем все, что возможно: пограничные случаи, сложные вопросы, джейлбреки (если вам это важно). Необязательно с самого начала собирать датасет на 1000 всевозможных случаев. Куда проще сделать небольшой набросок, выдумать 10-20 примеров и затем в продакшене находить баги и добавлять эти случаи в набор данных.

Регресс-тесты и версии

Когда у нас есть golden-set для тестирования всех подсистем, смотрим на метрики каждого блока. Версионируем промпты, датасеты и модели – так будет легче найти источник проблемы и откатиться к работающей версии.

Работаем с недетерминизмом

LLM может выдавать разный ответ на один и тот же вопрос. Это происходит из-за ненулевой температуры, разных версий моделей, обновлении библиотек.

-Фиксируем seed (если работаем локально), снижаем температуру
-Делаем 3-5 прогонов и усредняем результаты. Не забываем смотреть на стандартное отклонение.

Как тестируем?

Structured Output – простые тесты. Смотрим на возвращаемые поля и проверяем, что обязательность типы и их значения находятся в адекватном значении. Возраст – int от 0 до 120 условно, Имя – строка.

LLM as Judge – как проверить, что модель действительно вернула логичный ответ? Использовать другую LLM!

Еще есть другие типы тестирования для RAG, Agentic и остальных видов систем, но об этом мб в следующий раз.

Онлайн тестирование

Работа с наборами данных называется оффлайн тестированием. Когда мы заливаем модель в прод, то есть возможность протестировать её в реальных условиях – это онлайн тестирование. Здесь можно посмотреть не только на метрики модели, но и реакцию пользователей на нее.

-Заводим A\B тест, смотрим на бизнес метрики: конверсию, ретеншн, время проведенное на сайте.

Полезные инструменты

OpenEval OpenSource реализация многих инструментов для тестирования. В том числе LLM as Judge – не нужно реализовывать это с нуля. Есть возможность тестирования RAG, tool calling, Agent systems и множество других.

Langsmith with UX – обертка над OpenEval с UX интерфейсом. Выглядит круто, кодить не нужно. Советую заценить.
👍1
Что для ИИ ценнее, чем сам ИИ? Данные

Если подумать, ИИ — это просто алгоритм оптимизации: он пытается решить поставленную задачу, оптимизируя функцию потерь. Для LLM это предсказание следующего токена, для роботов на основе обучения с подкреплением – успешно засунуть куб в квадратное отверстие. При этом, ИИ требует больше одной демонстрации с коробкой чтобы успешно справиться с задачей.

Сегодня мы упираемся в потолок данных. OpenAI, Claude, Grok — все эти компании уже спарсили весь интернет, открытые и закрытые наборы данных. Это заметно по недавнему релизу GPT-5: да, кое-где добавили технические фишечки и выжали ещё +5–10% точности. Но это не тот большой скачок, который был между 3 и 4, и проблема становится ещё очевиднее. Какое решение? Синтетические данные!

И это нужно не только для робототехники или дронов. Смоделированные пользователи, инструменты, рынки позволяют создавать, а не просто собирать ситуации и данные. К примеру, AlphaGO была натренирована с помощью симуляции игры двух нейросетей и они оптимизировались на потенциально всех возможных партиях в игре, что позволило в итоге превзойти человека.

Недавние достижения в области игровых движков, создаваемых ИИ (например, Matrix Game), потенциально могут применяться не только в играх, но и является прочной базой для ИИ симуляций для роботехники. Ну и напоследок, вот что мы должны ждать от подобных движков:

Fidelity (правдоподобие): насколько синтетика статистически и поведенчески похожа на реальность

Coverage (покрытие хвостов): редкие/опасные/дорогие кейсы

Controllability (управляемость): можно целенаправленно варьировать сложность/объекты/условия

Diversity (разнообразие): достаточно ли в каждом сегменте данных
This media is not supported in your browser
VIEW IN TELEGRAM