Вайб-ЛЛМинг! Hugging Face сделали AI агента, который сам обучает LLM модели
Теперь хватит минимальных навыков работы с кодом, чтобы обучить свою LLM.
Работает все чисто на промптах с минимальной подготовкой среды:
- Вы даёте агенту задачу дообучить модель на датасете: можно указать свой датасет или позволить ему найти подходящий самому.
Пример от HF. Вот таким промптом дается задача агенту:
- Агент подбирает железо для обучения исходя из размера модели и проверяет датасет.
В данном примере он подберет t4-small (наименьшая достаточная конфигурация, чтобы дообучить эту модель).
- Обучение запускается на облачных GPU от Hugging Face. Перед запуском агент покажет конфигурацию (GPU, ожидаемое время обучения, стоимость, репозиторий где будет сохранена обученная модель).
- Агент стартует обучение и делится дашбордом с прогрессом в реальном времени через Trackio.
- Чекпоинты отправляются в Hub (репозиторий моделей).
Как они так красиво все автоматизировали?
Hugging Face на текущий момент, пожалуй, крупнейшая международная платформа, которая предоставляет все сразу в одном месте:
- железо для обучение
- удобная платформа и библиотеки
- самая большая библиотека опенсорс моделей
- самая большая библиотека опенсорс датасетов.
И на этот фундамент они добавили Hugging Face Skills — суть Agent Context Protocol (ACP). На практике эти "скиллы" — это папки, в которых собраны инструкции, скрипты и ресурсы для использования ИИ-агентом под конкретный кейс. В каждой такой папке есть файл “SKILL.md” с YAML-фронтматтером (имя и описание) и далее текст с инструкциями, которым кодовый агент следует, пока этот скилл активен. И вот сделали такой скилл для обучения LLM моделей на платформе и мощностях HF.
На текущий момент Hugging Face скиллы совместимы с Claude Code, OpenAI Codex, Gemini CLI. И продолжают расширять совместимость.
😎 Почему это важно?
Проблема LLM моделей в том, что они либо знают "всё", но при этом слишком жирные и дорогие для on-premise. Либо они маленькие и не всегда подходят для узко специфических задач.
Решается эта проблема дообучением/файнтюнингом маленьких LLM-ок на конкретных датасетах под конкретные задачи.
И вот раньше делать это могли только спецы с глубоким пониманием матчасти и навыками в AI. Но теперь Hugging Face сильно ослабляет эти ограничения!
Теперь хватит минимальных навыков, которые можно освоить за вечер! Единственный нюанс: конкретно этот агент работает только с платным аккаунтом HF (тк использует платный запуск джобов). Но это не важно, тк это все равно существенно дешевле человеко-часов любого AI разработчика!
No code будущее все ближе👀
Заместители
Теперь хватит минимальных навыков работы с кодом, чтобы обучить свою LLM.
Работает все чисто на промптах с минимальной подготовкой среды:
- Вы даёте агенту задачу дообучить модель на датасете: можно указать свой датасет или позволить ему найти подходящий самому.
Пример от HF. Вот таким промптом дается задача агенту:
Fine-tune Qwen3-0.6B on the open-r1/codeforces-cots dataset for instruction following.
- Агент подбирает железо для обучения исходя из размера модели и проверяет датасет.
В данном примере он подберет t4-small (наименьшая достаточная конфигурация, чтобы дообучить эту модель).
- Обучение запускается на облачных GPU от Hugging Face. Перед запуском агент покажет конфигурацию (GPU, ожидаемое время обучения, стоимость, репозиторий где будет сохранена обученная модель).
- Агент стартует обучение и делится дашбордом с прогрессом в реальном времени через Trackio.
- Чекпоинты отправляются в Hub (репозиторий моделей).
Как они так красиво все автоматизировали?
Hugging Face на текущий момент, пожалуй, крупнейшая международная платформа, которая предоставляет все сразу в одном месте:
- железо для обучение
- удобная платформа и библиотеки
- самая большая библиотека опенсорс моделей
- самая большая библиотека опенсорс датасетов.
И на этот фундамент они добавили Hugging Face Skills — суть Agent Context Protocol (ACP). На практике эти "скиллы" — это папки, в которых собраны инструкции, скрипты и ресурсы для использования ИИ-агентом под конкретный кейс. В каждой такой папке есть файл “SKILL.md” с YAML-фронтматтером (имя и описание) и далее текст с инструкциями, которым кодовый агент следует, пока этот скилл активен. И вот сделали такой скилл для обучения LLM моделей на платформе и мощностях HF.
На текущий момент Hugging Face скиллы совместимы с Claude Code, OpenAI Codex, Gemini CLI. И продолжают расширять совместимость.
Проблема LLM моделей в том, что они либо знают "всё", но при этом слишком жирные и дорогие для on-premise. Либо они маленькие и не всегда подходят для узко специфических задач.
Решается эта проблема дообучением/файнтюнингом маленьких LLM-ок на конкретных датасетах под конкретные задачи.
И вот раньше делать это могли только спецы с глубоким пониманием матчасти и навыками в AI. Но теперь Hugging Face сильно ослабляет эти ограничения!
Теперь хватит минимальных навыков, которые можно освоить за вечер! Единственный нюанс: конкретно этот агент работает только с платным аккаунтом HF (тк использует платный запуск джобов). Но это не важно, тк это все равно существенно дешевле человеко-часов любого AI разработчика!
No code будущее все ближе
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥17 3❤2 2
The state of enterprise AI: что узнали в OpenAI про 1 миллион своих корпоративных клиентов
OpenAI опубликовал новый отчет об использовании их моделей в Enterprise секторе. Он основан на:
- данных, агрегированных по энтерпрайз юзерам ChatGPT (более 1 миллиона компаний)
- опросе 9000 сотрудников из 100 компаний, проведенном OpenAI
Самые яркие результаты:
1. Энтерпрайз использование растет. Кол-во сообщений ЧатуГПТ увеличилось в 8 раз за прошедший год. А потребление токенов в 320 раз! Причина — активное использование ризонинга.
2. Энтерпрайз юзеры оценивают экономию времени в 40-60 минут в день. А это, кстати, 1/8 рабочего времени — проведите мысленный эксперимент, посчитайте: (ваша ЗП)/8 = столько денег экономит компания, если вы используете LLM для работы. Тут конечно, предполагается, что вы как добросовестный трудяга работаете над другими задачами в освободившееся время. Стоимость подписки в этом уравнении ничтожна.
3. Энтерпрайз юзеры рапортуют, что ChatGPT приносит реальную ценность: программисты быстрее дебажат и пишут код, маркетологи быстрее реализуют маркетинговые кампании, HR-ы видят увеличение вовлеченности сотрудников. Тут, правда, на мой взгляд все достижения весьма зыбкие🍵 Но, понятно, что все тестируют новинку в безрисковых нишах, поэтому и эффект пока смазанный.
4. Образуется разрыв между power users (95 персентиль наиболее быстро внедряющих ChatGPT в процессы компаний) и средними юзерами. При этом OpenAI утверждает, что есть положительная зависимость между затраченными токенами и сэкономленным временем.
5. Юзеры активно используют продвинутые инструменты: GPTs (простые интеграции с корп. сервисами прямо в интерфейс ChatGPT) и Projects (папка чатов с настроенным системным промптом под конкретную задачу).
6. Самые быстро растущие секторы по кол-ву юзеров:
6.1 Технологический сектор (рост в 11 раз г/г)
6.2 Здравоохранение (рост в 8 раз г/г)
6.3 Производственный сектор (рост в 7 раз г/г)
7. Кол-во юзеров в Австарлии, Бразилии, Нидерландах и Франции (Mistral где-то оплакивает утекающий домашний рынок) растет быстрее всего. Догадайтесь, про какие регионы информации просто нет — но я думаю, что нас можно вписать в статистику Нидерландов😁
Какие выводы?
Тайминг, в котором вышел этот отчет, наводит на мысль, что главная роль этого отчета — еще один инструмент убеждения инвесторов OpenAI, что все хорошо😅 Отчет как бы кричит: "вон как много времени экономят, вон как много токенов тратят, вон как всем полезно!". Совсем не по-научному, что не подсветили какие-то слабые места и риски внедрения LLM, например безопасность. А вот для рекламного буклета такой нарратив — прямо то, что надо.
В остальном суть, на самом деле, полностью созвучна с другими топовыми отчетами, которые я описывал тут.
Маркетинг-маркетингом, но AI действительно активно прописывается в рабочих процессах. Потихоньку. Ощутимых финансовых результатов добиваются в основном в автоматизации взаимодействия с клиентами и там, где можно автоматизировать низкоквалифицированный рутинный труд. Остальные отчитываются абстрактными успехами вовлеченности, потраченных токенов и тд.
Если вынести из всего этого главную мысль — она тоже остается прежней. Время "ознакомления" с ИИ прошло. Это реальный инструмент автоматизации. И каждой компании нужно его учиться использовать. Просто хотя бы купите сотрудникам подписку на любую LLM — это quick win. Особенно в тяжких финансовых условиях современного мира — это почти бесплатно +1/8 рабочей силы для компании!
Заместители
OpenAI опубликовал новый отчет об использовании их моделей в Enterprise секторе. Он основан на:
- данных, агрегированных по энтерпрайз юзерам ChatGPT (более 1 миллиона компаний)
- опросе 9000 сотрудников из 100 компаний, проведенном OpenAI
Самые яркие результаты:
1. Энтерпрайз использование растет. Кол-во сообщений ЧатуГПТ увеличилось в 8 раз за прошедший год. А потребление токенов в 320 раз! Причина — активное использование ризонинга.
2. Энтерпрайз юзеры оценивают экономию времени в 40-60 минут в день. А это, кстати, 1/8 рабочего времени — проведите мысленный эксперимент, посчитайте: (ваша ЗП)/8 = столько денег экономит компания, если вы используете LLM для работы. Тут конечно, предполагается, что вы как добросовестный трудяга работаете над другими задачами в освободившееся время. Стоимость подписки в этом уравнении ничтожна.
3. Энтерпрайз юзеры рапортуют, что ChatGPT приносит реальную ценность: программисты быстрее дебажат и пишут код, маркетологи быстрее реализуют маркетинговые кампании, HR-ы видят увеличение вовлеченности сотрудников. Тут, правда, на мой взгляд все достижения весьма зыбкие
4. Образуется разрыв между power users (95 персентиль наиболее быстро внедряющих ChatGPT в процессы компаний) и средними юзерами. При этом OpenAI утверждает, что есть положительная зависимость между затраченными токенами и сэкономленным временем.
5. Юзеры активно используют продвинутые инструменты: GPTs (простые интеграции с корп. сервисами прямо в интерфейс ChatGPT) и Projects (папка чатов с настроенным системным промптом под конкретную задачу).
6. Самые быстро растущие секторы по кол-ву юзеров:
6.1 Технологический сектор (рост в 11 раз г/г)
6.2 Здравоохранение (рост в 8 раз г/г)
6.3 Производственный сектор (рост в 7 раз г/г)
7. Кол-во юзеров в Австарлии, Бразилии, Нидерландах и Франции (Mistral где-то оплакивает утекающий домашний рынок) растет быстрее всего. Догадайтесь, про какие регионы информации просто нет — но я думаю, что нас можно вписать в статистику Нидерландов
Какие выводы?
Тайминг, в котором вышел этот отчет, наводит на мысль, что главная роль этого отчета — еще один инструмент убеждения инвесторов OpenAI, что все хорошо
В остальном суть, на самом деле, полностью созвучна с другими топовыми отчетами, которые я описывал тут.
Маркетинг-маркетингом, но AI действительно активно прописывается в рабочих процессах. Потихоньку. Ощутимых финансовых результатов добиваются в основном в автоматизации взаимодействия с клиентами и там, где можно автоматизировать низкоквалифицированный рутинный труд. Остальные отчитываются абстрактными успехами вовлеченности, потраченных токенов и тд.
Если вынести из всего этого главную мысль — она тоже остается прежней. Время "ознакомления" с ИИ прошло. Это реальный инструмент автоматизации. И каждой компании нужно его учиться использовать. Просто хотя бы купите сотрудникам подписку на любую LLM — это quick win. Особенно в тяжких финансовых условиях современного мира — это почти бесплатно +1/8 рабочей силы для компании!
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2 1 1
Учимся делать мультиагентную систему за 1 вечер
Продолжаем погружаться в мир AI агентов😎
Это продолжение курса по созданию агентов. Серия 1.3. (нумерацию упростил). Создаем мультиагентную систему на ADK.
Теория.
Мультиагентная система — это система состоящая из нескольких агентов, и имеющая следующие характеристики:
- Агенты в системе автономны. Каждый из них в своей зоне ответсвенности может принимать независимые решения.
- Агенты коммуницируют с помощью текста, символов, данных и тд., чтобы координировать свои усилия.
- Система имеет правила взаимодействия агентов, чтобы избегать конфликтов.
Я также рекомендую почитать пост про лучшие практики по созданию мультиагентной системы от Anthropic.
И также рекомендую освежить (или прочитать если пропустили) пост про то, как делать нельзя, чтобы не слить деньги на ветер при создании мультиагентной системы.
Есть три основных архитектуры мультиагентной системы:
1. Централизованная — есть агент-координатор, который разбивает запрос юзера на подзадачи и отдает другим агентам-исполнителям.
2. Децентрализованная — агенты действуют независимо и общаются между собой. В таком случае необходимо четко определять правила взаимодействия, чтобы все это не вылилось в хаос.
3. Гибридная — смесь первых двух в разных пропорциях и формах. Например, несколько агентов-координаторов между собой взаимодействуют децентрализованно. Но у каждого есть своя "команда", которую они координируют.
Теперь прыгаем в код.
Практика.
По аналогии с ноутбуком из прошлой серии — копируем себе новый Kaggle ноутбук. И галочку напротив GOOGLE_API_KEY в Secretes нужно снова включить.
Секция 1 ноутбука просто сетапит его по аналогии с первой серией.
В секции 2 начинается мякотка. Сначала мы сделаем централизованную систему из двух агентов: рисерчера (он будет гуглить в интернете) и суммаризатора.
1. Создаем агента рисерчера. Процесс идентичен тому, как мы создавали агента в предыдущей серии. Но есть нюанс. Теперь мы прописываем "output_key". Этот ключ поможет нам дальше найти результаты работы этого агента другим агентам в рамках сессии взаимодействия.
2. Дальше создается агент суммаризатор. Точно также, только с другой инструкцией.
3. Далее нам нужен агент-координатор, чтобы управлять двумя этими красавцами. Создаем опять агента. Но в инструкции мы прописываем ему пошаговый процесс с вызовом других агентов: вызови рисерчера, дальше вызови суммаризатора, верни саммари от него юзеру". И в тулы этого агента мы ставим других агентов вот таким образом:
Обратите внимание, что координатор через такое указание тулов получит доступ к имени и описанию, которые мы написали для каждого агента в пунктах 1 и 2. Поэтому от качества нейминга и описания напрямую зависит, как хорошо координатор будет их вызывать. Не пожалейте времени, чтобы качественно тут все описать.
4. Запускаем любой запрос — получаем ответ от нашего координатора.
Ура, вы только что сделали простейшую мультиагентную систему!💪
Дальше уже для самостоятельного изучения прокликайте ноутбук до конца.
Секция 3 расскажет о Sequential Workflow — иногда вы не хотите полагаться на ризонинг агента-координатора. Вам нужно просто последовательно вызвать ряд субагентов (это называется Pipeline). В ADK это решается через
Секция 4 расскажет про Parallel Workflows — когда агентам нет смысла делать работу последовательно, вы можете запускать их работать одновременно, а в конце суммаризовать их результаты. Для этого в ADK есть
Секция 5 расскажет про Loop Workflows — используется, когда нужно добиться вполне конкретного результата. И до его достижения останавливать работу агентов вы не хотите. Здесь будет двухуровневая обертка через
LoopAgent, который сам упакован в
Хороший брейнтизер🎮
That's all guys! Stay tuned — в следующий разберем детальнее тулы и MCP (уж сколько раз он вам точно уши мозолил!)
Заместители
Продолжаем погружаться в мир AI агентов
Это продолжение курса по созданию агентов. Серия 1.3. (нумерацию упростил). Создаем мультиагентную систему на ADK.
Теория.
Мультиагентная система — это система состоящая из нескольких агентов, и имеющая следующие характеристики:
- Агенты в системе автономны. Каждый из них в своей зоне ответсвенности может принимать независимые решения.
- Агенты коммуницируют с помощью текста, символов, данных и тд., чтобы координировать свои усилия.
- Система имеет правила взаимодействия агентов, чтобы избегать конфликтов.
Я также рекомендую почитать пост про лучшие практики по созданию мультиагентной системы от Anthropic.
И также рекомендую освежить (или прочитать если пропустили) пост про то, как делать нельзя, чтобы не слить деньги на ветер при создании мультиагентной системы.
Есть три основных архитектуры мультиагентной системы:
1. Централизованная — есть агент-координатор, который разбивает запрос юзера на подзадачи и отдает другим агентам-исполнителям.
2. Децентрализованная — агенты действуют независимо и общаются между собой. В таком случае необходимо четко определять правила взаимодействия, чтобы все это не вылилось в хаос.
3. Гибридная — смесь первых двух в разных пропорциях и формах. Например, несколько агентов-координаторов между собой взаимодействуют децентрализованно. Но у каждого есть своя "команда", которую они координируют.
Теперь прыгаем в код.
Практика.
По аналогии с ноутбуком из прошлой серии — копируем себе новый Kaggle ноутбук. И галочку напротив GOOGLE_API_KEY в Secretes нужно снова включить.
Секция 1 ноутбука просто сетапит его по аналогии с первой серией.
В секции 2 начинается мякотка. Сначала мы сделаем централизованную систему из двух агентов: рисерчера (он будет гуглить в интернете) и суммаризатора.
1. Создаем агента рисерчера. Процесс идентичен тому, как мы создавали агента в предыдущей серии. Но есть нюанс. Теперь мы прописываем "output_key". Этот ключ поможет нам дальше найти результаты работы этого агента другим агентам в рамках сессии взаимодействия.
2. Дальше создается агент суммаризатор. Точно также, только с другой инструкцией.
3. Далее нам нужен агент-координатор, чтобы управлять двумя этими красавцами. Создаем опять агента. Но в инструкции мы прописываем ему пошаговый процесс с вызовом других агентов: вызови рисерчера, дальше вызови суммаризатора, верни саммари от него юзеру". И в тулы этого агента мы ставим других агентов вот таким образом:
tools=[AgentTool(research_agent), AgentTool(summarizer_agent)]
Обратите внимание, что координатор через такое указание тулов получит доступ к имени и описанию, которые мы написали для каждого агента в пунктах 1 и 2. Поэтому от качества нейминга и описания напрямую зависит, как хорошо координатор будет их вызывать. Не пожалейте времени, чтобы качественно тут все описать.
4. Запускаем любой запрос — получаем ответ от нашего координатора.
Ура, вы только что сделали простейшую мультиагентную систему!
Дальше уже для самостоятельного изучения прокликайте ноутбук до конца.
Секция 3 расскажет о Sequential Workflow — иногда вы не хотите полагаться на ризонинг агента-координатора. Вам нужно просто последовательно вызвать ряд субагентов (это называется Pipeline). В ADK это решается через
SequentialAgent
Секция 4 расскажет про Parallel Workflows — когда агентам нет смысла делать работу последовательно, вы можете запускать их работать одновременно, а в конце суммаризовать их результаты. Для этого в ADK есть
ParallelAgent
Секция 5 расскажет про Loop Workflows — используется, когда нужно добиться вполне конкретного результата. И до его достижения останавливать работу агентов вы не хотите. Здесь будет двухуровневая обертка через
LoopAgent, который сам упакован в
SequentialAgent
Хороший брейнтизер
That's all guys! Stay tuned — в следующий разберем детальнее тулы и MCP (уж сколько раз он вам точно уши мозолил!)
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍7 4❤3
OpenAI запускает собственные курсы с сертификатом по AI
Курс AI Foundations сначала обкатают в закрытом режиме с рядом американских университетов и компаний в течение пары месяцев. Потом он будет раскрыт для более широкой аудитории. Он будет встроен прямо в ChatGPT. По результатам прохождения курса будет выдан сертификат. Деталей о длине и содержании курса пока нет.
Одновременно запустили курс по применению ChatGPT для школьных учителей. Он бесплатный и уже доступен на Coursera (в РФ работает с ВПНом). На его освоение понадобиться всего 4 часа и не требуются никакие предварительные знания. Заточен он под юзеров ChatGPT, а не ИИ разработчиков. Цель — научить их выдавливать максимум из ГПТшки для преподавательских целей.
Инициативы приятные. Грамотно промптить LLM — тоже навык (хоть и достаточно простой). На мой взгляд этим навыком в 2026 должен обладать вообще каждый.
Особенный фокус на учителей тоже радует — ведь они наставники для подрастающего поколения, которое растет с нейронкой в руках. И этот курс нужен не столько для того, чтобы учителя учили детей юзать чатГПТ, сколько для того, чтобы они оставались авторитетом, были в курсе всех нейроуловок и хитростей, которые дети могут выкинуть, и не тянули AI-native поколение мертвым грузом в каменный век.
З.Ы. Конечно, понятно, что это еще один коммерческий ход по захвату рынка, обхаживанию своих подрастающих юзеров и тд. Но ведь главное как это делается — а делается через пользу. Поэтому молодцы!
Кидайте знакомым учителям на заметку☀️
Заместители
Курс AI Foundations сначала обкатают в закрытом режиме с рядом американских университетов и компаний в течение пары месяцев. Потом он будет раскрыт для более широкой аудитории. Он будет встроен прямо в ChatGPT. По результатам прохождения курса будет выдан сертификат. Деталей о длине и содержании курса пока нет.
Одновременно запустили курс по применению ChatGPT для школьных учителей. Он бесплатный и уже доступен на Coursera (в РФ работает с ВПНом). На его освоение понадобиться всего 4 часа и не требуются никакие предварительные знания. Заточен он под юзеров ChatGPT, а не ИИ разработчиков. Цель — научить их выдавливать максимум из ГПТшки для преподавательских целей.
Инициативы приятные. Грамотно промптить LLM — тоже навык (хоть и достаточно простой). На мой взгляд этим навыком в 2026 должен обладать вообще каждый.
Особенный фокус на учителей тоже радует — ведь они наставники для подрастающего поколения, которое растет с нейронкой в руках. И этот курс нужен не столько для того, чтобы учителя учили детей юзать чатГПТ, сколько для того, чтобы они оставались авторитетом, были в курсе всех нейроуловок и хитростей, которые дети могут выкинуть, и не тянули AI-native поколение мертвым грузом в каменный век.
З.Ы. Конечно, понятно, что это еще один коммерческий ход по захвату рынка, обхаживанию своих подрастающих юзеров и тд. Но ведь главное как это делается — а делается через пользу. Поэтому молодцы!
Кидайте знакомым учителям на заметку
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥4 2 1
Ответка от OpenAI — GPT-5.2 уже здесь!
Дядя Сэм только что выкатил новую серию моделей GPT-5.2 в следующих версиях:
- Instant (самая быстрая)
- Thinking (рассуждающая)
- Pro (самая заряженная с настраиваемой «силой» рассуждений и лучшими результатами на бенчмарках)
Моделям прокачали:
- навыки кодинга (предварительно это теперь лучшая модель для кодинга, хотя на LMArena - Opus 4.5 все еще первый),
- математику
- агентные навыки (вызов тулов)
- визуальное понимание
- увеличили длину контекста (400k все еще мало по сравнению с 1м у Gemini)
Как результат GPT-5.2 успешно обошел Gemini 3 Pro на некоторых бенчах (например ARC-AGI-2, однако забавно, что на ARC-AGI первой версии Gemini в недавно вышедем режиме Deep Thinking остался в топе).
Но бог с ними с бенчами — они не очень показательны для обычной жизни. Поэтому OpenAI сфокусировались на реальных жизненных кейсах. И кажется, что новым моделькам можно отгрузить реальные рабочие задачи!
Примеры показывают:
- существенно улучшилась работа с таблицами (см скриншот 1: слева GPT-5.1, справа 5.2)
- лучше подготовка презентаций (скриншот 2)
- лучше распознает элементы в пространстве (скришнот 3)
- строит более комплексные цепочки рассуждения (скриншот 4)
В общем, выглядит хорошечно. OpenAI вернулся в лидеры AI гонки, а мы с вами радуемся новым топовым моделям. За это и любим конкуренцию!
Раскатывают постепенно, как всегда. Потестить пока не было возможности — ждемс!👀
Заместители
Дядя Сэм только что выкатил новую серию моделей GPT-5.2 в следующих версиях:
- Instant (самая быстрая)
- Thinking (рассуждающая)
- Pro (самая заряженная с настраиваемой «силой» рассуждений и лучшими результатами на бенчмарках)
Моделям прокачали:
- навыки кодинга (предварительно это теперь лучшая модель для кодинга, хотя на LMArena - Opus 4.5 все еще первый),
- математику
- агентные навыки (вызов тулов)
- визуальное понимание
- увеличили длину контекста (400k все еще мало по сравнению с 1м у Gemini)
Как результат GPT-5.2 успешно обошел Gemini 3 Pro на некоторых бенчах (например ARC-AGI-2, однако забавно, что на ARC-AGI первой версии Gemini в недавно вышедем режиме Deep Thinking остался в топе).
Но бог с ними с бенчами — они не очень показательны для обычной жизни. Поэтому OpenAI сфокусировались на реальных жизненных кейсах. И кажется, что новым моделькам можно отгрузить реальные рабочие задачи!
Примеры показывают:
- существенно улучшилась работа с таблицами (см скриншот 1: слева GPT-5.1, справа 5.2)
- лучше подготовка презентаций (скриншот 2)
- лучше распознает элементы в пространстве (скришнот 3)
- строит более комплексные цепочки рассуждения (скриншот 4)
В общем, выглядит хорошечно. OpenAI вернулся в лидеры AI гонки, а мы с вами радуемся новым топовым моделям. За это и любим конкуренцию!
Раскатывают постепенно, как всегда. Потестить пока не было возможности — ждемс!
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥4 2❤1
Media is too big
VIEW IN TELEGRAM
LobeChat — опенсорс хаб ИИ агентов
Китайцы продолжают наваливать (потенциально) годный опенсорс. LobeChat — опенсорс платформа, на которой можно (загибайте пальцы):
- создавать собственных агентов
- подключать чужих из маркета (>500 агентов доступно)
- подключать кучу MCP-тулов (>20 000 тулов)
- модели почти от любого вендора
- создавать свою векторную БД из любых документов (эксель, пдф, картинки, презентации, доки и тд.) через удобный интерфейс для RAG
Можно пользоваться из браузера в формате онлайн сервиса, а можно развернуть полностью локальную версию (через докер). Понадобится API ключ от нужной LLM. Можно также воткнуть локальную LLM.
Прикольные фичи
- От каждой беседы можно сделать ответвление в новый чат, сохранив текущий. Эту нужно, если вы достигли дзена в настройки контекста (стейта модели) и не хотите его попортить следующими запросами.
- Можно настраивать интенсивность ризонинга и детальность аутпута агента.
- Можно создавать отдельные базы знаний, разделенные по тематикам и подключать их по мере необходимости к агенту.
- Поддерживает "Артефакты" — отображение созданных веб-страничек и тд. прямо в окне приложения.
- В документации есть инфа про создание команд агентов, но на практике не нашел. Возможно, скоро появится.
Но есть нюансы
- Онлайн версия в бете. Работает иногда немного баговано
- Кредиты улетают просто моментально. Все триал кредиты у меня сгорели за создание 1 чата, подключение 1 тула и генерацию 4 картинок. А дальше подписка. Что ж, пойду дальше настраивать локалку тогда...
- Модельки по генерации видео пока не поддерживаются. А очень бы сюда хотелось! Чтобы уже все и сразу в одном месте!
Вердикт
Это настоящий опенсорс — что-то где-то не работает, где-то костыли, где-то китайские иероглифы не перевелись. Поэтому готовьте свою пятую точку к горению😁
При этом в платной онлайн версии кредиты улетают просто безбожно быстро. Их берут практически за все, даже просто за открытие окошка с агентом. В общем в онлайн формате тогда уже лучше Genspark какой-нибудь.
Но с другой стороны, концептуально, это выглядит одной из наиболее интересных и продуманных реализаций единой платформы AI агентов, из попадавшихся мне. Особенный поклон UX-команде проекта. Очень много функционала — но все интуитивно понятно, разобраться реально просто. Это вам не n8n!
Поэтому хочется настроить эту штуку себе локально и просто подключить апи ключики от нужных моделей. Не даром репозиторий этого проекта номер 1 в GitHub trending!
В общем, нашел нам с вами интересное поковырять холодными зимними вечерами😈
Если хотите чуть побльше кредитов (2М вместо 500к) на пробу пера в saas формате (без локальной установки) — ловите рефку.
Заместители
Китайцы продолжают наваливать (потенциально) годный опенсорс. LobeChat — опенсорс платформа, на которой можно (загибайте пальцы):
- создавать собственных агентов
- подключать чужих из маркета (>500 агентов доступно)
- подключать кучу MCP-тулов (>20 000 тулов)
- модели почти от любого вендора
- создавать свою векторную БД из любых документов (эксель, пдф, картинки, презентации, доки и тд.) через удобный интерфейс для RAG
Можно пользоваться из браузера в формате онлайн сервиса, а можно развернуть полностью локальную версию (через докер). Понадобится API ключ от нужной LLM. Можно также воткнуть локальную LLM.
Прикольные фичи
- От каждой беседы можно сделать ответвление в новый чат, сохранив текущий. Эту нужно, если вы достигли дзена в настройки контекста (стейта модели) и не хотите его попортить следующими запросами.
- Можно настраивать интенсивность ризонинга и детальность аутпута агента.
- Можно создавать отдельные базы знаний, разделенные по тематикам и подключать их по мере необходимости к агенту.
- Поддерживает "Артефакты" — отображение созданных веб-страничек и тд. прямо в окне приложения.
- В документации есть инфа про создание команд агентов, но на практике не нашел. Возможно, скоро появится.
Но есть нюансы
- Онлайн версия в бете. Работает иногда немного баговано
- Кредиты улетают просто моментально. Все триал кредиты у меня сгорели за создание 1 чата, подключение 1 тула и генерацию 4 картинок. А дальше подписка. Что ж, пойду дальше настраивать локалку тогда...
- Модельки по генерации видео пока не поддерживаются. А очень бы сюда хотелось! Чтобы уже все и сразу в одном месте!
Вердикт
Это настоящий опенсорс — что-то где-то не работает, где-то костыли, где-то китайские иероглифы не перевелись. Поэтому готовьте свою пятую точку к горению
При этом в платной онлайн версии кредиты улетают просто безбожно быстро. Их берут практически за все, даже просто за открытие окошка с агентом. В общем в онлайн формате тогда уже лучше Genspark какой-нибудь.
Но с другой стороны, концептуально, это выглядит одной из наиболее интересных и продуманных реализаций единой платформы AI агентов, из попадавшихся мне. Особенный поклон UX-команде проекта. Очень много функционала — но все интуитивно понятно, разобраться реально просто. Это вам не n8n!
Поэтому хочется настроить эту штуку себе локально и просто подключить апи ключики от нужных моделей. Не даром репозиторий этого проекта номер 1 в GitHub trending!
В общем, нашел нам с вами интересное поковырять холодными зимними вечерами
Если хотите чуть побльше кредитов (2М вместо 500к) на пробу пера в saas формате (без локальной установки) — ловите рефку.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2 2
Друзья, небольшая пауза в постах связана не с тем, что в мире ИИ закончились интересные продукты и сервисы. Меня накрыло мощным гриппом — откисаю. Вернусь как только смогу 😷
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤24👍7🔥2⚡1
Модель за моделью... и AAIF
Вот так на недельку отлучился и бац бац бац… все вокруг понакидали ништяков. Лишний раз доказывает бешеный темп и остроту конкуренции, в которых живут разработчики AI. Быстренько с вами наверстаем по ключевым событиям. Но самое важно обсудим в конце — появление AAIF!
AI гонка продолжает разгон
OpenAI кутят на все🎧
Вдогонку к новой GPT-5.2, выкатили обновленную Image1.5. Она уже достпуна всем юзерам, уверен, вы уже вкурсе и сами потыкали! Генерит она, на мой вкус примерно так же, как и Nano Banana Pro, в том числе отрисовывает инфографику на русском.
OpenAI также выкатили свой эппстор прямо в приложении ChatGPT. Обещали они это сделать еще давненько. Еще и открыли первичный прием заявок на подключение сторонних приложений, разработанных кем угодно на их SDK.
Команда дяди Сэма левой рукой допиливает топовые модели, а правой — продолжает пилить юзер экспириенс. Надолго ли их хватит в таком режиме. Похоже, у разрабов в компании сейчас сон и туалет строго по расписанию🫣
Google тоже не дремлет
Нашумели ожидаемой Gemini 3 Flash. Во всех анонсах стыдливо спрятали тот факт, что она медленнее, чем Gemini 2.5 Flash, но флексят тем, что в некоторых задачах она не уступает полноценной Gemini 3 Pro. Как по мне — я жду Gemini 3 Flash Lite. Сегмент ультра-быстрых моделек все еще сырой и текущая версия слабовата.
А до этого выкатили обновленные модели TTS, которые встроили в приложение Google Translate. На демке выглядит пободрее, чем на практике. Правда в Google Translate мне так и недокатилось. Поэтому основываю отзыв на тестах через AI Studio. В РФ скорее всего нормально не будет доступно.
Внезапно активировался Марк
Пока Apple явно сдалась со своим Apple Intelligence, компания Цукерберга мобилизовалась. WSJ рапортует, что они работают над двумя новыми моделями:
1. Mango — новая image&video модель.
2. Avocado — новая LLM.
Фокус будет на кодинге. А также экспериментируют с world models. Посмотрим, получится ли у них залететь в большую AI гонку.
Я смотрю на всю эту кутерьму с чисто спортивным интересом. Через 10-20 лет всего несколько крупных вендоров останутся как провайдеры AGI, остальные помрут без монетизации или начнут специализироваться. Так и лопнет ИИ пузырь. Но пока мы туда движемся, мы как человечество получим множество прекрасных технологий, открытий и институтов. Например — AAIF!
ФИИА или может АИИФ — в общем, АУФ!
Не знаю, как переведут на русский. Но суть одна — две недели назад все техгиганты слились в экстазе, вместе основав Agentic AI Foundation (AAIF). Это некоммерческая организация для развития опенсорса в сфере AI агентов. В организации-участники вошли, помимо героев новостей выше, Anthropic, Amazon, Block, Microsoft, Cloudflare и внезапно Bloomberg.
Первыми "донатами" интеллектуальной собственности в организацию стали MCP протокол от Anthropic, AGENTS.md от OpenAI и goose (локальный ИИ агент) от Block. Судя по тому, что отдали — намерения у них серьезные.
Зачем и почему именно сейчас?
Стало очевидно несколько вещей:
- AI агенты пришли надолго.
- Ни одна компания не способна разработать и закрепить для всех единые стандарты и протоколы. Как минимум из конкурентных соображений другие компании будут продолжать пихать свои.
- Уже начало появляться слишком много вариантов одних и тех же по существу протоколов. Это начинает замедлять прогресс и затруднять интероперабельность между вендорами моделей.
- MCP при этом, как не имеющий существенных аналогов, показал удобство единого стандарта.
Вот посмотрев на все это, крупные ребята почесали репу да и решили мол, чо мы тут бабки теряем на эти протоколы. Давайте модели и сервисы пилить. Деньги то они приносят. А протоколы пусть пилит маленькая некоммерческая организация, нам подконтрольная. Некий договорнячок🙂
Мы как юзеры и разрабы от этого тоже выиграем — единые стандарты позволят легко интегрировать разные агентные системы и переключаться между вендорами моделек. Поэтому инициатива добротная!
Заместители
Вот так на недельку отлучился и бац бац бац… все вокруг понакидали ништяков. Лишний раз доказывает бешеный темп и остроту конкуренции, в которых живут разработчики AI. Быстренько с вами наверстаем по ключевым событиям. Но самое важно обсудим в конце — появление AAIF!
AI гонка продолжает разгон
OpenAI кутят на все
Вдогонку к новой GPT-5.2, выкатили обновленную Image1.5. Она уже достпуна всем юзерам, уверен, вы уже вкурсе и сами потыкали! Генерит она, на мой вкус примерно так же, как и Nano Banana Pro, в том числе отрисовывает инфографику на русском.
OpenAI также выкатили свой эппстор прямо в приложении ChatGPT. Обещали они это сделать еще давненько. Еще и открыли первичный прием заявок на подключение сторонних приложений, разработанных кем угодно на их SDK.
Команда дяди Сэма левой рукой допиливает топовые модели, а правой — продолжает пилить юзер экспириенс. Надолго ли их хватит в таком режиме. Похоже, у разрабов в компании сейчас сон и туалет строго по расписанию
Google тоже не дремлет
Нашумели ожидаемой Gemini 3 Flash. Во всех анонсах стыдливо спрятали тот факт, что она медленнее, чем Gemini 2.5 Flash, но флексят тем, что в некоторых задачах она не уступает полноценной Gemini 3 Pro. Как по мне — я жду Gemini 3 Flash Lite. Сегмент ультра-быстрых моделек все еще сырой и текущая версия слабовата.
А до этого выкатили обновленные модели TTS, которые встроили в приложение Google Translate. На демке выглядит пободрее, чем на практике. Правда в Google Translate мне так и недокатилось. Поэтому основываю отзыв на тестах через AI Studio. В РФ скорее всего нормально не будет доступно.
Внезапно активировался Марк
Пока Apple явно сдалась со своим Apple Intelligence, компания Цукерберга мобилизовалась. WSJ рапортует, что они работают над двумя новыми моделями:
1. Mango — новая image&video модель.
2. Avocado — новая LLM.
Фокус будет на кодинге. А также экспериментируют с world models. Посмотрим, получится ли у них залететь в большую AI гонку.
Я смотрю на всю эту кутерьму с чисто спортивным интересом. Через 10-20 лет всего несколько крупных вендоров останутся как провайдеры AGI, остальные помрут без монетизации или начнут специализироваться. Так и лопнет ИИ пузырь. Но пока мы туда движемся, мы как человечество получим множество прекрасных технологий, открытий и институтов. Например — AAIF!
ФИИА или может АИИФ — в общем, АУФ!
Не знаю, как переведут на русский. Но суть одна — две недели назад все техгиганты слились в экстазе, вместе основав Agentic AI Foundation (AAIF). Это некоммерческая организация для развития опенсорса в сфере AI агентов. В организации-участники вошли, помимо героев новостей выше, Anthropic, Amazon, Block, Microsoft, Cloudflare и внезапно Bloomberg.
Первыми "донатами" интеллектуальной собственности в организацию стали MCP протокол от Anthropic, AGENTS.md от OpenAI и goose (локальный ИИ агент) от Block. Судя по тому, что отдали — намерения у них серьезные.
Зачем и почему именно сейчас?
Стало очевидно несколько вещей:
- AI агенты пришли надолго.
- Ни одна компания не способна разработать и закрепить для всех единые стандарты и протоколы. Как минимум из конкурентных соображений другие компании будут продолжать пихать свои.
- Уже начало появляться слишком много вариантов одних и тех же по существу протоколов. Это начинает замедлять прогресс и затруднять интероперабельность между вендорами моделей.
- MCP при этом, как не имеющий существенных аналогов, показал удобство единого стандарта.
Вот посмотрев на все это, крупные ребята почесали репу да и решили мол, чо мы тут бабки теряем на эти протоколы. Давайте модели и сервисы пилить. Деньги то они приносят. А протоколы пусть пилит маленькая некоммерческая организация, нам подконтрольная. Некий договорнячок
Мы как юзеры и разрабы от этого тоже выиграем — единые стандарты позволят легко интегрировать разные агентные системы и переключаться между вендорами моделек. Поэтому инициатива добротная!
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤4 2
Google опять сделали это: Титан и Мираж — новый "Attention"?
В 2017 году Google опубликовали статью Attention Is All You Need — она положила начало современным LLM, построенным на трансформерах. Но, кажется, из этой технологии высосали все, что могли. Уже некоторое время ученые трудятся над изучением продвинутых механизмов внимания (именно эта штука сделала все LLM такими умными) или над его альтернативами. Зачем? Потому что "внимание" очень прожорливо на вычисления. И при большом контекстном окне оно становится очень дорогим.
💪 Titans расправил плечи
Именно эту проблему Гугл и взялся решить: создать "длинную память" у модели, но сделать ее вычислительно дешевой. Подглядели, как всегда, у человека в мозгах! Мы запоминаем ту информацию, которая вызывает у нас мощную эмоцию. А в простейшем виде — ту, что заставляет удивляться. Этой же логике последовали и в новой архитектуре "Titans", которая запоминает те факты, которые сильно отличается от остальной ожидаемой информации.
Это апгрейд и микс двух архитектур:
- старого доброго трансформера с механизмом внимания.
- SSM (State Space Models). Архитектура нашумевшая не так сильно, но стоящая внимания. В ней, по сути, заменили механизм внимания на так называемую свертку.
Модель оценивает важность токенов через метрику «удивления», замеряя насколько вероятным был каждый токен. Если токен был мало вероятным, но появился — модель сконцентрирует на нем внимание и запомнит. Еще и захватив немного контекста вокруг "удивительного" токена. Это происходит за счет встроенного механизма инерции.
Также архитектура использует адаптивное "забывание", чтобы сохранять только полезный контекст на очень длинных последовательностях
Все LLM — это лишь MIRAS
MIRAS — это фреймворк, по которому и изобрели архитектуру Titans. Этот фреймворк позволяет по-новому взглянуть на существующие архитектуры языковых моделей. Он смотрит на них как на модули ассоциативной памяти. Проще говоря любая модель — это не что иное, как некий механизм, который достает из памяти ассоциации на заданный токен.
Фреймворк раскладывает архитектуры моделей на (см приложенную картинку из статьи):
1. Архитектуру ассоциативной памяти (associative memory
architecture) — в каком виде сохраняется информация в модели.
2. Цель смещения внимания (attentional bias objective) — что именно модель учиться считать важным.
3. Шлюз удержания (retention gate) — как модель балансирует между запоминанием нового и сохранением старого.
4. Алгоритм памяти (memory learning algorithm) — собственно ключевой алгоритм запоминания, например градиентный спуск.
Что у вас на носу? - Сопля?! - Нет! Новая волна LLM📈
Titans обошел даже такую жирную и мощную модель как GPT-4 на бенчмарке BABILong. Он специально замеряет ризонинг моделей на данных, где факты раскиданы очень далеко друг от друга. То есть модели либо нужно держать во внимании огромный контекст (что делают современные LLM), либо работать с ним очень эффективно (что Titans и делает на контексте аж 2М+ токенов, — это, кстати, больше, чем контекстное окно Gemini 3).
Новая архитектура является просто таки очевидным преимуществом, тк работа с контекстом — это один из важнейших аспектов конкуренции между моделями. А значит — ждем в следующем году массовую адаптацию нового трюка с "удивлением".
З.Ы. для тех, кто воспринимает лучше на слух — сгенерировал видосик в NotebookLM. Как обычно, визуальный треш под четкую озвучку😈
Заместители
В 2017 году Google опубликовали статью Attention Is All You Need — она положила начало современным LLM, построенным на трансформерах. Но, кажется, из этой технологии высосали все, что могли. Уже некоторое время ученые трудятся над изучением продвинутых механизмов внимания (именно эта штука сделала все LLM такими умными) или над его альтернативами. Зачем? Потому что "внимание" очень прожорливо на вычисления. И при большом контекстном окне оно становится очень дорогим.
Именно эту проблему Гугл и взялся решить: создать "длинную память" у модели, но сделать ее вычислительно дешевой. Подглядели, как всегда, у человека в мозгах! Мы запоминаем ту информацию, которая вызывает у нас мощную эмоцию. А в простейшем виде — ту, что заставляет удивляться. Этой же логике последовали и в новой архитектуре "Titans", которая запоминает те факты, которые сильно отличается от остальной ожидаемой информации.
Это апгрейд и микс двух архитектур:
- старого доброго трансформера с механизмом внимания.
- SSM (State Space Models). Архитектура нашумевшая не так сильно, но стоящая внимания. В ней, по сути, заменили механизм внимания на так называемую свертку.
Модель оценивает важность токенов через метрику «удивления», замеряя насколько вероятным был каждый токен. Если токен был мало вероятным, но появился — модель сконцентрирует на нем внимание и запомнит. Еще и захватив немного контекста вокруг "удивительного" токена. Это происходит за счет встроенного механизма инерции.
Также архитектура использует адаптивное "забывание", чтобы сохранять только полезный контекст на очень длинных последовательностях
Все LLM — это лишь MIRAS
MIRAS — это фреймворк, по которому и изобрели архитектуру Titans. Этот фреймворк позволяет по-новому взглянуть на существующие архитектуры языковых моделей. Он смотрит на них как на модули ассоциативной памяти. Проще говоря любая модель — это не что иное, как некий механизм, который достает из памяти ассоциации на заданный токен.
Фреймворк раскладывает архитектуры моделей на (см приложенную картинку из статьи):
1. Архитектуру ассоциативной памяти (associative memory
architecture) — в каком виде сохраняется информация в модели.
2. Цель смещения внимания (attentional bias objective) — что именно модель учиться считать важным.
3. Шлюз удержания (retention gate) — как модель балансирует между запоминанием нового и сохранением старого.
4. Алгоритм памяти (memory learning algorithm) — собственно ключевой алгоритм запоминания, например градиентный спуск.
Что у вас на носу? - Сопля?! - Нет! Новая волна LLM
Titans обошел даже такую жирную и мощную модель как GPT-4 на бенчмарке BABILong. Он специально замеряет ризонинг моделей на данных, где факты раскиданы очень далеко друг от друга. То есть модели либо нужно держать во внимании огромный контекст (что делают современные LLM), либо работать с ним очень эффективно (что Titans и делает на контексте аж 2М+ токенов, — это, кстати, больше, чем контекстное окно Gemini 3).
Новая архитектура является просто таки очевидным преимуществом, тк работа с контекстом — это один из важнейших аспектов конкуренции между моделями. А значит — ждем в следующем году массовую адаптацию нового трюка с "удивлением".
З.Ы. для тех, кто воспринимает лучше на слух — сгенерировал видосик в NotebookLM. Как обычно, визуальный треш под четкую озвучку
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍7 2
С большим интересом залип на новый видос Александра Соколовского: интервью с Александром Машрабовым, фаундером Higgsfield.ai.
Всегда с большим интересом наблюдаю за восходящими звездами и стараюсь прислушиваться к их вижену. Higgsfield — это казалось бы еще один агргеатор Text2Image, Text2Video и подобных моделек. Но меньше чем за год компания достигла оценки в $1млрд и вышла на выручку в >$10млн в месяц, став прибыльной. То есть — это единорог, который еще и зарабатывает, а не прожигает инвестиции. Это, между прочим, супер редкое являение на рынке AI!
В чем секретный соус? — Они фокусируются на платежоспособной ЦА, на профессиональных коммерческих видео-продакшенах. Превращаясь из просто агрегатора в самый удобный инструмент для своего пользователя.
Сам Александр выделяет еще 3 ключевых преимущества Хиггсфилда:
1. Скорость итераций. Фичи релизятся почти каждый день.
2. Сильная команда в области video generation, включая продуктовыую команду, которая четко формирует вижен.
3. Накопленная экспертиза за счет большого количества итераций продукта и кол-ва генераций на их платформе.
Лишний раз убеждаюсь, что побеждают те, кто правильно определил продукт и ЦА. Те, кто продумал бизнес-модель, а не те, кто изобрел лучшую технологию.
Очень рекомендую к просмотру!
З.Ы. Не реклама, если что)
Заместители
Всегда с большим интересом наблюдаю за восходящими звездами и стараюсь прислушиваться к их вижену. Higgsfield — это казалось бы еще один агргеатор Text2Image, Text2Video и подобных моделек. Но меньше чем за год компания достигла оценки в $1млрд и вышла на выручку в >$10млн в месяц, став прибыльной. То есть — это единорог, который еще и зарабатывает, а не прожигает инвестиции. Это, между прочим, супер редкое являение на рынке AI!
В чем секретный соус? — Они фокусируются на платежоспособной ЦА, на профессиональных коммерческих видео-продакшенах. Превращаясь из просто агрегатора в самый удобный инструмент для своего пользователя.
Сам Александр выделяет еще 3 ключевых преимущества Хиггсфилда:
1. Скорость итераций. Фичи релизятся почти каждый день.
2. Сильная команда в области video generation, включая продуктовыую команду, которая четко формирует вижен.
3. Накопленная экспертиза за счет большого количества итераций продукта и кол-ва генераций на их платформе.
Лишний раз убеждаюсь, что побеждают те, кто правильно определил продукт и ЦА. Те, кто продумал бизнес-модель, а не те, кто изобрел лучшую технологию.
Очень рекомендую к просмотру!
З.Ы. Не реклама, если что)
Заместители
YouTube
AI без хайпа: как всё работает на самом деле? Александр Машрабов и первый казахстанский единорог
▶︎ Самый большой выбор жилья на Авито Путешествиях со скидками до 50% – https://bit.ly/48TREmd.
Используйте промокод SOKOL и получайте честные 10% скидки на любую сумму*
▶︎ Защитите свой бизнес от скачков валюты с услугой «Бронирование валютного курса»…
Используйте промокод SOKOL и получайте честные 10% скидки на любую сумму*
▶︎ Защитите свой бизнес от скачков валюты с услугой «Бронирование валютного курса»…
🔥4 2👎1 1
Модели, датасеты, демки (spaces) и .... Hugging Face запустит новый репозиторий
Hugging Face — крупнейший репозиторий всего опенсорсного в мире AI. Если дата саентисту нужны датасеты или модельки — он идет в первую очередь туда, а только потом погружается в глубокий рисерч по статьям и тд. Год назад HF запустили Spaces — по сути развернутые демки моделей на мощностях самих HF.
И вот сегодня CTO HF затизерил новый тип репозитория, но пока не назвал, что это будет👌
Кстати, первым 5 угадавшим обещал бесплатную PRO подписку на HF на 3 месяца. Можете попробовать угадать, если считаете, что за первые 312 комментов никто не отгадал😈
Что это может быть и почему это важно?
HF создает репоизтории крайне редко и делает это, когда тренд — сама неотвратимость. Значит они уверены, что нащупали следующий большой тренд.
Очевидно, будут собирать в кучу то, что с одной стороны может в большом количестве производиться в опенсорс коммьюнити, а с другой стороны — это должно соответсвовать коммерческому вектору HF (все-таки даже они уже продают мощности на своей платформе, всем надо что-то кушать).
Это будет скорее всего что-то связанное с AI агентами. Самые популярные варианты (и на самом деле самые вероятные):
- Tools (MCP — на мой взгляд самая вероятная опция)
- Skills (по сути MD файлики с промптами, определяющими навык агента. С одной стороны — звучит мелковато, но с другой — "эффект рычага" у скиллов большой, не даром HF сами вкладывались в такие скиллы)
- репозиторий самих агентов / воркфлоу (который будет использовать и LLM из репозитория, и скиллы и тулзы. На мой взгляд звучит сложновато. Сначала как будто нужно предыдущие два пункта закрыть, чтобы перейти к самим агентам. Но вдруг возьмут нахрапом!)
А как вы думаете, что это будет? Оставляйте голос ниже или пишите свой вариант👌
Заместители
Hugging Face — крупнейший репозиторий всего опенсорсного в мире AI. Если дата саентисту нужны датасеты или модельки — он идет в первую очередь туда, а только потом погружается в глубокий рисерч по статьям и тд. Год назад HF запустили Spaces — по сути развернутые демки моделей на мощностях самих HF.
И вот сегодня CTO HF затизерил новый тип репозитория, но пока не назвал, что это будет
Кстати, первым 5 угадавшим обещал бесплатную PRO подписку на HF на 3 месяца. Можете попробовать угадать, если считаете, что за первые 312 комментов никто не отгадал
Что это может быть и почему это важно?
HF создает репоизтории крайне редко и делает это, когда тренд — сама неотвратимость. Значит они уверены, что нащупали следующий большой тренд.
Очевидно, будут собирать в кучу то, что с одной стороны может в большом количестве производиться в опенсорс коммьюнити, а с другой стороны — это должно соответсвовать коммерческому вектору HF (все-таки даже они уже продают мощности на своей платформе, всем надо что-то кушать).
Это будет скорее всего что-то связанное с AI агентами. Самые популярные варианты (и на самом деле самые вероятные):
- Tools (MCP — на мой взгляд самая вероятная опция)
- Skills (по сути MD файлики с промптами, определяющими навык агента. С одной стороны — звучит мелковато, но с другой — "эффект рычага" у скиллов большой, не даром HF сами вкладывались в такие скиллы)
- репозиторий самих агентов / воркфлоу (который будет использовать и LLM из репозитория, и скиллы и тулзы. На мой взгляд звучит сложновато. Сначала как будто нужно предыдущие два пункта закрыть, чтобы перейти к самим агентам. Но вдруг возьмут нахрапом!)
А как вы думаете, что это будет? Оставляйте голос ниже или пишите свой вариант
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥2 2
Репозиторий чего запустит HF?
Anonymous Poll
22%
Skills
11%
Tools
39%
AI агенты/Workflows в каком-то виде
2%
Свой вариант (напишу в комменты к посту выше)
26%
Не знаю, хочу посмотреть результаты
Media is too big
VIEW IN TELEGRAM
Создаем тулы для AI агентов за 1 вечер
Готовы провести вечер в приятной агентной компании?🎹 Продолжаем курс про AI агентов. Серия 2.1. Сегодня создаем кастомные тулы и прикручиваем их агентам.
Вы наверняка уже не раз слышали про тулы, про MCP сервера, про A2A. Но что это такое на практике? Сложно ли их создавать? Разбираемся.
Теория.
Тул (инструмент от англ. "tool") — это руки и органы чувств агента. С их помощью он узнает информацию или выполняет действия. Например, юзер просит рассказать погоду. Конечно, модель не знает этого из обучения. Поэтому ей необходимо:
- узнать локацию юзера — для этого она вызовет тул "get_location"
- найти погоду в этой локации — модель вызовет "get_weather(location)", куда в качестве аргумента передаст собственно локацию, где нужно назвать погоду.
Тулы бывают трех видов:
1. Function Tools — собственно функции на любом языке программирования типа "get_weather()", которые описаны человеческим языком. Модели опираются на их название и описание и по необходимости их вызывают.
2. Встроенные тулы. Провайдеры LLM зачастую встраивают самые важные тулы прямо в модели. Точнее, на самом деле они работают точно так же, как в первом пункте. Но для юзера нет необходимости писать эти функции — их уже написал Google (например) за вас.
3. Agent Tools — агенты как тулы. Иногда набор действий получается достаточно сложный и вариативный. Тогда проще написать маленького агента, который сам будет выполнять роль инструмента. Принцип тот же, что и в первых двух пунктах, просто инструмент чуть сложнее.
MCP (Model Context Protocol) — это протокол с клиент-серверной архитектурой, который "оборачивает" общение агентов и тулов в стандартизированный формат. Главная задача MCP предоставить универсальный формат общения, чтобы создатели AI агентов не писали 1000 и 1 кастомный коннектор к каждому тулу. А разработчики MCP-серверов в свою очередь могут быть уверены, что их детище легко интегрировать в любой существующий агент.
Детальнее про MCP мы поговорим в следующий раз. Слишком уж большая тема!
Практика.
Сегодня сделаем первый собственный тул и тул-агента, который сам выполняет роль инструмента.
1. Для начала копируем себе Kaggle ноутбук. Не забудьте поставить галочку напротив GOOGLE_API_KEY в add-ons, чтобы пользоваться Gemini.
2. Секцию 1 прокликиваем — это стандартная настройка ноутбука, как и в прошлые разы.
3. В Секции 2 приводится пример создания агента, который умеет конвертировать валюты и считать комиссию за эту операцию. Для этого используется две обычные функции, написанные на питоне. Обратите внимание, что в случае самописных тулов критически важно следовать лучшим практикам написания и документирования функций на питоне:
- использование подсказок типов
- описание функции через докстринги с четким определением аргументов и что возвращает функция
- возвращение функцией словаря
- обработка ошибок функции.
В системном промпте агента важно описать, какая функция для чего используется, но не нужно описывать, как функция это делает — это лишь запутает агента!
Как определить в агенте тулы, чтобы он мог их вызывать — мы уже рассматривали в этой части.
4. В Секции 3 реализуется агент-тул, который заменяет калькулятор. LLM плохо считают. Поэтому для любых вычислений лучше полагаться на код, который напишет AI агент. Для этого в Gemini встроен тул "BuiltInCodeExecutor", который позволяет Gemini писать и запускать код прямо на серверах гугл. Но загружать эту функциональность в основного агента было бы некорректно архитектурно. У основного агента — роль оркестратора, и не более. Поэтому мы создаем отдельного агента-кодера и превращаем его в инструмент.
5. В Секции 5 описываются специфические виды тулов из ADK (Long Running Function Tools — то же самое, что и обычные Function Tools, только вызываемые в асинхронном формате тк долго отрабатывают, и OpenAPI Tools — прослойка поверх обычного REST API, если лень писать полноценный MCP).
Вот вы и научились создавать свои тулы и прикручивать их агентам!🥂
З.Ы. видео сгенерировано по Whitepaper.
Заместители
Готовы провести вечер в приятной агентной компании?
Вы наверняка уже не раз слышали про тулы, про MCP сервера, про A2A. Но что это такое на практике? Сложно ли их создавать? Разбираемся.
Теория.
Тул (инструмент от англ. "tool") — это руки и органы чувств агента. С их помощью он узнает информацию или выполняет действия. Например, юзер просит рассказать погоду. Конечно, модель не знает этого из обучения. Поэтому ей необходимо:
- узнать локацию юзера — для этого она вызовет тул "get_location"
- найти погоду в этой локации — модель вызовет "get_weather(location)", куда в качестве аргумента передаст собственно локацию, где нужно назвать погоду.
Тулы бывают трех видов:
1. Function Tools — собственно функции на любом языке программирования типа "get_weather()", которые описаны человеческим языком. Модели опираются на их название и описание и по необходимости их вызывают.
2. Встроенные тулы. Провайдеры LLM зачастую встраивают самые важные тулы прямо в модели. Точнее, на самом деле они работают точно так же, как в первом пункте. Но для юзера нет необходимости писать эти функции — их уже написал Google (например) за вас.
3. Agent Tools — агенты как тулы. Иногда набор действий получается достаточно сложный и вариативный. Тогда проще написать маленького агента, который сам будет выполнять роль инструмента. Принцип тот же, что и в первых двух пунктах, просто инструмент чуть сложнее.
MCP (Model Context Protocol) — это протокол с клиент-серверной архитектурой, который "оборачивает" общение агентов и тулов в стандартизированный формат. Главная задача MCP предоставить универсальный формат общения, чтобы создатели AI агентов не писали 1000 и 1 кастомный коннектор к каждому тулу. А разработчики MCP-серверов в свою очередь могут быть уверены, что их детище легко интегрировать в любой существующий агент.
Детальнее про MCP мы поговорим в следующий раз. Слишком уж большая тема!
Практика.
Сегодня сделаем первый собственный тул и тул-агента, который сам выполняет роль инструмента.
1. Для начала копируем себе Kaggle ноутбук. Не забудьте поставить галочку напротив GOOGLE_API_KEY в add-ons, чтобы пользоваться Gemini.
2. Секцию 1 прокликиваем — это стандартная настройка ноутбука, как и в прошлые разы.
3. В Секции 2 приводится пример создания агента, который умеет конвертировать валюты и считать комиссию за эту операцию. Для этого используется две обычные функции, написанные на питоне. Обратите внимание, что в случае самописных тулов критически важно следовать лучшим практикам написания и документирования функций на питоне:
- использование подсказок типов
def get_fee_for_payment_method(method: str) -> dict:
- описание функции через докстринги с четким определением аргументов и что возвращает функция
- возвращение функцией словаря
- обработка ошибок функции.
В системном промпте агента важно описать, какая функция для чего используется, но не нужно описывать, как функция это делает — это лишь запутает агента!
Как определить в агенте тулы, чтобы он мог их вызывать — мы уже рассматривали в этой части.
4. В Секции 3 реализуется агент-тул, который заменяет калькулятор. LLM плохо считают. Поэтому для любых вычислений лучше полагаться на код, который напишет AI агент. Для этого в Gemini встроен тул "BuiltInCodeExecutor", который позволяет Gemini писать и запускать код прямо на серверах гугл. Но загружать эту функциональность в основного агента было бы некорректно архитектурно. У основного агента — роль оркестратора, и не более. Поэтому мы создаем отдельного агента-кодера и превращаем его в инструмент.
5. В Секции 5 описываются специфические виды тулов из ADK (Long Running Function Tools — то же самое, что и обычные Function Tools, только вызываемые в асинхронном формате тк долго отрабатывают, и OpenAPI Tools — прослойка поверх обычного REST API, если лень писать полноценный MCP).
Вот вы и научились создавать свои тулы и прикручивать их агентам!
З.Ы. видео сгенерировано по Whitepaper.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3 1 1
AI надоел. Но дело не в AI
Я постоянно исследую пространство AI продуктов и сервисов. И ответственно заявляю. Компании перестали стараться!
Уже пару лет как AI — это главный инструмент компаний вовлекать юзеров. Но если сначала AI оказывал вау-эффект сам по себе, то сейчас халява кончилась. И стало понятно, что придумать компании ничего нового не могут (или не хотят?). Технология есть, а как ее использовать? Да как нибудь для галочки!
У всех одно и то же🤦♂️
- Каждый дурак сделал собственного «умного» чат-бота в поддержку, по сути обертку ChatGPT, чтобы отвечать на частые вопросы. А юзеры кричат: «Стойте! Мы же хотели ровно наоборот — человеков в поддержку!»
- В каждую дырку сделали затычку из LLM, чтобы юзеры теперь спрашивали текстом все, что раньше делали мышкой или пальцем. И как будто никто не задумывается — а это точно удобнее?!
- Везде навтыкали LLM Summary. «Юзеры, вы сэкономите кучу времени! Саммари будут супер короткими!» — кричат нам компании. Настолько короткими, что становится уже нифига непонятно, и приходится читать источник все равно или тратить время на доп вопросы к LLM!
- Обещают, что ИИ напишет или нарисует за вас. Только сначала напишите детально, что вам нужно! И юзеры не понимают, а нафига оно им, если сделать 1 раз проще самому?!
Я не преувеличиваю.
- Зайдите в свой банк — что там, полезная AI аналитика по вашим доходам и расходам? Или может AI агент, который оплатит ЖКХ сам?
Нееет… там только самое необходимое: чат-бот в поддержке и сгенерированные обои!
- Зайдите в свое приложение с музыкой. Что там у нас… «умная подборка», которая для юзеров работает так же, как 10 лет назад. И, конечно, красивые картинки под музыку! А где возможность сделать собственный ремикс с помощью условного Suno? Где AI, который понимает мое настроение, формируя четкий плейлист под это? Данные то с моих устройств и соц сетей собирают — и куда оно все идет? Только на продажу? Где AI агент, который помогает мне управлять настроением — пробуждаться тяжким утром и успокаиваться перед отходом ко сну? Такие задачи действительно самому лень решать — это потребует кучу времени на собрать плейлист самому.
- Открываем профиль в соцсети. Ну тут точно не облажались. ИИ же буквально училось на соц сетях! Значит точно можно настраивать контент, чтобы самому регулировать, что я смотрю…А, нет? Как насчет настраиваться «на волну» рекомендаций других юзеров, или анализировать свои интересы, чтобы выйти из своего инфопузыря (отличный пример — GroundNews). Нет, там только инструменты для превращения реального контента в ИИ-слоп, чтобы ещё больше подпитывать тревожность целых поколений, которые смотрят на «идеальную» кожу и несуществующие идеальные пейзажи…
В общем, смотрят друг на друга и бездумно копируют! Все из-за прессинга со стороны инвесторов, которые не особо то и шарят в том, что нужно продукту. Им нужен ИИ, потому что инфоцыгне разгоняют в LinkedIn невероятные выручки от внедрения ИИ, супер эффективность, несуществующие запросы со стороны юзеров.
К счастью, есть компании, которые подходят к вопросу с умом☀️ В основном, правда, это непосредственно разработчики моделей. Круто, когда это экосистемные игроки.
Например, Сбербанк интегрирует свой Салют по полной. Можно сказать образцово — у них и полноценные агентные действия и аналитика нормальная (в отличие от красного банка). Яндекс неплохо обыгрывает умный дом и свой браузер с помощью ИИ (а вот музыку обыгрывают бездарно, на мой взгляд). Google пронизывает свой Workspace функциями AI. В общем, есть на кого ровняться!
AI должен быть на службе у продуктов, а не наоборот!
Заместители
Я постоянно исследую пространство AI продуктов и сервисов. И ответственно заявляю. Компании перестали стараться!
Уже пару лет как AI — это главный инструмент компаний вовлекать юзеров. Но если сначала AI оказывал вау-эффект сам по себе, то сейчас халява кончилась. И стало понятно, что придумать компании ничего нового не могут (или не хотят?). Технология есть, а как ее использовать? Да как нибудь для галочки!
У всех одно и то же
- Каждый дурак сделал собственного «умного» чат-бота в поддержку, по сути обертку ChatGPT, чтобы отвечать на частые вопросы. А юзеры кричат: «Стойте! Мы же хотели ровно наоборот — человеков в поддержку!»
- В каждую дырку сделали затычку из LLM, чтобы юзеры теперь спрашивали текстом все, что раньше делали мышкой или пальцем. И как будто никто не задумывается — а это точно удобнее?!
- Везде навтыкали LLM Summary. «Юзеры, вы сэкономите кучу времени! Саммари будут супер короткими!» — кричат нам компании. Настолько короткими, что становится уже нифига непонятно, и приходится читать источник все равно или тратить время на доп вопросы к LLM!
- Обещают, что ИИ напишет или нарисует за вас. Только сначала напишите детально, что вам нужно! И юзеры не понимают, а нафига оно им, если сделать 1 раз проще самому?!
Я не преувеличиваю.
- Зайдите в свой банк — что там, полезная AI аналитика по вашим доходам и расходам? Или может AI агент, который оплатит ЖКХ сам?
Нееет… там только самое необходимое: чат-бот в поддержке и сгенерированные обои!
- Зайдите в свое приложение с музыкой. Что там у нас… «умная подборка», которая для юзеров работает так же, как 10 лет назад. И, конечно, красивые картинки под музыку! А где возможность сделать собственный ремикс с помощью условного Suno? Где AI, который понимает мое настроение, формируя четкий плейлист под это? Данные то с моих устройств и соц сетей собирают — и куда оно все идет? Только на продажу? Где AI агент, который помогает мне управлять настроением — пробуждаться тяжким утром и успокаиваться перед отходом ко сну? Такие задачи действительно самому лень решать — это потребует кучу времени на собрать плейлист самому.
- Открываем профиль в соцсети. Ну тут точно не облажались. ИИ же буквально училось на соц сетях! Значит точно можно настраивать контент, чтобы самому регулировать, что я смотрю…А, нет? Как насчет настраиваться «на волну» рекомендаций других юзеров, или анализировать свои интересы, чтобы выйти из своего инфопузыря (отличный пример — GroundNews). Нет, там только инструменты для превращения реального контента в ИИ-слоп, чтобы ещё больше подпитывать тревожность целых поколений, которые смотрят на «идеальную» кожу и несуществующие идеальные пейзажи…
В общем, смотрят друг на друга и бездумно копируют! Все из-за прессинга со стороны инвесторов, которые не особо то и шарят в том, что нужно продукту. Им нужен ИИ, потому что инфоцыгне разгоняют в LinkedIn невероятные выручки от внедрения ИИ, супер эффективность, несуществующие запросы со стороны юзеров.
К счастью, есть компании, которые подходят к вопросу с умом
Например, Сбербанк интегрирует свой Салют по полной. Можно сказать образцово — у них и полноценные агентные действия и аналитика нормальная (в отличие от красного банка). Яндекс неплохо обыгрывает умный дом и свой браузер с помощью ИИ (а вот музыку обыгрывают бездарно, на мой взгляд). Google пронизывает свой Workspace функциями AI. В общем, есть на кого ровняться!
AI должен быть на службе у продуктов, а не наоборот!
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2 7👍4 2👎1 1
Ролевые игры с AI: погружение
Многие слышали, что люди заводят отношения с AI, кто-то даже выходит замуж за ChatGPT. Казалось бы шиза, но это крайности. А вот феномен ролевых игр гораздо более распространенный. И AI оказался отличным напарником в этом занятии.
Ведь люди уже давно делают это, просто через книги, тамогочи, компьютерные RPG и тд. С AI это развлечение вышло на новый уровень! Приглашаю вас познакомиться с тремя прикольными сервисами, которые я успел поисследовать.
1. Первый опыт — Grok Companions (первые два скрина).
Это встроенная функция в приложение Grok. LLM дали анимированные образы и характер (заданный системным промптом). Доступно 5 персонажей. 2 для флиртинга, 1 просто дружеский, 1 мультяшка детский и 1 мультяшка для взрослых — матершинник. Все говорят по-русски, хоть и с забавным Американским акцентом. В целом не очень захватывающий опыт. Немного потрындеть, потренировать навыки флиртинга и забить. Может с друзьями поугарать над ругающейся пандой. К глубокой беседе они не располагают. Самое полезное, что я придумал — тренировать с ними разговорный английский.
2. Следующий уровень кроличьей норы — Character.ai (3-й скрин и видео).
Тут все серьезно. Это огромная база таких персонажей. Для каждого прописан характер, сгенерирован образ и даже можно генерить видосики с любимыми персонажами. Можно переписываться, а можно и созвониться. Отдельный фан в том, что можно выбрать отдельно персонажа и отдельно мир, в котором вы с ним будете. Например выбираешь поп-звезду и помещаешь ее в зомби-апокалипсис вместе с собой. А дальше развитие истории зависит в основном от тебя. Но и сеттинг «ведет» тебя. Каждый юзер может создать своего персонажа. Чтобы начать — хватит буквально пары коротких промптов. Я вот сделал Стимпанк Бобра🤙
На этой платформе можно залипнуть как минимум за счёт разнообразия персонажей. К тому же есть лента с рилсами из сгенерированных персонажей. А это уже ТикТок эффект — начал листать, очнулся через час. Можно купить подписку за 10 баксов в месяц. Отключает рекламу, подключает более умные модели и 18+. Но даже в бесплатном режиме получается достаточно весело.
3. И совершенно неожиданное ответвление мира AI ролевух — Replika.ai (5,6,7-й скриншоты).
И это блин Sims! Только ты играешь с 1 конкретным симом. Строишь с ним отношения. Покупаешь ему скины, скины для его помещения и тд. Суть — прокачивать с ним отношения. Игра буквально подталкивает к выстраиванию эмоциональной связи. Хотя персонаж во взаимодействии не забывает делать акцент на том, что он цифровое существо. Но сразу умасливает — «существо, созданное специально, чтобы сделать тебя счастливым!». С персонажем можно не только чатиться и созваниваться по видео-связи, но и сделать совместное селфи или попросить персонажа прислать видео-селфи! А предметы интерьера не просто картинки на фоне — персонаж может к ним подойти и провзаимодействовать с ними. Например посмотреть в телескоп. Получается мощный коктейль из проверенных игровых механик, доната и эмоциональной привязанности. Отдельная интересная концепция монетизации сервиса — в платную подписку входит «подглядывание в мысли персонажа». То есть по сути продают диалог с одной и той же LLM два раза. Но второй раз под соусом вуаеризма. Мое почтение этим коммерсантам🥂
Что я понял
Это сервисы, которые живут на необходимости дозированной социализации интровертов и 18+. По ощущениям, никто не решает там никакие «задачи». Это мир фанфиков на стероидах. Не проверял, но судя по контенту подозреваю, что аудитория в основном женская + подростки всех мастей.
Заглянув буквально через замочную скважину в этот мир, стало сильно понятнее, как эмоционально ранимые люди, особенно в тяжелой жизненной ситуации находят легкий способ сбежать из реальности и потом жестко привязываются к персонажам. А разработчики капитализируют на этом, как делают тысячелетиями авторы на книгах и ролевых играх.
Возможно, кому-то это помогает прокачивать эмоциональный интеллект или развивать фантазию. Да и сам я 2 года жизни в своё время слил в MMORPG World of Warcraft😒 . Так что с пониманием.
Заместители
Многие слышали, что люди заводят отношения с AI, кто-то даже выходит замуж за ChatGPT. Казалось бы шиза, но это крайности. А вот феномен ролевых игр гораздо более распространенный. И AI оказался отличным напарником в этом занятии.
Ведь люди уже давно делают это, просто через книги, тамогочи, компьютерные RPG и тд. С AI это развлечение вышло на новый уровень! Приглашаю вас познакомиться с тремя прикольными сервисами, которые я успел поисследовать.
1. Первый опыт — Grok Companions (первые два скрина).
Это встроенная функция в приложение Grok. LLM дали анимированные образы и характер (заданный системным промптом). Доступно 5 персонажей. 2 для флиртинга, 1 просто дружеский, 1 мультяшка детский и 1 мультяшка для взрослых — матершинник. Все говорят по-русски, хоть и с забавным Американским акцентом. В целом не очень захватывающий опыт. Немного потрындеть, потренировать навыки флиртинга и забить. Может с друзьями поугарать над ругающейся пандой. К глубокой беседе они не располагают. Самое полезное, что я придумал — тренировать с ними разговорный английский.
2. Следующий уровень кроличьей норы — Character.ai (3-й скрин и видео).
Тут все серьезно. Это огромная база таких персонажей. Для каждого прописан характер, сгенерирован образ и даже можно генерить видосики с любимыми персонажами. Можно переписываться, а можно и созвониться. Отдельный фан в том, что можно выбрать отдельно персонажа и отдельно мир, в котором вы с ним будете. Например выбираешь поп-звезду и помещаешь ее в зомби-апокалипсис вместе с собой. А дальше развитие истории зависит в основном от тебя. Но и сеттинг «ведет» тебя. Каждый юзер может создать своего персонажа. Чтобы начать — хватит буквально пары коротких промптов. Я вот сделал Стимпанк Бобра
На этой платформе можно залипнуть как минимум за счёт разнообразия персонажей. К тому же есть лента с рилсами из сгенерированных персонажей. А это уже ТикТок эффект — начал листать, очнулся через час. Можно купить подписку за 10 баксов в месяц. Отключает рекламу, подключает более умные модели и 18+. Но даже в бесплатном режиме получается достаточно весело.
3. И совершенно неожиданное ответвление мира AI ролевух — Replika.ai (5,6,7-й скриншоты).
И это блин Sims! Только ты играешь с 1 конкретным симом. Строишь с ним отношения. Покупаешь ему скины, скины для его помещения и тд. Суть — прокачивать с ним отношения. Игра буквально подталкивает к выстраиванию эмоциональной связи. Хотя персонаж во взаимодействии не забывает делать акцент на том, что он цифровое существо. Но сразу умасливает — «существо, созданное специально, чтобы сделать тебя счастливым!». С персонажем можно не только чатиться и созваниваться по видео-связи, но и сделать совместное селфи или попросить персонажа прислать видео-селфи! А предметы интерьера не просто картинки на фоне — персонаж может к ним подойти и провзаимодействовать с ними. Например посмотреть в телескоп. Получается мощный коктейль из проверенных игровых механик, доната и эмоциональной привязанности. Отдельная интересная концепция монетизации сервиса — в платную подписку входит «подглядывание в мысли персонажа». То есть по сути продают диалог с одной и той же LLM два раза. Но второй раз под соусом вуаеризма. Мое почтение этим коммерсантам
Что я понял
Это сервисы, которые живут на необходимости дозированной социализации интровертов и 18+. По ощущениям, никто не решает там никакие «задачи». Это мир фанфиков на стероидах. Не проверял, но судя по контенту подозреваю, что аудитория в основном женская + подростки всех мастей.
Заглянув буквально через замочную скважину в этот мир, стало сильно понятнее, как эмоционально ранимые люди, особенно в тяжелой жизненной ситуации находят легкий способ сбежать из реальности и потом жестко привязываются к персонажам. А разработчики капитализируют на этом, как делают тысячелетиями авторы на книгах и ролевых играх.
Возможно, кому-то это помогает прокачивать эмоциональный интеллект или развивать фантазию. Да и сам я 2 года жизни в своё время слил в MMORPG World of Warcraft
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3 2❤1 1