Заместители
1.04K subscribers
87 photos
77 videos
4 files
110 links
Цех ИИ агентов. Здесь я тестирую цифровых заместителей в разных профессиях. Если агент справляется — он остаётся в Цехе на “постоянку”. По пути обсуждаем актуальные новости про ИИ агентов простым языком.
Добро пожаловать в эру замещения.
Download Telegram
Perplexity теперь помнит всё, независимо от выбора модели ИИ

Долгосрочная кросс-чатовая память подъехала в Perplexity. Функция не новая для того же ChatGPT. Но в Perplexity она заиграла новыми красками.

Все потому что в Perplexity можно выбирать разные модели для каждого нового чата: GPT-5.1, Claude Sonnet 4.5, Grok 4.1, Gemini 3 Pro и тд. И раньше, соответсвенно, когда вы переключали модель и чат — вас приветсвовал девственно чистый ИИ разум, который не знал, что вы обсуждали с другими модельками внутри Perplexity в соседних чатах.

Теперь же весь Perplexity пронизан единой памятью и все ответы будут это учитывать. Память будет постоянно пополняться по мере накопления запросов, которые вы делаете через Perplexity.

Память по умолчанию не работает в режиме инкогнито. Можно в целом эту функцию отключить, если вы за приватность. Хотя обещают, что данные храняться в зашифрованном виде.

Мой экспириенс

Comet — мой дефолтный браузер (напомню, это бесплатный шикарный браузер от Perplexity, на базе Perplexity). С памятью стало гораздо юзабельнее. В базовом поиске не очень что-то поменялось. Но теперь иногда можно делать "шорткаты" и просто писать "посоветуй мне Х" вместо развернутого описания, на что опираться при формировании совета. Ответ получается действительно интересный и в тему (смотрите скриншотик).

В целом, опыт схожий с ChatGPT. Но я понял, что, такая память — это для меня еще один серьезный аргумент в пользу полного перехода на Perplexity. Откровенно говоря, в ГПТ я захожу все реже. Очень удобно, когда действительно умный и персонализированный помощник сидит вместе с тобой в браузере.

А еще Perplexity таким образом строит систему удержания юзеров на платной подписке. Как известно, купить подписку Perplexity Pro на год можно за пару баксов (через официальные региональные промокоды). Но через год она кончится и юзер встанет перед выбором: либо оплатить 200 баксов за продление текущего аккаунта, либо на новый аккаунт купить новую годовую подписку за пару баксов и потерять всю память, которую он накопил за год! 🙂

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍931
OpenAI попал в ловушку скейлинга

Сэм Альтман похоже слегка психанул после выхода Gemini 3 и Claude Opus 4.5, которые догнали и перегнали GPT-5.1. А потом и другие стали подтягиваться.

Согласно WSJ он сделал внутреннюю рассылку, в которой говорится о необходимости отложить все другие проекты:
- помощники по шоппингу (между прочим в этом году трафик от ИИ агентов вырос на 805% на сайты крупнейших ритейлеров США. А по всему миру ИИ агенты повлияли на онлайн покупки на сумму 14,2 млрд. долл.)
- связанные с здравоохранением
- и другие юзерские продукты.

Весь фокус возвращается на доработку самих моделей! Скорость ответа, релевантность и надежность.

Вообще в индустрии давно наклевывалось общее впечатление, что модели достигли такого масштаба, что дальнейшее их раздувание не даст существенного прироста при существенных затратах.

Но релиз Gemini 3 Pro и Nano Banana Pro не просто перебил GPT-5.1 по бенчмаркам, но и показал, что модели могут ощутимо лучше перформить на реальных задачах. Или… это субъективное впечатление юзеров? Это не важно — ведь в конечном итоге именно за него и идет борьба, а не за бенчмарки. И новая Gemini привлекла существенную толпу юзеров.

Пока толстый сохнет, худой сдохнет

Кажется, что дядя Сэм попал в патовую ситуацию. С одной стороны — GPT-5 (и потом GPT-5.1) позиционировали как топовую прорывную модель. А она устарела за пару месяцев. Как Сэму теперь продавать инвесторам величие OpenAI? Прямо сейчас инвестиции — это самый важный источник жизни компании.

С другой стороны — очевидно, что компании нужно срочно организовывать более прогнозируемый и стабильный источник дохода. То есть продавать услуги в B2C и B2B. А для этого нужно вкладываться в создание тех самых продуктов, а не улучшение моделей.

У Гугла при этом такой проблемы нет — у них доходы делает сдача мощностей в аренду и реклама. Они в этой гонке могут просто выдавить OpenAI массой.

И ещё раз забавно, что на фоне всего этого именно NVIDIA озаботилась решением проблемы неэффективности использования толстых моделей. О чем я писал тут.

Заместители
🔥5522
Marble от World Labs: 3D мир из одного промпта

World Labs в ноябре выпустила Marble — модель для генерации 3D миров, а вместе с ней 3D редактор со встроенными AI функциями. Буквально за несколько минут из 1 промпта модель генерирует мир, по которому можно перемещаться как по игре.

В отличие от других решений, типа Genie 3 от Google (и в меньшей степени стартапов Odyssey и Decart), эта модель генерит именно статичные миры.

Конкуренты же, по сути, налету генерят видеоряд, а не миры. Genie 3 при этом запоминает, что уже сгенерено и поддерживает консистентность видео, имитируя передвижение по миру.

Помимо самой генерации мира, World Labs выпустили редактор Chisel, который может редактировать созданный мир также по промпту (доступно только в платной версии).

🍵 Мнение

Я попробовал создать рабочее пространство: офис на скале с видом на океан. Сгенерил красивое изображение прведрительно в Nano Banana Pro и закинул в Marble. Как получилось — смотрите на видео.

Сейчас что Marble, что конкуренты — на практике достаточно бесполезны. Качество текстур и самой генерации в Marble пока далеко от HD. А в Genie 3 сильно ограничено время "консистентности мира".

Но это мощные заделы на будущее, где каждый сможет создавать свою реальность просто описав ее. А Цукерберг выдаст нам очки, чтобы погрузиться в эту реальность. Помимо этого, такие миры открывают для AI дорогу к простому и дешевому обучению реальному миру, 3D ориентированию и физике в симуляции.

Ну что, первому игроку приготовиться...

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥522
Ура! Нас целая 1000 🎉

Я стартанул этот канал всего полгода назад. К этому моменту тема AI уже летела на безумной скорости вперед, а тема AI агентов набирала обороты каждый день. При этом я понял, что большинство просто не поспевает даже осознать:
- а что вообще происходит?
- где хайп, а где правда?
- этот ваш ИИ как вообще в жизни то применить?

Самое забавное, что даже в кругу AI-спецов, трудящихся в самой гуще событий мира AI, было такое же чувство! И, честно говоря, это чувство остается и по сей день. Для меня это чувство стало драйвером в развитии "Заместителей"!

Я стал формировать привычку каждый день разбираться в чем-то новом, рассуждать и записывать мысли. Сначала только про AI агентов, а со временем я выработал принципы и ценности, согласно которым я тут вещаю. Хочу ими поделиться с вами:
- я пишу о том, что в мире AI зажигает глаза и заставляет с оптимизмом смотреть в будущее
- я стараюсь как можно больше тестировать своими руками, так как это самый верный способ проверить, что может приносить реальную практическую пользу уже сегодня
- при этом рассказываю только то, что, на мой взгляд, действительно важно для мира AI и всех к нему причастных. Отсеивая бесконечный инфошум.

И вот спустя полгода нас целая тыща — людей, которые заряжаются от самых современных технологий, от постоянного движения вперед и развития! Людей, кто стремится быть на самом острие в мире AI!

Спасибо вам за то, что читаете, лайкаете, репостите и комментите! Меня это мотивирует писать больше, придумывать новые форматы и искать больше полезных и крутых AI агентов, сервисов и технологий 😎

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
548🔥1716👍12
Вайб-ЛЛМинг! Hugging Face сделали AI агента, который сам обучает LLM модели

Теперь хватит минимальных навыков работы с кодом, чтобы обучить свою LLM.

Работает все чисто на промптах с минимальной подготовкой среды:
- Вы даёте агенту задачу дообучить модель на датасете: можно указать свой датасет или позволить ему найти подходящий самому.​
Пример от HF. Вот таким промптом дается задача агенту:
Fine-tune Qwen3-0.6B on the open-r1/codeforces-cots dataset for instruction following.


- Агент подбирает железо для обучения исходя из размера модели и проверяет датасет.​
В данном примере он подберет t4-small (наименьшая достаточная конфигурация, чтобы дообучить эту модель).

- Обучение запускается на облачных GPU от Hugging Face. Перед запуском агент покажет конфигурацию (GPU, ожидаемое время обучения, стоимость, репозиторий где будет сохранена обученная модель).

- Агент стартует обучение и делится дашбордом с прогрессом в реальном времени через Trackio.​

- Чекпоинты отправляются в Hub (репозиторий моделей).

Как они так красиво все автоматизировали?

Hugging Face на текущий момент, пожалуй, крупнейшая международная платформа, которая предоставляет все сразу в одном месте:
- железо для обучение
- удобная платформа и библиотеки
- самая большая библиотека опенсорс моделей
- самая большая библиотека опенсорс датасетов.

И на этот фундамент они добавили Hugging Face Skills — суть Agent Context Protocol (ACP). На практике эти "скиллы" — это папки, в которых собраны инструкции, скрипты и ресурсы для использования ИИ-агентом под конкретный кейс. В каждой такой папке есть файл “SKILL.md” с YAML-фронтматтером (имя и описание) и далее текст с инструкциями, которым кодовый агент следует, пока этот скилл активен. И вот сделали такой скилл для обучения LLM моделей на платформе и мощностях HF.

На текущий момент Hugging Face скиллы совместимы с Claude Code, OpenAI Codex, Gemini CLI. И продолжают расширять совместимость.

😎 Почему это важно?

Проблема LLM моделей в том, что они либо знают "всё", но при этом слишком жирные и дорогие для on-premise. Либо они маленькие и не всегда подходят для узко специфических задач.

Решается эта проблема дообучением/файнтюнингом маленьких LLM-ок на конкретных датасетах под конкретные задачи.

И вот раньше делать это могли только спецы с глубоким пониманием матчасти и навыками в AI. Но теперь Hugging Face сильно ослабляет эти ограничения!

Теперь хватит минимальных навыков, которые можно освоить за вечер! Единственный нюанс: конкретно этот агент работает только с платным аккаунтом HF (тк использует платный запуск джобов). Но это не важно, тк это все равно существенно дешевле человеко-часов любого AI разработчика!

No code будущее все ближе 👀

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥17322
The state of enterprise AI: что узнали в OpenAI про 1 миллион своих корпоративных клиентов

OpenAI опубликовал новый отчет об использовании их моделей в Enterprise секторе. Он основан на:
- данных, агрегированных по энтерпрайз юзерам ChatGPT (более 1 миллиона компаний)
- опросе 9000 сотрудников из 100 компаний, проведенном OpenAI

Самые яркие результаты:
1. Энтерпрайз использование растет. Кол-во сообщений ЧатуГПТ увеличилось в 8 раз за прошедший год. А потребление токенов в 320 раз! Причина — активное использование ризонинга.

2. Энтерпрайз юзеры оценивают экономию времени в 40-60 минут в день. А это, кстати, 1/8 рабочего времени — проведите мысленный эксперимент, посчитайте: (ваша ЗП)/8 = столько денег экономит компания, если вы используете LLM для работы. Тут конечно, предполагается, что вы как добросовестный трудяга работаете над другими задачами в освободившееся время. Стоимость подписки в этом уравнении ничтожна.

3. Энтерпрайз юзеры рапортуют, что ChatGPT приносит реальную ценность: программисты быстрее дебажат и пишут код, маркетологи быстрее реализуют маркетинговые кампании, HR-ы видят увеличение вовлеченности сотрудников. Тут, правда, на мой взгляд все достижения весьма зыбкие 🍵 Но, понятно, что все тестируют новинку в безрисковых нишах, поэтому и эффект пока смазанный.

4. Образуется разрыв между power users (95 персентиль наиболее быстро внедряющих ChatGPT в процессы компаний) и средними юзерами. При этом OpenAI утверждает, что есть положительная зависимость между затраченными токенами и сэкономленным временем.

5. Юзеры активно используют продвинутые инструменты: GPTs (простые интеграции с корп. сервисами прямо в интерфейс ChatGPT) и Projects (папка чатов с настроенным системным промптом под конкретную задачу).

6. Самые быстро растущие секторы по кол-ву юзеров:
6.1 Технологический сектор (рост в 11 раз г/г)
6.2 Здравоохранение (рост в 8 раз г/г)
6.3 Производственный сектор (рост в 7 раз г/г)

7. Кол-во юзеров в Австарлии, Бразилии, Нидерландах и Франции (Mistral где-то оплакивает утекающий домашний рынок) растет быстрее всего. Догадайтесь, про какие регионы информации просто нет — но я думаю, что нас можно вписать в статистику Нидерландов 😁

Какие выводы?

Тайминг, в котором вышел этот отчет, наводит на мысль, что главная роль этого отчета — еще один инструмент убеждения инвесторов OpenAI, что все хорошо 😅 Отчет как бы кричит: "вон как много времени экономят, вон как много токенов тратят, вон как всем полезно!". Совсем не по-научному, что не подсветили какие-то слабые места и риски внедрения LLM, например безопасность. А вот для рекламного буклета такой нарратив — прямо то, что надо.

В остальном суть, на самом деле, полностью созвучна с другими топовыми отчетами, которые я описывал тут.

Маркетинг-маркетингом, но AI действительно активно прописывается в рабочих процессах. Потихоньку. Ощутимых финансовых результатов добиваются в основном в автоматизации взаимодействия с клиентами и там, где можно автоматизировать низкоквалифицированный рутинный труд. Остальные отчитываются абстрактными успехами вовлеченности, потраченных токенов и тд.

Если вынести из всего этого главную мысль — она тоже остается прежней. Время "ознакомления" с ИИ прошло. Это реальный инструмент автоматизации. И каждой компании нужно его учиться использовать. Просто хотя бы купите сотрудникам подписку на любую LLM — это quick win. Особенно в тяжких финансовых условиях современного мира — это почти бесплатно +1/8 рабочей силы для компании!

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥211
Учимся делать мультиагентную систему за 1 вечер

Продолжаем погружаться в мир AI агентов 😎
Это продолжение курса по созданию агентов. Серия 1.3. (нумерацию упростил). Создаем мультиагентную систему на ADK.

Теория.

Мультиагентная система — это система состоящая из нескольких агентов, и имеющая следующие характеристики:
- Агенты в системе автономны. Каждый из них в своей зоне ответсвенности может принимать независимые решения.
- Агенты коммуницируют с помощью текста, символов, данных и тд., чтобы координировать свои усилия.
- Система имеет правила взаимодействия агентов, чтобы избегать конфликтов.

Я также рекомендую почитать пост про лучшие практики по созданию мультиагентной системы от Anthropic.

И также рекомендую освежить (или прочитать если пропустили) пост про то, как делать нельзя, чтобы не слить деньги на ветер при создании мультиагентной системы.

Есть три основных архитектуры мультиагентной системы:
1. Централизованная — есть агент-координатор, который разбивает запрос юзера на подзадачи и отдает другим агентам-исполнителям.
2. Децентрализованная — агенты действуют независимо и общаются между собой. В таком случае необходимо четко определять правила взаимодействия, чтобы все это не вылилось в хаос.
3. Гибридная — смесь первых двух в разных пропорциях и формах. Например, несколько агентов-координаторов между собой взаимодействуют децентрализованно. Но у каждого есть своя "команда", которую они координируют.

Теперь прыгаем в код.

Практика.

По аналогии с ноутбуком из прошлой серии — копируем себе новый Kaggle ноутбук. И галочку напротив GOOGLE_API_KEY в Secretes нужно снова включить.

Секция 1 ноутбука просто сетапит его по аналогии с первой серией.
В секции 2 начинается мякотка. Сначала мы сделаем централизованную систему из двух агентов: рисерчера (он будет гуглить в интернете) и суммаризатора.
1. Создаем агента рисерчера. Процесс идентичен тому, как мы создавали агента в предыдущей серии. Но есть нюанс. Теперь мы прописываем "output_key". Этот ключ поможет нам дальше найти результаты работы этого агента другим агентам в рамках сессии взаимодействия.
2. Дальше создается агент суммаризатор. Точно также, только с другой инструкцией.
3. Далее нам нужен агент-координатор, чтобы управлять двумя этими красавцами. Создаем опять агента. Но в инструкции мы прописываем ему пошаговый процесс с вызовом других агентов: вызови рисерчера, дальше вызови суммаризатора, верни саммари от него юзеру". И в тулы этого агента мы ставим других агентов вот таким образом:
tools=[AgentTool(research_agent), AgentTool(summarizer_agent)]

Обратите внимание, что координатор через такое указание тулов получит доступ к имени и описанию, которые мы написали для каждого агента в пунктах 1 и 2. Поэтому от качества нейминга и описания напрямую зависит, как хорошо координатор будет их вызывать. Не пожалейте времени, чтобы качественно тут все описать.
4. Запускаем любой запрос — получаем ответ от нашего координатора.

Ура, вы только что сделали простейшую мультиагентную систему! 💪

Дальше уже для самостоятельного изучения прокликайте ноутбук до конца.
Секция 3 расскажет о Sequential Workflow — иногда вы не хотите полагаться на ризонинг агента-координатора. Вам нужно просто последовательно вызвать ряд субагентов (это называется Pipeline). В ADK это решается через
SequentialAgent

Секция 4 расскажет про Parallel Workflows — когда агентам нет смысла делать работу последовательно, вы можете запускать их работать одновременно, а в конце суммаризовать их результаты. Для этого в ADK есть
ParallelAgent

Секция 5 расскажет про Loop Workflows — используется, когда нужно добиться вполне конкретного результата. И до его достижения останавливать работу агентов вы не хотите. Здесь будет двухуровневая обертка через
LoopAgent, который сам упакован в
SequentialAgent

Хороший брейнтизер 🎮

That's all guys! Stay tuned — в следующий разберем детальнее тулы и MCP (уж сколько раз он вам точно уши мозолил!)

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍743
OpenAI запускает собственные курсы с сертификатом по AI

Курс AI Foundations сначала обкатают в закрытом режиме с рядом американских университетов и компаний в течение пары месяцев. Потом он будет раскрыт для более широкой аудитории. Он будет встроен прямо в ChatGPT. По результатам прохождения курса будет выдан сертификат. Деталей о длине и содержании курса пока нет.

Одновременно запустили курс по применению ChatGPT для школьных учителей. Он бесплатный и уже доступен на Coursera (в РФ работает с ВПНом). На его освоение понадобиться всего 4 часа и не требуются никакие предварительные знания. Заточен он под юзеров ChatGPT, а не ИИ разработчиков. Цель — научить их выдавливать максимум из ГПТшки для преподавательских целей.

Инициативы приятные. Грамотно промптить LLM — тоже навык (хоть и достаточно простой). На мой взгляд этим навыком в 2026 должен обладать вообще каждый.

Особенный фокус на учителей тоже радует — ведь они наставники для подрастающего поколения, которое растет с нейронкой в руках. И этот курс нужен не столько для того, чтобы учителя учили детей юзать чатГПТ, сколько для того, чтобы они оставались авторитетом, были в курсе всех нейроуловок и хитростей, которые дети могут выкинуть, и не тянули AI-native поколение мертвым грузом в каменный век.

З.Ы. Конечно, понятно, что это еще один коммерческий ход по захвату рынка, обхаживанию своих подрастающих юзеров и тд. Но ведь главное как это делается — а делается через пользу. Поэтому молодцы!

Кидайте знакомым учителям на заметку ☀️

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥421
Ответка от OpenAI — GPT-5.2 уже здесь!

Дядя Сэм только что выкатил новую серию моделей GPT-5.2 в следующих версиях:
- Instant (самая быстрая)
- Thinking (рассуждающая)
- Pro (самая заряженная с настраиваемой «силой» рассуждений и лучшими результатами на бенчмарках)

Моделям прокачали:
- навыки кодинга (предварительно это теперь лучшая модель для кодинга, хотя на LMArena - Opus 4.5 все еще первый),
- математику
- агентные навыки (вызов тулов)
- визуальное понимание
- увеличили длину контекста (400k все еще мало по сравнению с 1м у Gemini)

Как результат GPT-5.2 успешно обошел Gemini 3 Pro на некоторых бенчах (например ARC-AGI-2, однако забавно, что на ARC-AGI первой версии Gemini в недавно вышедем режиме Deep Thinking остался в топе).

Но бог с ними с бенчами — они не очень показательны для обычной жизни. Поэтому OpenAI сфокусировались на реальных жизненных кейсах. И кажется, что новым моделькам можно отгрузить реальные рабочие задачи!

Примеры показывают:
- существенно улучшилась работа с таблицами (см скриншот 1: слева GPT-5.1, справа 5.2)
- лучше подготовка презентаций (скриншот 2)
- лучше распознает элементы в пространстве (скришнот 3)
- строит более комплексные цепочки рассуждения (скриншот 4)

В общем, выглядит хорошечно. OpenAI вернулся в лидеры AI гонки, а мы с вами радуемся новым топовым моделям. За это и любим конкуренцию!

Раскатывают постепенно, как всегда. Потестить пока не было возможности — ждемс! 👀

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥421
Media is too big
VIEW IN TELEGRAM
LobeChat — опенсорс хаб ИИ агентов

Китайцы продолжают наваливать (потенциально) годный опенсорс. LobeChat — опенсорс платформа, на которой можно (загибайте пальцы):
- создавать собственных агентов
- подключать чужих из маркета (>500 агентов доступно)
- подключать кучу MCP-тулов (>20 000 тулов)
- модели почти от любого вендора
- создавать свою векторную БД из любых документов (эксель, пдф, картинки, презентации, доки и тд.) через удобный интерфейс для RAG

Можно пользоваться из браузера в формате онлайн сервиса, а можно развернуть полностью локальную версию (через докер). Понадобится API ключ от нужной LLM. Можно также воткнуть локальную LLM.

Прикольные фичи

- От каждой беседы можно сделать ответвление в новый чат, сохранив текущий. Эту нужно, если вы достигли дзена в настройки контекста (стейта модели) и не хотите его попортить следующими запросами.
- Можно настраивать интенсивность ризонинга и детальность аутпута агента.
- Можно создавать отдельные базы знаний, разделенные по тематикам и подключать их по мере необходимости к агенту.
- Поддерживает "Артефакты" — отображение созданных веб-страничек и тд. прямо в окне приложения.
- В документации есть инфа про создание команд агентов, но на практике не нашел. Возможно, скоро появится.

Но есть нюансы

- Онлайн версия в бете. Работает иногда немного баговано
- Кредиты улетают просто моментально. Все триал кредиты у меня сгорели за создание 1 чата, подключение 1 тула и генерацию 4 картинок. А дальше подписка. Что ж, пойду дальше настраивать локалку тогда...
- Модельки по генерации видео пока не поддерживаются. А очень бы сюда хотелось! Чтобы уже все и сразу в одном месте!

Вердикт

Это настоящий опенсорс — что-то где-то не работает, где-то костыли, где-то китайские иероглифы не перевелись. Поэтому готовьте свою пятую точку к горению 😁

При этом в платной онлайн версии кредиты улетают просто безбожно быстро. Их берут практически за все, даже просто за открытие окошка с агентом. В общем в онлайн формате тогда уже лучше Genspark какой-нибудь.

Но с другой стороны, концептуально, это выглядит одной из наиболее интересных и продуманных реализаций единой платформы AI агентов, из попадавшихся мне. Особенный поклон UX-команде проекта. Очень много функционала — но все интуитивно понятно, разобраться реально просто. Это вам не n8n!

Поэтому хочется настроить эту штуку себе локально и просто подключить апи ключики от нужных моделей. Не даром репозиторий этого проекта номер 1 в GitHub trending!

В общем, нашел нам с вами интересное поковырять холодными зимними вечерами 😈

Если хотите чуть побльше кредитов (2М вместо 500к) на пробу пера в saas формате (без локальной установки) — ловите рефку.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍322
Друзья, небольшая пауза в постах связана не с тем, что в мире ИИ закончились интересные продукты и сервисы. Меня накрыло мощным гриппом — откисаю. Вернусь как только смогу 😷
Please open Telegram to view this post
VIEW IN TELEGRAM
124👍7🔥21
Модель за моделью... и AAIF

Вот так на недельку отлучился и бац бац бац… все вокруг понакидали ништяков. Лишний раз доказывает бешеный темп и остроту конкуренции, в которых живут разработчики AI. Быстренько с вами наверстаем по ключевым событиям. Но самое важно обсудим в конце — появление AAIF!

AI гонка продолжает разгон

OpenAI кутят на все 🎧

Вдогонку к новой GPT-5.2, выкатили обновленную Image1.5. Она уже достпуна всем юзерам, уверен, вы уже вкурсе и сами потыкали! Генерит она, на мой вкус примерно так же, как и Nano Banana Pro, в том числе отрисовывает инфографику на русском.

OpenAI также выкатили свой эппстор прямо в приложении ChatGPT. Обещали они это сделать еще давненько. Еще и открыли первичный прием заявок на подключение сторонних приложений, разработанных кем угодно на их SDK.

Команда дяди Сэма левой рукой допиливает топовые модели, а правой — продолжает пилить юзер экспириенс. Надолго ли их хватит в таком режиме. Похоже, у разрабов в компании сейчас сон и туалет строго по расписанию 🫣

Google тоже не дремлет

Нашумели ожидаемой Gemini 3 Flash. Во всех анонсах стыдливо спрятали тот факт, что она медленнее, чем Gemini 2.5 Flash, но флексят тем, что в некоторых задачах она не уступает полноценной Gemini 3 Pro. Как по мне — я жду Gemini 3 Flash Lite. Сегмент ультра-быстрых моделек все еще сырой и текущая версия слабовата.

А до этого выкатили обновленные модели TTS, которые встроили в приложение Google Translate. На демке выглядит пободрее, чем на практике. Правда в Google Translate мне так и недокатилось. Поэтому основываю отзыв на тестах через AI Studio. В РФ скорее всего нормально не будет доступно.

Внезапно активировался Марк

Пока Apple явно сдалась со своим Apple Intelligence, компания Цукерберга мобилизовалась. WSJ рапортует, что они работают над двумя новыми моделями:
1. Mango — новая image&video модель.
2. Avocado — новая LLM.
Фокус будет на кодинге. А также экспериментируют с world models. Посмотрим, получится ли у них залететь в большую AI гонку.

Я смотрю на всю эту кутерьму с чисто спортивным интересом. Через 10-20 лет всего несколько крупных вендоров останутся как провайдеры AGI, остальные помрут без монетизации или начнут специализироваться. Так и лопнет ИИ пузырь. Но пока мы туда движемся, мы как человечество получим множество прекрасных технологий, открытий и институтов. Например — AAIF!

ФИИА или может АИИФ — в общем, АУФ!

Не знаю, как переведут на русский. Но суть одна — две недели назад все техгиганты слились в экстазе, вместе основав Agentic AI Foundation (AAIF). Это некоммерческая организация для развития опенсорса в сфере AI агентов. В организации-участники вошли, помимо героев новостей выше, Anthropic, Amazon, Block, Microsoft, Cloudflare и внезапно Bloomberg.

Первыми "донатами" интеллектуальной собственности в организацию стали MCP протокол от Anthropic, AGENTS.md от OpenAI и goose (локальный ИИ агент) от Block. Судя по тому, что отдали — намерения у них серьезные.

Зачем и почему именно сейчас?

Стало очевидно несколько вещей:
- AI агенты пришли надолго.
- Ни одна компания не способна разработать и закрепить для всех единые стандарты и протоколы. Как минимум из конкурентных соображений другие компании будут продолжать пихать свои.
- Уже начало появляться слишком много вариантов одних и тех же по существу протоколов. Это начинает замедлять прогресс и затруднять интероперабельность между вендорами моделей.
- MCP при этом, как не имеющий существенных аналогов, показал удобство единого стандарта.

Вот посмотрев на все это, крупные ребята почесали репу да и решили мол, чо мы тут бабки теряем на эти протоколы. Давайте модели и сервисы пилить. Деньги то они приносят. А протоколы пусть пилит маленькая некоммерческая организация, нам подконтрольная. Некий договорнячок 🙂

Мы как юзеры и разрабы от этого тоже выиграем — единые стандарты позволят легко интегрировать разные агентные системы и переключаться между вендорами моделек. Поэтому инициатива добротная!

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1142
Google опять сделали это: Титан и Мираж — новый "Attention"?

В 2017 году Google опубликовали статью Attention Is All You Need — она положила начало современным LLM, построенным на трансформерах. Но, кажется, из этой технологии высосали все, что могли. Уже некоторое время ученые трудятся над изучением продвинутых механизмов внимания (именно эта штука сделала все LLM такими умными) или над его альтернативами. Зачем? Потому что "внимание" очень прожорливо на вычисления. И при большом контекстном окне оно становится очень дорогим.

💪 Titans расправил плечи

Именно эту проблему Гугл и взялся решить: создать "длинную память" у модели, но сделать ее вычислительно дешевой. Подглядели, как всегда, у человека в мозгах! Мы запоминаем ту информацию, которая вызывает у нас мощную эмоцию. А в простейшем виде — ту, что заставляет удивляться. Этой же логике последовали и в новой архитектуре "Titans", которая запоминает те факты, которые сильно отличается от остальной ожидаемой информации.

Это апгрейд и микс двух архитектур:
- старого доброго трансформера с механизмом внимания.
- SSM (State Space Models). Архитектура нашумевшая не так сильно, но стоящая внимания. В ней, по сути, заменили механизм внимания на так называемую свертку.

Модель оценивает важность токенов через метрику «удивления», замеряя насколько вероятным был каждый токен. Если токен был мало вероятным, но появился — модель сконцентрирует на нем внимание и запомнит. Еще и захватив немного контекста вокруг "удивительного" токена. Это происходит за счет встроенного механизма инерции.

Также архитектура использует адаптивное "забывание", чтобы сохранять только полезный контекст на очень длинных последовательностях

Все LLM — это лишь MIRAS

MIRAS — это фреймворк, по которому и изобрели архитектуру Titans. Этот фреймворк позволяет по-новому взглянуть на существующие архитектуры языковых моделей. Он смотрит на них как на модули ассоциативной памяти. Проще говоря любая модель — это не что иное, как некий механизм, который достает из памяти ассоциации на заданный токен.

Фреймворк раскладывает архитектуры моделей на (см приложенную картинку из статьи):
1. Архитектуру ассоциативной памяти (associative memory
architecture) — в каком виде сохраняется информация в модели.
2. Цель смещения внимания (attentional bias objective) — что именно модель учиться считать важным.
3. Шлюз удержания (retention gate) — как модель балансирует между запоминанием нового и сохранением старого.
4. Алгоритм памяти (memory learning algorithm) — собственно ключевой алгоритм запоминания, например градиентный спуск.

Что у вас на носу? - Сопля?! - Нет! Новая волна LLM 📈

Titans обошел даже такую жирную и мощную модель как GPT-4 на бенчмарке BABILong. Он специально замеряет ризонинг моделей на данных, где факты раскиданы очень далеко друг от друга. То есть модели либо нужно держать во внимании огромный контекст (что делают современные LLM), либо работать с ним очень эффективно (что Titans и делает на контексте аж 2М+ токенов, — это, кстати, больше, чем контекстное окно Gemini 3).

Новая архитектура является просто таки очевидным преимуществом, тк работа с контекстом — это один из важнейших аспектов конкуренции между моделями. А значит — ждем в следующем году массовую адаптацию нового трюка с "удивлением".

З.Ы. для тех, кто воспринимает лучше на слух — сгенерировал видосик в NotebookLM. Как обычно, визуальный треш под четкую озвучку 😈

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍72
С большим интересом залип на новый видос Александра Соколовского: интервью с Александром Машрабовым, фаундером Higgsfield.ai.

Всегда с большим интересом наблюдаю за восходящими звездами и стараюсь прислушиваться к их вижену. Higgsfield — это казалось бы еще один агргеатор Text2Image, Text2Video и подобных моделек. Но меньше чем за год компания достигла оценки в $1млрд и вышла на выручку в >$10млн в месяц, став прибыльной. То есть — это единорог, который еще и зарабатывает, а не прожигает инвестиции. Это, между прочим, супер редкое являение на рынке AI!

В чем секретный соус? — Они фокусируются на платежоспособной ЦА, на профессиональных коммерческих видео-продакшенах. Превращаясь из просто агрегатора в самый удобный инструмент для своего пользователя.

Сам Александр выделяет еще 3 ключевых преимущества Хиггсфилда:
1. Скорость итераций. Фичи релизятся почти каждый день.
2. Сильная команда в области video generation, включая продуктовыую команду, которая четко формирует вижен.
3. Накопленная экспертиза за счет большого количества итераций продукта и кол-ва генераций на их платформе.

Лишний раз убеждаюсь, что побеждают те, кто правильно определил продукт и ЦА. Те, кто продумал бизнес-модель, а не те, кто изобрел лучшую технологию.

Очень рекомендую к просмотру!

З.Ы. Не реклама, если что)

Заместители
🔥42👎11