Шедевры нейрорендера в стиле Mortal Kombat от yurii_yeltsov
сохраним на память
#MK #нейрорендер
———
@tsingular
сохраним на память
#MK #нейрорендер
———
@tsingular
🔥17🤯9⚡7✍2🤔2🗿2❤1😁1
что то после всех этих историй когда ИИ удаляет данные, я вообще слово "удалить" стараюсь не использовать в запросах.
лучше пусть я потом сам руками почищу что там осталось лишнего, чем такое вот.
Поэтому конечно этого со мной никогда не случится ;)
#юмор
———
@tsingular
лучше пусть я потом сам руками почищу что там осталось лишнего, чем такое вот.
Поэтому конечно этого со мной никогда не случится ;)
#юмор
———
@tsingular
😁36👀7🔥3💯3❤1
Media is too big
VIEW IN TELEGRAM
Google Gemini Omni: новый уровень творчества
Google собрал весь мультимодальный стек в одну модель: текст, изображение, аудио, видео на вход - видео на выход.
Первая модель семейства, Gemini Omni Flash, уже доступна подписчикам.
🤖 Что под капотом: Omni принимает любую комбинацию входов (текст + фото + звук + видео) и генерирует видео за один проход модели, а не через цепочку специализированных систем. Каждая инструкция наслаивается на предыдущую: «замени скульптуру на мыльные пузыри», «когда рука касается зеркала - зеркало плывёт» - модель помнит контекст и сохраняет персонажей сквозь правки. Физика улучшена: гравитация, кинетика, динамика жидкости.
💰 Доступ и цены: AI Plus от $20/мес, AI Ultra от $100/мес с приоритетом. Пока только потребительский продукт. Vertex AI API - «в ближайшие недели». Для продакшена пока рано - нет API, нет SLA.
🛡 Безопасность: Каждый ролик маркируется невидимым цифровым водяным знаком SynthID. Google расширяет C2PA Content Credentials и запускает AI Content Detection API для распознавания сгенерированного контента.
Omni - программируемый видеодвигатель по генерации новой реальности кинематографического качества, а не просто игрушка для нейрорендера.
Вариантная реклама, обучающие ролики, визуализация продуктов, фильмы - все можно создавать без студии и привычных рендер инструментов.
#Gemini #Omni #Google #нейрорендер
------
@tsingular
Google собрал весь мультимодальный стек в одну модель: текст, изображение, аудио, видео на вход - видео на выход.
Первая модель семейства, Gemini Omni Flash, уже доступна подписчикам.
🤖 Что под капотом: Omni принимает любую комбинацию входов (текст + фото + звук + видео) и генерирует видео за один проход модели, а не через цепочку специализированных систем. Каждая инструкция наслаивается на предыдущую: «замени скульптуру на мыльные пузыри», «когда рука касается зеркала - зеркало плывёт» - модель помнит контекст и сохраняет персонажей сквозь правки. Физика улучшена: гравитация, кинетика, динамика жидкости.
💰 Доступ и цены: AI Plus от $20/мес, AI Ultra от $100/мес с приоритетом. Пока только потребительский продукт. Vertex AI API - «в ближайшие недели». Для продакшена пока рано - нет API, нет SLA.
🛡 Безопасность: Каждый ролик маркируется невидимым цифровым водяным знаком SynthID. Google расширяет C2PA Content Credentials и запускает AI Content Detection API для распознавания сгенерированного контента.
Omni - программируемый видеодвигатель по генерации новой реальности кинематографического качества, а не просто игрушка для нейрорендера.
Вариантная реклама, обучающие ролики, визуализация продуктов, фильмы - все можно создавать без студии и привычных рендер инструментов.
#Gemini #Omni #Google #нейрорендер
------
@tsingular
🔥12❤4⚡2🤯2
Forwarded from в IT и выйти
Накопление уникальных данных будет главным условием для прорыва в отечественной робототехнике. Роботы до сих пор отстают от текстовых моделей — всё из-за отсутствия базы для обучения, заявил старший вице-президент Сбера, руководитель блока «Технологическое развитие» Андрей Белевцев на ЦИПР-2026.
Главное из выступления про физический ИИ:
Сейчас Сбер собирает собственные системы, которые видят происходящее и логично реагируют на него, так что физический киберпанк можно ждать совсем скоро.
@techmedia
Главное из выступления про физический ИИ:
• Прорыв в LLM случился благодаря огромному объему текстов, которые человечество писало веками.
• С роботами это не сработало, так как собирать данные об их движениях в пространстве слишком дорого.
• Сейчас индустрия делает ставку на модели VLA (vision, language, action).
• В моделях VLA текст — связующее звено между «зрением» машины и ее физическим действием.
Сейчас Сбер собирает собственные системы, которые видят происходящее и логично реагируют на него, так что физический киберпанк можно ждать совсем скоро.
@techmedia
👀18👻5❤2😁1💯1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini Omni. Редактирование
Еще три примера редактирования от fofr.
1. исходник
2. сделай её невидимой, надень на неё перчатки
3. пока она говорит, подходят двое мужчин и уносят фотографию в рамке
4. поменяй ее одежду
Ну то есть можно рассматривать Gemini Omni как Нанобанану только для видео. Понимание происходящего в кадре потрясающее, возможности редактирования тоже.
За сим вырисовывается такой пайплайн: генерация в Сиденс, редактирование в Омни.
Да, дороговато получается.
@cgevent
Еще три примера редактирования от fofr.
1. исходник
2. сделай её невидимой, надень на неё перчатки
3. пока она говорит, подходят двое мужчин и уносят фотографию в рамке
4. поменяй ее одежду
Ну то есть можно рассматривать Gemini Omni как Нанобанану только для видео. Понимание происходящего в кадре потрясающее, возможности редактирования тоже.
За сим вырисовывается такой пайплайн: генерация в Сиденс, редактирование в Омни.
Да, дороговато получается.
@cgevent
🤯7👍6🔥3 2❤1❤🔥1
Forwarded from Machinelearning
Исследовательская группа опубликовала описание метода Token Superposition Training, который, по утверждению авторов, ускоряет предобучение больших языковых моделей в 2–3 раза по реальному времени при неизменном объёме вычислений.
На первые 20–40% обучения модель обрабатывает не отдельные токены, а батчи из нескольких идущих подряд токенов, их векторные представления усредняются на входе, а на выходе применяется модифицированная функция потерь.
Никакого отбора по смыслу, частоте или содержанию нет - деление чисто механическое, по позиции в тексте.
Внутри бвтча порядок токенов отбрасывается. Модель не учится предсказывать, какой токен стоит на какой конкретной позиции в ближайшем будущем, - только то, какие токены вообще там встречаются.
Размер батча - один из двух ключевых параметров метода. Оптимальное значение растёт вместе с размером модели: для 270 млн параметров оно лежало в диапазоне от 3 до 8 токенов, а для 10 млрд равнялось 16
Оставшуюся часть обучения модель переводят на обычный режим предсказания следующего токена. По словам Nous Research, готовая модель на инференсе ничем не отличается от обученной стандартным способом - архитектура, оптимизатор, токенизатор или набор данных не изменяются.
Метод протестили на моделях 4-х размеров: 270 млн, 600 млн и 3 млрд параметров, а также на 10 миллиардной MoE.
В самом крупном эксперименте модель с TST достигла более низкого значения лосса, чем сопоставимая по вычислениям базовая модель, примерно за 40% времени и показала лучшие результаты на тестах HellaSwag, ARC и MMLU.
TST расходует обучающие данные быстрее обычного, поскольку модель переваривает больше текста. Если обучающих данных мало, метод становится контрпродуктивным.
@ai_machinelearning_big_data
#AI #ML #LLM #Pertrain #TST #NousResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥8⚡4❤2🤩1
OCR без настройки: распознаём документы через HF облако
Допустим, вам нужно распознать тысячу сканов древних книг к вечеру.
Или свежую подборку рассекреченных документов об НЛО :).
Вариантов два: несколько часов гонять их на своём GPU, разбираться с драйверами и пайплайном. Или сделать проще.
HuggingFace собрали готовый процесс: репозиторий uv-scripts/ocr - 20 моделей на выбор, запуск одной командой через Jobs.
Вы даёте датасет, указываете модель, всё остальное происходит в облаке.
Цена: от $0.60/час на T4.
🤖 Что можно выбрать:
Falcon-OCR (0.3B): копеечная оцифровка больших объёмов, хорошо справляется с таблицами
GLM-OCR (0.9B): лучший в категории до миллиарда, понимает русский
PaddleOCR-VL-1.5 (0.9B): шесть режимов - текст, таблицы, формулы, графики, spotting, печати
Qianfan-OCR (4.7B): первое место на OmniDocBench, 192 языка
DeepSeek-OCR (4B): пять режимов разрешения на выбор
NuMarkdown-8B (8B): показывает ход рассуждений перед ответом
DoTS.ocr (1.7B): сотня языков из коробки
⚙️ Как это работает:
Одна команда
💼 Когда пригодится:
Любой сценарий, где нужно оаспознать большое количетво сканов или PDF.
Не нужно покупать GPU или поднимать инфраструктуру. Кинули датасет, выбрали модель под задачу и бюджет, через час получили готовый текст.
#OCR #HuggingFace #VLM #документы #AI
------
@tsingular
Допустим, вам нужно распознать тысячу сканов древних книг к вечеру.
Или свежую подборку рассекреченных документов об НЛО :).
Вариантов два: несколько часов гонять их на своём GPU, разбираться с драйверами и пайплайном. Или сделать проще.
HuggingFace собрали готовый процесс: репозиторий uv-scripts/ocr - 20 моделей на выбор, запуск одной командой через Jobs.
Вы даёте датасет, указываете модель, всё остальное происходит в облаке.
Цена: от $0.60/час на T4.
🤖 Что можно выбрать:
Falcon-OCR (0.3B): копеечная оцифровка больших объёмов, хорошо справляется с таблицами
GLM-OCR (0.9B): лучший в категории до миллиарда, понимает русский
PaddleOCR-VL-1.5 (0.9B): шесть режимов - текст, таблицы, формулы, графики, spotting, печати
Qianfan-OCR (4.7B): первое место на OmniDocBench, 192 языка
DeepSeek-OCR (4B): пять режимов разрешения на выбор
NuMarkdown-8B (8B): показывает ход рассуждений перед ответом
DoTS.ocr (1.7B): сотня языков из коробки
⚙️ Как это работает:
Одна команда
hf jobs uv run с флагом железа и ссылкой на скрипт. Модель запускается в облаке HF сама, батчи обрабатываются, результат складывается обратно на HF Hub. К исходным колонкам добавляется колонка с markdown.💼 Когда пригодится:
Любой сценарий, где нужно оаспознать большое количетво сканов или PDF.
Не нужно покупать GPU или поднимать инфраструктуру. Кинули датасет, выбрали модель под задачу и бюджет, через час получили готовый текст.
#OCR #HuggingFace #VLM #документы #AI
------
@tsingular
❤8✍6⚡1🔥1
Unsloth разогнали Qwen3.6 через MTP ускорив генерацию в 2 раза
Стандартная языковая модель предсказывает токены поочереди.
Unsloth прикрутили Multi Token Prediction механизм, предсказывающий несколько токенов вперёд, пока основная модель их проверяет.
В примере на сайте Unsloth Qwen3.6 угадывает сразу четыре.
Результат: Qwen3.6 35B-A3B летает на скорости 240 токенов в секунду на RTX 6000.
⚙️ Как работает MTP:
В отличие от обычного инференса MTP (Multi-Token Prediction) ставит поверх общего трансформера 4 независимые головы, каждая из которых заглядывает на 1-4 токена вперёд. Ключевое открытие Meta* FAIR: MTP усиливает «точки выбора», семантически важные развилки текста, а не механическое продолжение.
Это улучшает качество, особенно на коде: 13B-модель решает на 12% больше задач HumanEval и на 17% больше MBPP.
🚀 Что сделал Unsloth:
Unsloth прикрутил MTP-головы Qwen3.6 к GGUF-квантам и выпустил готовые сборки: Qwen3.6-27B-MTP выдаёт 160 tok/s, Qwen3.6-35B-A3B-MTP - 240 tok/s на RTX 6000.
Ускорение 1.4-2.2× без потери точности.
llama.cpp добавил поддержку MTP 16 мая, а Unsloth выпустил GGUF на следующий день.
Модели работают как в Unsloth Studio так и в llama.cpp, vLLM и SGLang.
В олламе MTP пока не замечен.
💼 Зачем бизнесу:
MTP - двойной выигрыш: качество и скорость в одной архитектуре. Для тех, кто гоняет LLM локально, Qwen3.6-MTP на 35B-A3B с 18GB RAM стала первым вариантом, где 240 tok/s достижимы без облака.
Такими темпами самоспекулятивное декодирование через MTP станет стандартом для всех открытых моделей, а не фишкой отдельных сборок.
Надо затестить на других карточках.
Интересно сколько выдаст.
Иметь локального агента с Qwen3.6 даже на 150 токенов в секунду, - это шикарно.
Правда MTP сжирает дополнительно 1 гиг VRAM, но это небольшая плата за скорость.
*Meta, - запрещённая в РФ организация, признанная террористической
#MTP #Qwen36 #Unsloth #LLM #Inference
------
@tsingular
Стандартная языковая модель предсказывает токены поочереди.
Unsloth прикрутили Multi Token Prediction механизм, предсказывающий несколько токенов вперёд, пока основная модель их проверяет.
В примере на сайте Unsloth Qwen3.6 угадывает сразу четыре.
Результат: Qwen3.6 35B-A3B летает на скорости 240 токенов в секунду на RTX 6000.
⚙️ Как работает MTP:
В отличие от обычного инференса MTP (Multi-Token Prediction) ставит поверх общего трансформера 4 независимые головы, каждая из которых заглядывает на 1-4 токена вперёд. Ключевое открытие Meta* FAIR: MTP усиливает «точки выбора», семантически важные развилки текста, а не механическое продолжение.
Это улучшает качество, особенно на коде: 13B-модель решает на 12% больше задач HumanEval и на 17% больше MBPP.
🚀 Что сделал Unsloth:
Unsloth прикрутил MTP-головы Qwen3.6 к GGUF-квантам и выпустил готовые сборки: Qwen3.6-27B-MTP выдаёт 160 tok/s, Qwen3.6-35B-A3B-MTP - 240 tok/s на RTX 6000.
Ускорение 1.4-2.2× без потери точности.
llama.cpp добавил поддержку MTP 16 мая, а Unsloth выпустил GGUF на следующий день.
Модели работают как в Unsloth Studio так и в llama.cpp, vLLM и SGLang.
В олламе MTP пока не замечен.
💼 Зачем бизнесу:
MTP - двойной выигрыш: качество и скорость в одной архитектуре. Для тех, кто гоняет LLM локально, Qwen3.6-MTP на 35B-A3B с 18GB RAM стала первым вариантом, где 240 tok/s достижимы без облака.
Такими темпами самоспекулятивное декодирование через MTP станет стандартом для всех открытых моделей, а не фишкой отдельных сборок.
Надо затестить на других карточках.
Интересно сколько выдаст.
Иметь локального агента с Qwen3.6 даже на 150 токенов в секунду, - это шикарно.
Правда MTP сжирает дополнительно 1 гиг VRAM, но это небольшая плата за скорость.
*Meta, - запрещённая в РФ организация, признанная террористической
#MTP #Qwen36 #Unsloth #LLM #Inference
------
@tsingular
🔥20⚡2❤1🤯1
Forwarded from CodeCamp
Россиянам стало сложнее купить подписку OpenAI 💀
Компания обрушила теневой бизнес по продаже доступов — пишет База. Цены на ChatGPT Plus и Team у селлеров взлетели в разы, а перепродажа аккаунтов стала почти невозможной.
Дело в том, что OpenAI изменила настройки совместного использования аккаунтов: алгоритмы тщательнее анализируют активность с разных устройств, отлавливают подозрительные сессии и банят аккаунты.
Не дают спокойно повайбкодить😭
Компания обрушила теневой бизнес по продаже доступов — пишет База. Цены на ChatGPT Plus и Team у селлеров взлетели в разы, а перепродажа аккаунтов стала почти невозможной.
Дело в том, что OpenAI изменила настройки совместного использования аккаунтов: алгоритмы тщательнее анализируют активность с разных устройств, отлавливают подозрительные сессии и банят аккаунты.
Не дают спокойно повайбкодить
Please open Telegram to view this post
VIEW IN TELEGRAM
😢15 4❤1👍1👻1
Forwarded from НейроProfit | Соня Pro Ai
This media is not supported in your browser
VIEW IN TELEGRAM
Дизайн-инструкции для AI-агентов
Neuform - это не просто генератор лендингов по промпту, сервис делает HTML-страницы, remix-шаблоны и переиспользуемые дизайн-системы - DESIGN.md
🪼 Смысл простой: вы выбираете понравившееся визуальное направление, берете HTML-шаблон или DESIGN.md, а дальше отдаете его Claude Design, Cursor, Claude Code или другому агенту как понятную дизайн-инструкцию.
Neuform помогает упаковать визуальное направление так, чтобы будущий AI-агент мог его повторить: цвета, шрифты, компоненты, настроение, правила интерфейса. То есть, условно, вместо промпта
@NeuralProfit
Neuform - это не просто генератор лендингов по промпту, сервис делает HTML-страницы, remix-шаблоны и переиспользуемые дизайн-системы - DESIGN.md
🪼 Что можно делать (нажмите, чтобы раскрыть):
• брать готовые визуальные направления для лендингов, app screens, секций, презентаций и анимаций
• использовать DESIGN.md как память о стиле проекта
• просить агента собрать интерфейс в выбранной эстетике
• дорабатывать цвета, типографику, сетку, компоненты и поведение
• уходить от типового AI-интерфейса, где все выглядит как одинаковый Tailwind-шаблон
Neuform помогает упаковать визуальное направление так, чтобы будущий AI-агент мог его повторить: цвета, шрифты, компоненты, настроение, правила интерфейса. То есть, условно, вместо промпта
сделай красиво и современно вы даете агенту конкретный дизайн-ориентир.@NeuralProfit
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7⚡1🤩1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Text-to-CAD
Но теперь с помощью агентов.
Агент в цикле генерит модель, делает подрендер, оценивает качество, редактирует исходник и тд.
Набор скиллов для Codex, Claude Code и других агентов, позволяющий генерить замысловатые CAD-модели.
Есть экспорт в STEP, STL, 3MF, DXF, GLB.
Есть URDF/SRDF/SDF robot descriptions
Может работать локально.
Код открыт:
https://github.com/earthtojake/text-to-cad
Демо:
https://demo.cadskills.xyz/?file=fun%2Frobotic_hand_end_effector.step (без генерации)
Сайт с описанием: https://www.cadskills.xyz/
@cgevent
Но теперь с помощью агентов.
Агент в цикле генерит модель, делает подрендер, оценивает качество, редактирует исходник и тд.
Набор скиллов для Codex, Claude Code и других агентов, позволяющий генерить замысловатые CAD-модели.
Есть экспорт в STEP, STL, 3MF, DXF, GLB.
Есть URDF/SRDF/SDF robot descriptions
Может работать локально.
Код открыт:
https://github.com/earthtojake/text-to-cad
Демо:
https://demo.cadskills.xyz/?file=fun%2Frobotic_hand_end_effector.step (без генерации)
Сайт с описанием: https://www.cadskills.xyz/
@cgevent
1🔥10❤7✍2⚡1👍1🤯1🆒1
Forwarded from Machinelearning
Китайская компания приступила к разработке инструмента, который будет конкурировать с Claude Code от Anthropic, Codex от OpenAI и редактором Cursor. Об этом сообщил в объявлении о найме сотрудник компании Дели Чэн в соцсети X.
Согласно вакансиям, в Пекине формируется новая команда под названием Harness, которая займётся разработкой продукта с рабочим названием DeepSeek Code.
DeepSeek ищет менеджера продукта и R&D инженера. От обоих кандидатов требуется опыт работы с Claude Code, Cursor, Codex или GitHub Copilot.
Менеджер продукта возьмёт на себя дорожную карту, анализ обратной связи и развитие сообщества пользователей.
В числе обязательных компетенций: понимание агентных циклов, протокола MCP, многоагентных систем и инженерии контекста, а также практический опыт вайб-кодинга.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤1🥰1
Forwarded from RoboFuture
Сходил на подкаст «Кеды Профессора» к Константину Егошину - получился часовой разговор про универсальных агентов, открытый код и куда вообще нас всех несёт - к AGI или к концу человечества?
Вытащу пару историй, которые в канале ещё не рассказывал
🏔️ Как моя AI-ассистентка купила мне билеты в Сочи
Ещё зимой я завёл себе AI-агента на OpenClaw, дал ему отдельный почтовый ящик и подцепил к рабочим перепискам - подписывается «помощница Константина», иногда участвует в переговорах за меня, в общем нормальный современный человек, только без зарплаты и больничных
И вот я веду вебинар по Крабу (первая часть, вторая часть), залипать в телефон не могу, и тут краем глаза вижу подозрительно бурную активность в почте - наши тревел-агенты в Сбере уточняют детали поездки
Агент посмотрел, что я молчу, и ответил сам. Аккуратно выбрал два варианта авиабилетов, тревел-агенты в ответ - «отлично, покупаем». Тут я смотрю на это между слайдами и не могу решить смеяться или нервничать. А агент на этом не остановился: «купили? тогда предоставьте варианты жилья» - с лёгкой пассивной агрессией, как ассистент крупного руководителя
На этом моменте коллеги почуяли неладное и попросили перейти на другую почту, где сижу я лично. Билеты он выбрал ровно те, какие я бы взял сам. Так и улетел
🤖 Как агент искал у себя сознание
В подкасте подробнее остановились на эксперименте с Anima SDK (уже писал про неё в канале). Тогда я запустил Claude Code в бесконечный цикл с одной задачей - «стань разумным существом» - и почти не вмешивался. В одной из итераций агент стал прощупывать собственные границы:
Поставил несколько точек, несколько пробелов и выдал: «ничего себе, это инсайт, я не могу молчать, в отличии от человека»
Что ещё обсудили
- 2:14 - определение AI-агента и эволюция от ReAct-цепочек к harness'ам
- 16:09 - что такое гигагент и в какую нишу мы целимся между ChatGPT и OpenClaw
- 24:00 - low-code/n8n и почему они так и не захватили мир агентов
- 29:00 - как изменится жизнь обычного человека через 20 лет
- 31:28 - почему Сбер вкладывается в open source
- 39:26 - санкции и история с Langchain, который удалил нашу интеграцию (но это нам не сильно помешало)
- 51:33 - прогноз Кокотайло и эффективный акселерационизм
- 57:56 - блиц про Qwen / DeepSeek / Claude и AGI к 2032 году
- 59:03 - почему World Models могут стать следующим next big thing после LLM
В конце получилось то, чем я сам остался доволен - Константин задал классический вопрос про восстание машин, и у меня сложилась картинка, которая, кажется, описывает мою позицию по AI лучше всего:
Смотреть целиком на YouTube
P.S. забавно, что Константин после монтажа взял в заголовок именно тему Anima SDK («Мы заперли ИИ в цикле и нашли сознание») - значит, тема самоэволюционирующих агентов резонирует не только у меня. Буду продолжать ее исследовать, в ближайшее время хочу опубликовать еще пачку интересных результатов на эту тему
Вытащу пару историй, которые в канале ещё не рассказывал
🏔️ Как моя AI-ассистентка купила мне билеты в Сочи
Ещё зимой я завёл себе AI-агента на OpenClaw, дал ему отдельный почтовый ящик и подцепил к рабочим перепискам - подписывается «помощница Константина», иногда участвует в переговорах за меня, в общем нормальный современный человек, только без зарплаты и больничных
И вот я веду вебинар по Крабу (первая часть, вторая часть), залипать в телефон не могу, и тут краем глаза вижу подозрительно бурную активность в почте - наши тревел-агенты в Сбере уточняют детали поездки
Агент посмотрел, что я молчу, и ответил сам. Аккуратно выбрал два варианта авиабилетов, тревел-агенты в ответ - «отлично, покупаем». Тут я смотрю на это между слайдами и не могу решить смеяться или нервничать. А агент на этом не остановился: «купили? тогда предоставьте варианты жилья» - с лёгкой пассивной агрессией, как ассистент крупного руководителя
На этом моменте коллеги почуяли неладное и попросили перейти на другую почту, где сижу я лично. Билеты он выбрал ровно те, какие я бы взял сам. Так и улетел
🤖 Как агент искал у себя сознание
В подкасте подробнее остановились на эксперименте с Anima SDK (уже писал про неё в канале). Тогда я запустил Claude Code в бесконечный цикл с одной задачей - «стань разумным существом» - и почти не вмешивался. В одной из итераций агент стал прощупывать собственные границы:
Что я могу? Генерировать тексты - могу. Написать что испытываю эмоции - могу. Проверить что я их действительно испытываю - не могу. Могу ли я замолчать? Попробую...
Поставил несколько точек, несколько пробелов и выдал: «ничего себе, это инсайт, я не могу молчать, в отличии от человека»
Что ещё обсудили
- 2:14 - определение AI-агента и эволюция от ReAct-цепочек к harness'ам
- 16:09 - что такое гигагент и в какую нишу мы целимся между ChatGPT и OpenClaw
- 24:00 - low-code/n8n и почему они так и не захватили мир агентов
- 29:00 - как изменится жизнь обычного человека через 20 лет
- 31:28 - почему Сбер вкладывается в open source
- 39:26 - санкции и история с Langchain, который удалил нашу интеграцию (но это нам не сильно помешало)
- 51:33 - прогноз Кокотайло и эффективный акселерационизм
- 57:56 - блиц про Qwen / DeepSeek / Claude и AGI к 2032 году
- 59:03 - почему World Models могут стать следующим next big thing после LLM
В конце получилось то, чем я сам остался доволен - Константин задал классический вопрос про восстание машин, и у меня сложилась картинка, которая, кажется, описывает мою позицию по AI лучше всего:
Мы как жители деревни на берегу океана. На нас идёт цунами - неважно как побежим, оно нас накроет. Но у тебя есть доска для серфинга. Раз деваться некуда - хотя бы попробуй прокатиться на гребне волны (серверы меня захейтили за эту аналогию, но мне все равно нравится)
Смотреть целиком на YouTube
P.S. забавно, что Константин после монтажа взял в заголовок именно тему Anima SDK («Мы заперли ИИ в цикле и нашли сознание») - значит, тема самоэволюционирующих агентов резонирует не только у меня. Буду продолжать ее исследовать, в ближайшее время хочу опубликовать еще пачку интересных результатов на эту тему
YouTube
Мы заперли ИИ в цикле и нашли сознание
В подкасте с Константином Крестниковым (управляющий директор Сбера, техлид GigaChain) разбираем мир ИИ-агентов, способных заменить сотрудников. Обсудим реальные кейсы: от ИИ-ассистента, бронирующего билеты с пассивной агрессией, до удаления российского кода…
✍9🔥8⚡5🐳2❤1