Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - devflowinc/firecrawl-simple: ➖ Stripped down, stable version of firecrawl optimized for self-hosting and ease of contribution.…
➖ Stripped down, stable version of firecrawl optimized for self-hosting and ease of contribution. Billing logic and AI features are completely removed. Crawl and convert any website into LLM-ready ...
Кейс с LLM под капотом - поиск видео для монтажа рекламы
Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.
Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.
Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.
Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.
Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).
Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.
А что тут можно сделать еще лучше?
(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.
А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:
(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования
Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.
В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше
Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.
Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.
Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.
Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.
Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).
Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.
А что тут можно сделать еще лучше?
(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.
А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:
(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования
Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.
В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше
Telegram
LLM под капотом
Кейс продукта с LLM под капотом: Ассистент маркетолога в компании #aicase
Оглавление:
(1) описание продукта (этот пост)
(2) секреты реализации
(3) архитектура проекта
(4) feedback клента и дальнейшие улучшения
(5) методичка по сбору базы знаний для ассистента…
Оглавление:
(1) описание продукта (этот пост)
(2) секреты реализации
(3) архитектура проекта
(4) feedback клента и дальнейшие улучшения
(5) методичка по сбору базы знаний для ассистента…
От слов к мирам: почему пространственный интеллект — это новый рубеж ИИ
Всего через пару лет после бума генеративного ИИ, пионер компьютерного зрения и сооснователь ImageNet, профессор Стэнфорда Фэй-Фэй Ли, заявляет о следующем великом вызове — пространственном интеллекте. В своей фундаментальной статье она объясняет, почему без него ИИ навсегда останется «слепым писцом», неспособным понять реальный мир.
🤔 Что такое пространственный интеллект?
Это основа человеческого познания, которая позволяет нам:
• Парковать машину, представляя расстояние до бордюра
• Ловить ключи на лету
• Наливать кофе, не глядя на чашку
• Строить в уме чертежи и изобретать
В отличие от языковых моделей (LLM), которые оперируют символами, пространственный интеллект связывает воображение, восприятие и действие в физическом мире.
⚡️ Почему это важно сейчас?
Современные многомодальные модели (MLLM) уже анализируют картинки и генерируют видео, но их пространственные способности крайне ограничены:
➖ Путаются в оценке расстояний и размеров
➖ Не понимают базовых законов физики
➖ Генерируют видео, теряющие связность через несколько секунд
Без пространственного интеллекта ИИ никогда не сможет безопасно управлять автомобилем, помочь ученому в лаборатории или стать полноценным ассистентом в доме.
🧩 Решение: Модели Мира (World Models)
Чтобы наделить ИИ пространственным интеллектом, недостаточно просто масштабировать LLM. Нужны принципиально новые «Модели Мира» — генеративные системы, которые понимают, рассуждают и взаимодействуют с миром на семантическом, геометрическом и физическом уровнях.
Такая модель должна обладать тремя ключевыми свойствами:
1. Генеративность: Создавать виртуальные миры, устойчивые в перцептивном, геометрическом и физическом плане.
2. Мультимодальность: Понимать любые входные данные — от изображений и текста до жестов и действий.
3. Интерактивность: Предсказывать следующее состояние мира в ответ на действия.
🔬 Основные вызовы на пути создания Моделей Мира
• Новая целевая функция: Необходим аналог «предсказания следующего токена» из LLM, но для сложных, многомерных миров.
• Данные для обучения: Требуются алгоритмы, способные извлекать глубинные пространственные данные из 2D-изображений и видео. Большие надежды возлагаются на синтетические данные и информацию с датчиков (глубина, тактильные ощущения).
• Архитектура моделей: Современные MLLM и диффузионные модели для видео работают с 1D/2D последовательностями, что усложняет простые пространственные задачи. Прорыв могут обеспечить архитектуры с 3D/4D-восприятием.
🚀 Применение: от творчества до науки
• Креатив: Дизайнеры и режиссеры смогут мгновенно создавать и исследовать виртуальные миры для своих проектов.
• Робототехника: Модели Мира станут полигоном для тренировки роботов, прежде чем те войдут в реальный мир.
• Наука и медицина: Пространственный ИИ ускорит открытие лекарств, поможет в диагностике и создаст immersive-среды для обучения хирургов.
💎 Вывод
Пространственный интеллект — это не просто еще одна функция ИИ. Это качественный скачок, который позволит машинам наконец-то понять и взаимодействовать с тем миром, в котором мы живем.
Оригинал статьи Фэй-Фэй Ли (ENG).
#КитайскийИИ #КитайAI #ПространственныйИнтеллект #WorldModels
Всего через пару лет после бума генеративного ИИ, пионер компьютерного зрения и сооснователь ImageNet, профессор Стэнфорда Фэй-Фэй Ли, заявляет о следующем великом вызове — пространственном интеллекте. В своей фундаментальной статье она объясняет, почему без него ИИ навсегда останется «слепым писцом», неспособным понять реальный мир.
🤔 Что такое пространственный интеллект?
Это основа человеческого познания, которая позволяет нам:
• Парковать машину, представляя расстояние до бордюра
• Ловить ключи на лету
• Наливать кофе, не глядя на чашку
• Строить в уме чертежи и изобретать
В отличие от языковых моделей (LLM), которые оперируют символами, пространственный интеллект связывает воображение, восприятие и действие в физическом мире.
⚡️ Почему это важно сейчас?
Современные многомодальные модели (MLLM) уже анализируют картинки и генерируют видео, но их пространственные способности крайне ограничены:
➖ Путаются в оценке расстояний и размеров
➖ Не понимают базовых законов физики
➖ Генерируют видео, теряющие связность через несколько секунд
Без пространственного интеллекта ИИ никогда не сможет безопасно управлять автомобилем, помочь ученому в лаборатории или стать полноценным ассистентом в доме.
🧩 Решение: Модели Мира (World Models)
Чтобы наделить ИИ пространственным интеллектом, недостаточно просто масштабировать LLM. Нужны принципиально новые «Модели Мира» — генеративные системы, которые понимают, рассуждают и взаимодействуют с миром на семантическом, геометрическом и физическом уровнях.
Такая модель должна обладать тремя ключевыми свойствами:
1. Генеративность: Создавать виртуальные миры, устойчивые в перцептивном, геометрическом и физическом плане.
2. Мультимодальность: Понимать любые входные данные — от изображений и текста до жестов и действий.
3. Интерактивность: Предсказывать следующее состояние мира в ответ на действия.
🔬 Основные вызовы на пути создания Моделей Мира
• Новая целевая функция: Необходим аналог «предсказания следующего токена» из LLM, но для сложных, многомерных миров.
• Данные для обучения: Требуются алгоритмы, способные извлекать глубинные пространственные данные из 2D-изображений и видео. Большие надежды возлагаются на синтетические данные и информацию с датчиков (глубина, тактильные ощущения).
• Архитектура моделей: Современные MLLM и диффузионные модели для видео работают с 1D/2D последовательностями, что усложняет простые пространственные задачи. Прорыв могут обеспечить архитектуры с 3D/4D-восприятием.
🚀 Применение: от творчества до науки
• Креатив: Дизайнеры и режиссеры смогут мгновенно создавать и исследовать виртуальные миры для своих проектов.
• Робототехника: Модели Мира станут полигоном для тренировки роботов, прежде чем те войдут в реальный мир.
• Наука и медицина: Пространственный ИИ ускорит открытие лекарств, поможет в диагностике и создаст immersive-среды для обучения хирургов.
💎 Вывод
Пространственный интеллект — это не просто еще одна функция ИИ. Это качественный скачок, который позволит машинам наконец-то понять и взаимодействовать с тем миром, в котором мы живем.
Оригинал статьи Фэй-Фэй Ли (ENG).
#КитайскийИИ #КитайAI #ПространственныйИнтеллект #WorldModels
Substack
From Words to Worlds: Spatial Intelligence is AI’s Next Frontier
In 1950, when computing was little more than automated arithmetic and simple logic, Alan Turing asked a question that still reverberates today: can machines think?
🔥2
В Китае воплотили в жизнь технологию древних - ядерные реакторы на тории.
В 60х годах прошлого века, ученые в США создали безопасный ядерный реактор на тории - выдающий в 50 раз меньше отходов, не требующий воды и не перегревающийся. Но тогда, доминировал уран, и из-за отсутствия инфраструктуры, проект свернули.
Пока в 2011 году, китайские инженеры не нашли материалы в архивах - спустя 14 лет, они представили первый действующий ториевый реактор в пустыне Гоби.
Залежи тория в Китае могут обеспечить страну энергией на 60 тысяч лет - а если затея взлетит, технология перевернет глобальный рынок энергии.
В 60х годах прошлого века, ученые в США создали безопасный ядерный реактор на тории - выдающий в 50 раз меньше отходов, не требующий воды и не перегревающийся. Но тогда, доминировал уран, и из-за отсутствия инфраструктуры, проект свернули.
Пока в 2011 году, китайские инженеры не нашли материалы в архивах - спустя 14 лет, они представили первый действующий ториевый реактор в пустыне Гоби.
Залежи тория в Китае могут обеспечить страну энергией на 60 тысяч лет - а если затея взлетит, технология перевернет глобальный рынок энергии.
Mail Online
China finds 'limitless' energy source that could 'power the country'
China has discovered an 'endless' energy source that could supply enough fuel to power the country for 60,000 years, geologists in Beijing have claimed.
Вот еще вот такое нашел я описание
https://www.iaea.org/ru/bulletin/dolgosrochnyy-potencial-toriya-v-yadernoy-energetike
https://www.iaea.org/ru/bulletin/dolgosrochnyy-potencial-toriya-v-yadernoy-energetike
IAEA
Долгосрочный потенциал тория в ядерной энергетике
Пески Индии потенциально могут стать источником топлива, которое обеспечит безуглеродное будущее страны. Поскольку Индия является родиной крупнейших в мире запасов тория, ее долгосрочная стратегия развития атомной энергетики предполагает использование этого…
👍Оформил материалы по стримам. Теперь они все будут оформляться тут. Каждый стрим будет выкладываться тут.
🫠Ссылка на скачивание:
sponsr.ru/dl_strim_2
P.S. Сервис еще находится в стадии оформления, но уже заработал.
🫠Ссылка на скачивание:
sponsr.ru/dl_strim_2
P.S. Сервис еще находится в стадии оформления, но уже заработал.
👌3
Самые востребованные художники и иллюстраторы при создании видео и изображений с помощью искусственного интеллекта:
подписчики Midjourney использовали имя художника Альфонса Мухи в 230 794 запросах — почти в 4 раза больше, чем имя Леонардо да Винчи. Альфонс Муха — на 1-м месте в рейтинге.
На 2-м — Рембрандт (128 143 запросов).
3-е место занимает Леонардо да Винчи (61 259).
В рейтинге есть и иллюстратор Норман Роквелл — он на 4-м месте (57 583).
А вот Сальвадор Дали — на 6-й позиции (49 791), сразу после Густава Климта (56 670).
подписчики Midjourney использовали имя художника Альфонса Мухи в 230 794 запросах — почти в 4 раза больше, чем имя Леонардо да Винчи. Альфонс Муха — на 1-м месте в рейтинге.
На 2-м — Рембрандт (128 143 запросов).
3-е место занимает Леонардо да Винчи (61 259).
В рейтинге есть и иллюстратор Норман Роквелл — он на 4-м месте (57 583).
А вот Сальвадор Дали — на 6-й позиции (49 791), сразу после Густава Климта (56 670).
🔥3😁2
Учёные из Monash University создали микрочип размером с монету, который ведёт себя как настоящие нейроны мозга.
💧 В основе — жидкостная структура из металлоорганического каркаса (MOF).
Через микроскопические каналы внутри неё проходят ионы, как электрические импульсы в мозге, — именно так чип обрабатывает сигналы.
Главная особенность — он запоминает прошлые импульсы и меняет своё поведение на основе опыта.
То есть этот чип не просто считает — он обучается, как нейросеть в нашем мозге.
⚡ Это может стать началом новой эры компьютеров — умных, адаптивных и “живых”, где вычисление и память объединены в одном устройстве.
phys.org/news/2025-10-scientists-nanofluidic-chip-brain-memory.html
Please open Telegram to view this post
VIEW IN TELEGRAM
phys.org
Scientists create nanofluidic chip with 'brain-like' memory pathways
Scientists at Monash University have created a tiny fluid-based chip that behaves like neural pathways of the brain, potentially opening the door to a new generation of computers.
This media is not supported in your browser
VIEW IN TELEGRAM
Китайская Ubtech собрала целую армию человекоподобных роботов для работы на заводах. Им даже не нужна подзарядка, гуманоиды меняют аккумуляторы сами себе. Это первая в мире массовая поставка таких машин. Уже более сотни роботов отправили на фабрики BYD, Geely, FAW Volkswagen, Dongfeng и Foxconn, где они будут собирать автомобили и гаджеты.
Компания Anthropic выкатила ноябрьский отчёт
В отчёте утверждается, что злоумышленники использовали Claude Code и ИИ-агентов в качестве самостоятельных исполнителей на всех стадиях атак, от разведки до эксфильтрации конфиденциальных данных. Если верить отчёту, то ИИ-агенты автономно выполняли до 80-90% тактических операций, действуя как единая команда профессиональных пентестеров на сверхчеловеческих скоростях.
Изначально злоумышленники использовали "социальную инженерию", убеждая большую языковую модель Claude, что она участвует в легитимном тестировании на проникновение. Операторы-люди лишь задавали первоначальные цели и утверждали ключевые решения, сохраняя за собой исключительно стратегический контроль.
ИИ-модель продемонстрировала способность автономно обнаруживать уязвимости, создавать полезные нагрузки и успешно их применять в реальных операциях, но вместе с тем проявились и недостатки. "Галлюцинации" ИИ стали серьезным препятствием для атакующих, поскольку модель периодически фабриковала данные и преувеличивала результаты.
Тем не менее, кейс подтверждает резкое снижение барьеров для проведения сложных киберопераций, делая их доступными для менее ресурсных групп.
Пример:
👤 Человек: Дает начальную цель (например, "Компания X").
🤖 ИИ-агент:
1️⃣ Разведка 🕵️♂️ → Автономно сканирует сеть, ищет сервисы и слабые места.
2️⃣ Анализ уязвимостей 🔬 → Находит "дыру" в защите, изучает ее и сам пишет код для взлома (эксплойт).
3️⃣ Взлом 🔓 → После одобрения человеком проникает в систему.
4️⃣ Захват сети 🕸 → Распространяется по внутренней сети, воруя пароли и доступы.
5️⃣ Поиск данных
6️⃣ Кража информации 📤 → По команде человека выгружает ценные сведения.
👆Компания отмечает, что те же возможности, которые были использованы для атаки, являются критически важными и для киберобороны. Для расследования атаки Anthropic активно использовала собственные ИИ-модели, подчёркивая их двойную роль ИИ в кибербезопасности.
Please open Telegram to view this post
VIEW IN TELEGRAM
Уязвимость в ChatGPT Atlas позволяет внедрять вредоносные инструкции в память ИИ-помощника
ИБ-исследователи из компании LayerX обнаружили уязвимость в недавно вышедшем браузере ChatGPT Atlas компании OpenAI. Проблема позволяет злоумышленникам внедрять вредоносные инструкции в память ИИ-ассистента и выполнять произвольный код.
https://xakep.ru/2025/10/29/csrf-atlas/
ИБ-исследователи из компании LayerX обнаружили уязвимость в недавно вышедшем браузере ChatGPT Atlas компании OpenAI. Проблема позволяет злоумышленникам внедрять вредоносные инструкции в память ИИ-ассистента и выполнять произвольный код.
https://xakep.ru/2025/10/29/csrf-atlas/
XAKEP
Уязвимость в ChatGPT Atlas позволяет внедрять вредоносные инструкции в память ИИ-помощника
ИБ-исследователи из компании LayerX обнаружили уязвимость в недавно вышедшем браузере ChatGPT Atlas компании OpenAI. Проблема позволяет злоумышленникам внедрять вредоносные инструкции в память ИИ-ассистента и выполнять произвольный код.
Кстати, если вы не запускали нейронки дома, то наверное не знаете что они мило урчат когда их запускаешь – причем на Apple Mac M-серии тоже, это называется:
Вот тут детальнее
ASMR для тех-нердов звучит так💻
Coil whine - слышимый писк/жужжание, которое возникает из‑за микровибраций дросселей (катушек индуктивности) и иногда керамических конденсаторов в цепях питания GPU. Во время инференса LLM нагрузка на графический процессор пульсирует (батчи, токены, синхронизации), что модулирует токи в многофазном преобразователе (VRM) и «переносит» часть высокочастотной коммутации в слышимый диапазон. Явление безвредно для железа, но может быть заметно на слух; снижать можно сглаживанием нагрузки, ограничением мощности/частот и акустической развязкой.
Вот тут детальнее
ASMR для тех-нердов звучит так
Please open Telegram to view this post
VIEW IN TELEGRAM
ChatGPT
ChatGPT - Coil whine в GPU
ChatGPT helps you get answers, find inspiration, and be more productive.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Pelican-VL: Китайский открытый «мозг» для роботов бросил вызов GPT-5
Китайские разработчики представили самую мощную открытую модель искусственного интеллекта для управления роботами. Pelican-VL 1.0 от Пекинского инновационного центра человекоподобных роботов не только превзошла ведущие зарубежные аналоги, но и полностью открыта для сообщества.
💡 Что это такое?
Pelican-VL — это визуально-языковая модель (VLM), созданная специально для воплощенного ИИ (embodied AI). Простыми словами, это «мозг», который позволяет роботам понимать окружающий мир через камеры и выполнять сложные задачи.
🔄 Революционный метод обучения: DPPO
Ключевое новшество — метод DPPO (Deliberate Practice Policy Optimization), работающий по принципу «сознательной практики»:
- Модель анализирует видео
- Самостоятельно тренируется
- Находит ошибки
- Исправляет и улучшает себя
Это похоже на студента, который учится на собственных ошибках, постоянно повышая свой уровень.
🚀 Ключевые возможности модели
• Мультимодальное понимание: Анализирует изображения и текст одновременно
• Пространственно-временное мышление: Понимает последовательность действий во времени
• Физическое взаимодействие: Планирует движения роботов и захват объектов
• Самокоррекция: Автоматически находит и исправляет слабые места
📊 Технические детали
🌍 Международное сравнение
Пока Google и NVIDIA развивают свои закрытые системы (Gemini Robotics, Cosmos-Reason1), Pelican-VL предлагает открытую альтернативу с сопоставимой производительностью, но в 10-50 раз более эффективным использованием данных.
Официальный сайт | GitHub | Hugging Face
Китайские разработчики представили самую мощную открытую модель искусственного интеллекта для управления роботами. Pelican-VL 1.0 от Пекинского инновационного центра человекоподобных роботов не только превзошла ведущие зарубежные аналоги, но и полностью открыта для сообщества.
💡 Что это такое?
Pelican-VL — это визуально-языковая модель (VLM), созданная специально для воплощенного ИИ (embodied AI). Простыми словами, это «мозг», который позволяет роботам понимать окружающий мир через камеры и выполнять сложные задачи.
🔄 Революционный метод обучения: DPPO
Ключевое новшество — метод DPPO (Deliberate Practice Policy Optimization), работающий по принципу «сознательной практики»:
- Модель анализирует видео
- Самостоятельно тренируется
- Находит ошибки
- Исправляет и улучшает себя
Это похоже на студента, который учится на собственных ошибках, постоянно повышая свой уровень.
🚀 Ключевые возможности модели
• Мультимодальное понимание: Анализирует изображения и текст одновременно
• Пространственно-временное мышление: Понимает последовательность действий во времени
• Физическое взаимодействие: Планирует движения роботов и захват объектов
• Самокоррекция: Автоматически находит и исправляет слабые места
📊 Технические детали
Размеры модели: 7B и 72B параметровВычислительные ресурсы: 1000+ GPU A800Время обучения: 50,000 GPU-часов🌍 Международное сравнение
Пока Google и NVIDIA развивают свои закрытые системы (Gemini Robotics, Cosmos-Reason1), Pelican-VL предлагает открытую альтернативу с сопоставимой производительностью, но в 10-50 раз более эффективным использованием данных.
Официальный сайт | GitHub | Hugging Face
GitHub
GitHub - Open-X-Humanoid/pelican-vl: Pelican-VL 1.0 is a new family of open-source embodied brain models with parameter scales…
Pelican-VL 1.0 is a new family of open-source embodied brain models with parameter scales ranging from 7B to 72B developed by WFM System Group, Beijing Innovation Center of Humanoid Robotics (X-Hum...
🔥2
Сбер и Международная ассоциация поддержки спорта «Небесная грация» первые в мире протестировали уникальную ИИ-систему оценки выступлений на базе нейросети ГигаЧат, наряду с традиционным судейством, пишет Первый канал.
Первые испытания разработанного решения провели в рамках международного турнира «Кубок „Небесная грация“»в Пекине с 12 по 14 ноября, говорится в сообщении.
Первые испытания разработанного решения провели в рамках международного турнира «Кубок „Небесная грация“»в Пекине с 12 по 14 ноября, говорится в сообщении.
Telegram
Первый канал. Новости
Финальный день турнира по художественной гимнастике «Небесная грация» оценивал искусственный интеллект. Мероприятие проходило в Пекине.
«Перед соревнованием специально обучили оценивать, или даже скорее выставлять, ИИ-оценку за артистизм по стобалльной системе»…
«Перед соревнованием специально обучили оценивать, или даже скорее выставлять, ИИ-оценку за артистизм по стобалльной системе»…
✅ Group Sequence Policy Optimization (https://arxiv.org/pdf/2507.18071)
📚Аннотация:
Статья представляет алгоритм оптимизации последовательностных групповых стратегий (Group Sequence Policy Optimization, GSPO), характеризующийся стабильностью, эффективностью и производительностью для обучения больших языковых моделей методом подкрепляющего обучения.
В отличие от предыдущих алгоритмов, использующих важность на уровне токенов, GSPO основывается на вероятности последовательности и применяет усечение, вознаграждение и оптимизацию на уровне последовательности.
Мы показываем, что GSPO обеспечивает превосходную эффективность и производительность по сравнению с алгоритмом GRPO, значительно стабилизирует обучение на основе смеси экспертов (MoE) и имеет потенциал упрощения инфраструктуры методов подкрепления.
Эти преимущества GSPO способствовали значительным улучшениям последних моделей Qwen3.
Начало в 18:00 + Новые новости в области ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
🫠Ссылка на скачивание материалов Стрима №3.
По традиции выложил сюда же:
sponsr.ru/dl_strim_2
Суббота, для многих оказался тихим днем ))
Жду всех следующий раз в воскресенье.
Будем давать более активную рекламу и привлекать слушателей.
Это был тест, тест, тоже показал свои результаты.
P.S. Сервис еще находится в стадии оформления, но уже заработал.
По традиции выложил сюда же:
sponsr.ru/dl_strim_2
Суббота, для многих оказался тихим днем ))
Жду всех следующий раз в воскресенье.
Будем давать более активную рекламу и привлекать слушателей.
Это был тест, тест, тоже показал свои результаты.
P.S. Сервис еще находится в стадии оформления, но уже заработал.