DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
🔥 firecrawl-simple — урезанная и оптимизированная версия библиотеки firecrawl! Она позволяет вам быстро конвертировать веб-сайты в готовый для чтения LLM текст.

🔐 Лицензия: AGPL-3.0

🖥 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Кейс с LLM под капотом - поиск видео для монтажа рекламы

Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.

Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.

Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.

Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.

Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).

Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.

А что тут можно сделать еще лучше?

(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.

А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:

(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования

Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.

В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше
От слов к мирам: почему пространственный интеллект — это новый рубеж ИИ

Всего через пару лет после бума генеративного ИИ, пионер компьютерного зрения и сооснователь ImageNet, профессор Стэнфорда Фэй-Фэй Ли, заявляет о следующем великом вызове — пространственном интеллекте. В своей фундаментальной статье она объясняет, почему без него ИИ навсегда останется «слепым писцом», неспособным понять реальный мир.

🤔 Что такое пространственный интеллект?
Это основа человеческого познания, которая позволяет нам:
• Парковать машину, представляя расстояние до бордюра
• Ловить ключи на лету
• Наливать кофе, не глядя на чашку
• Строить в уме чертежи и изобретать

В отличие от языковых моделей (LLM), которые оперируют символами, пространственный интеллект связывает воображение, восприятие и действие в физическом мире.

⚡️ Почему это важно сейчас?
Современные многомодальные модели (MLLM) уже анализируют картинки и генерируют видео, но их пространственные способности крайне ограничены:
Путаются в оценке расстояний и размеров
Не понимают базовых законов физики
Генерируют видео, теряющие связность через несколько секунд

Без пространственного интеллекта ИИ никогда не сможет безопасно управлять автомобилем, помочь ученому в лаборатории или стать полноценным ассистентом в доме.

🧩 Решение: Модели Мира (World Models)
Чтобы наделить ИИ пространственным интеллектом, недостаточно просто масштабировать LLM. Нужны принципиально новые «Модели Мира» — генеративные системы, которые понимают, рассуждают и взаимодействуют с миром на семантическом, геометрическом и физическом уровнях.

Такая модель должна обладать тремя ключевыми свойствами:
1. Генеративность: Создавать виртуальные миры, устойчивые в перцептивном, геометрическом и физическом плане.
2. Мультимодальность: Понимать любые входные данные — от изображений и текста до жестов и действий.
3. Интерактивность: Предсказывать следующее состояние мира в ответ на действия.

🔬 Основные вызовы на пути создания Моделей Мира
• Новая целевая функция: Необходим аналог «предсказания следующего токена» из LLM, но для сложных, многомерных миров.
• Данные для обучения: Требуются алгоритмы, способные извлекать глубинные пространственные данные из 2D-изображений и видео. Большие надежды возлагаются на синтетические данные и информацию с датчиков (глубина, тактильные ощущения).
• Архитектура моделей: Современные MLLM и диффузионные модели для видео работают с 1D/2D последовательностями, что усложняет простые пространственные задачи. Прорыв могут обеспечить архитектуры с 3D/4D-восприятием.

🚀 Применение: от творчества до науки
• Креатив: Дизайнеры и режиссеры смогут мгновенно создавать и исследовать виртуальные миры для своих проектов.
• Робототехника: Модели Мира станут полигоном для тренировки роботов, прежде чем те войдут в реальный мир.
• Наука и медицина: Пространственный ИИ ускорит открытие лекарств, поможет в диагностике и создаст immersive-среды для обучения хирургов.

💎 Вывод
Пространственный интеллект — это не просто еще одна функция ИИ. Это качественный скачок, который позволит машинам наконец-то понять и взаимодействовать с тем миром, в котором мы живем.

Оригинал статьи Фэй-Фэй Ли (ENG).

#КитайскийИИ #КитайAI #ПространственныйИнтеллект #WorldModels
🔥2
В Китае воплотили в жизнь технологию древних - ядерные реакторы на тории.

В 60х годах прошлого века, ученые в США создали безопасный ядерный реактор на тории - выдающий в 50 раз меньше отходов, не требующий воды и не перегревающийся. Но тогда, доминировал уран, и из-за отсутствия инфраструктуры, проект свернули.

Пока в 2011 году, китайские инженеры не нашли материалы в архивах - спустя 14 лет, они представили первый действующий ториевый реактор в пустыне Гоби.

Залежи тория в Китае могут обеспечить страну энергией на 60 тысяч лет - а если затея взлетит, технология перевернет глобальный рынок энергии.
👍Оформил материалы по стримам. Теперь они все будут оформляться тут. Каждый стрим будет выкладываться тут.

🫠Ссылка на скачивание:
sponsr.ru/dl_strim_2

P.S. Сервис еще находится в стадии оформления, но уже заработал.
👌3
Самые востребованные художники и иллюстраторы при создании видео и изображений с помощью искусственного интеллекта:

подписчики Midjourney использовали имя художника Альфонса Мухи в 230 794 запросах — почти в 4 раза больше, чем имя Леонардо да Винчи. Альфонс Муха — на 1-м месте в рейтинге.

На 2-м — Рембрандт (128 143 запросов).

3-е место занимает Леонардо да Винчи (61 259).

В рейтинге есть и иллюстратор Норман Роквелл — он на 4-м месте (57 583).

А вот Сальвадор Дали — на 6-й позиции (49 791), сразу после Густава Климта (56 670).
🔥3😁2
🖥 Чип, который работает как мозг человека

Учёные из Monash University создали микрочип размером с монету, который ведёт себя как настоящие нейроны мозга.

💧 В основе — жидкостная структура из металлоорганического каркаса (MOF).
Через микроскопические каналы внутри неё проходят ионы, как электрические импульсы в мозге, — именно так чип обрабатывает сигналы.

Главная особенность — он запоминает прошлые импульсы и меняет своё поведение на основе опыта.
То есть этот чип не просто считает — он обучается, как нейросеть в нашем мозге.

Это может стать началом новой эры компьютеров — умных, адаптивных и “живых”, где вычисление и память объединены в одном устройстве.

phys.org/news/2025-10-scientists-nanofluidic-chip-brain-memory.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Ну, во-первых это просто красиво ))
This media is not supported in your browser
VIEW IN TELEGRAM
Китайская Ubtech собрала целую армию человекоподобных роботов для работы на заводах. Им даже не нужна подзарядка, гуманоиды меняют аккумуляторы сами себе. Это первая в мире массовая поставка таких машин. Уже более сотни роботов отправили на фабрики BYD, Geely, FAW Volkswagen, Dongfeng и Foxconn, где они будут собирать автомобили и гаджеты.
🈁 Anthropic пресекла шпионскую киберкампанию под управлением 🤖ИИ-агентов

Компания Anthropic выкатила ноябрьский отчёт 📄"Disrupting the first reported AI-orchestrated cyber espionage campaign", где рассказывает о пресечении первой в истории кибершпионской кампании, практически полностью организованной и выполненной 🤖искусственным интеллектом. Операция приписывается якобы китайской прогосударственной группировке GTG-1002, которая нацелилась примерно на 30 крупных организаций, включая технологические корпорации и правительственные учреждения. Специалисты подчёркивают особую роль ИИ в новой истории кибервойн, где автономные ИИ-агенты постепенно становятся мощнейшим оружием в киберпространстве.

В отчёте утверждается, что злоумышленники использовали Claude Code и ИИ-агентов в качестве самостоятельных исполнителей на всех стадиях атак, от разведки до эксфильтрации конфиденциальных данных. Если верить отчёту, то ИИ-агенты автономно выполняли до 80-90% тактических операций, действуя как единая команда профессиональных пентестеров на сверхчеловеческих скоростях.

Изначально злоумышленники использовали "социальную инженерию", убеждая большую языковую модель Claude, что она участвует в легитимном тестировании на проникновение. Операторы-люди лишь задавали первоначальные цели и утверждали ключевые решения, сохраняя за собой исключительно стратегический контроль.

ИИ-модель продемонстрировала способность автономно обнаруживать уязвимости, создавать полезные нагрузки и успешно их применять в реальных операциях, но вместе с тем проявились и недостатки. "Галлюцинации" ИИ стали серьезным препятствием для атакующих, поскольку модель периодически фабриковала данные и преувеличивала результаты.

Тем не менее, кейс подтверждает резкое снижение барьеров для проведения сложных киберопераций, делая их доступными для менее ресурсных групп.

Пример:
👤 Человек: Дает начальную цель (например, "Компания X").
🤖 ИИ-агент:

1️⃣ Разведка 🕵️‍♂️ → Автономно сканирует сеть, ищет сервисы и слабые места.
2️⃣ Анализ уязвимостей 🔬 → Находит "дыру" в защите, изучает ее и сам пишет код для взлома (эксплойт).
3️⃣ Взлом 🔓 → После одобрения человеком проникает в систему.
4️⃣ Захват сети 🕸 → Распространяется по внутренней сети, воруя пароли и доступы.
5️⃣ Поиск данных 📖 → Самостоятельно анализирует огромные объемы информации, находя самое ценное (коммерческие тайны, учетные записи).
6️⃣ Кража информации 📤 → По команде человека выгружает ценные сведения.

👆Компания отмечает, что те же возможности, которые были использованы для атаки, являются критически важными и для киберобороны. Для расследования атаки Anthropic активно использовала собственные ИИ-модели, подчёркивая их двойную роль ИИ в кибербезопасности.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
Уязвимость в ChatGPT Atlas позволяет внедрять вредоносные инструкции в память ИИ-помощника

ИБ-исследователи из компании LayerX обнаружили уязвимость в недавно вышедшем браузере ChatGPT Atlas компании OpenAI. Проблема позволяет злоумышленникам внедрять вредоносные инструкции в память ИИ-ассистента и выполнять произвольный код.

https://xakep.ru/2025/10/29/csrf-atlas/
Кстати, если вы не запускали нейронки дома, то наверное не знаете что они мило урчат когда их запускаешь – причем на Apple Mac M-серии тоже, это называется:

Coil whine - слышимый писк/жужжание, которое возникает из‑за микровибраций дросселей (катушек индуктивности) и иногда керамических конденсаторов в цепях питания GPU. Во время инференса LLM нагрузка на графический процессор пульсирует (батчи, токены, синхронизации), что модулирует токи в многофазном преобразователе (VRM) и «переносит» часть высокочастотной коммутации в слышимый диапазон. Явление безвредно для железа, но может быть заметно на слух; снижать можно сглаживанием нагрузки, ограничением мощности/частот и акустической развязкой.


Вот тут детальнее

ASMR для тех-нердов звучит так 💻
Please open Telegram to view this post
VIEW IN TELEGRAM
⚠️Ребята, напоминаю стрим сегодня в 18.00. Не завтра !))
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Pelican-VL: Китайский открытый «мозг» для роботов бросил вызов GPT-5

Китайские разработчики представили самую мощную открытую модель искусственного интеллекта для управления роботами. Pelican-VL 1.0 от Пекинского инновационного центра человекоподобных роботов не только превзошла ведущие зарубежные аналоги, но и полностью открыта для сообщества.

💡 Что это такое?
Pelican-VL — это визуально-языковая модель (VLM), созданная специально для воплощенного ИИ (embodied AI). Простыми словами, это «мозг», который позволяет роботам понимать окружающий мир через камеры и выполнять сложные задачи.

🔄 Революционный метод обучения: DPPO
Ключевое новшество — метод DPPO (Deliberate Practice Policy Optimization), работающий по принципу «сознательной практики»:
- Модель анализирует видео
- Самостоятельно тренируется
- Находит ошибки
- Исправляет и улучшает себя

Это похоже на студента, который учится на собственных ошибках, постоянно повышая свой уровень.

🚀 Ключевые возможности модели
Мультимодальное понимание: Анализирует изображения и текст одновременно
Пространственно-временное мышление: Понимает последовательность действий во времени
Физическое взаимодействие: Планирует движения роботов и захват объектов
Самокоррекция: Автоматически находит и исправляет слабые места

📊 Технические детали
Размеры модели: 7B и 72B параметров
Вычислительные ресурсы: 1000+ GPU A800
Время обучения: 50,000 GPU-часов

🌍 Международное сравнение
Пока Google и NVIDIA развивают свои закрытые системы (Gemini Robotics, Cosmos-Reason1), Pelican-VL предлагает открытую альтернативу с сопоставимой производительностью, но в 10-50 раз более эффективным использованием данных.

Официальный сайт | GitHub | Hugging Face
🔥2
Сбер и Международная ассоциация поддержки спорта «Небесная грация» первые в мире протестировали уникальную ИИ-систему оценки выступлений на базе нейросети ГигаЧат, наряду с традиционным судейством, пишет Первый канал.

Первые испытания разработанного решения провели в рамках международного турнира «Кубок „Небесная грация“»в Пекине с 12 по 14 ноября, говорится в сообщении.
🔝Разбор статей и разговор за ИИ. Стрим №3

🔝https://my.mts-link.ru/j/34131307/DL_Strim_3

Group Sequence Policy Optimization (https://arxiv.org/pdf/2507.18071)

📚Аннотация:
Статья представляет алгоритм оптимизации последовательностных групповых стратегий (Group Sequence Policy Optimization, GSPO), характеризующийся стабильностью, эффективностью и производительностью для обучения больших языковых моделей методом подкрепляющего обучения.

В отличие от предыдущих алгоритмов, использующих важность на уровне токенов, GSPO основывается на вероятности последовательности и применяет усечение, вознаграждение и оптимизацию на уровне последовательности.

Мы показываем, что GSPO обеспечивает превосходную эффективность и производительность по сравнению с алгоритмом GRPO, значительно стабилизирует обучение на основе смеси экспертов (MoE) и имеет потенциал упрощения инфраструктуры методов подкрепления.

Эти преимущества GSPO способствовали значительным улучшениям последних моделей Qwen3.

Начало в 18:00 + Новые новости в области ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
🫠Ссылка на скачивание материалов Стрима №3.
По традиции выложил сюда же:
sponsr.ru/dl_strim_2

Суббота, для многих оказался тихим днем ))
Жду всех следующий раз в воскресенье.
Будем давать более активную рекламу и привлекать слушателей.
Это был тест, тест, тоже показал свои результаты.

P.S. Сервис еще находится в стадии оформления, но уже заработал.