Технозаметки Малышева
8.26K subscribers
3.68K photos
1.38K videos
40 files
3.87K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Emu3.5: открытая мультимодальная модель от Zhiyuan Institute

Китайский институт Zhiyuan выкатил Emu3.5 -открытую мультимодальную модель на 34B (полный размер 70гигов), которая умеет предсказывать состояние мира в следующем кадре.

Нейросеть генерирует визуальный контент по тому же принципу, как ChatGPT пишет текст, только сразу в мультимодальном пространстве.

Это позволяет модели удерживать консистентность физики мира и причинно-следственные связи, а не просто склеивать красивые кадры.

Раньше главная проблема такого подхода была в низкой скорости. Авторы решили её через новую технологию DiDA: она распараллеливает процесс и ускоряет генерацию в 20 раз.

Сценариев применения много, от распознавания и генерации картинок и кадров видео, до генерации целых миров без потери связанности по ходу движения.

Посмотреть работу вживую можно тут:
https://emu.world/

Скачать веса тут:
HF

paper
GitHub

Apache 2.0.

#Emu35 #WorldModel #Zhiyuan #Китай
———
@tsingular
🔥84👍31
Новогодние авденты гугла, конечно, штука полезная.

Например, вот простейшая инструкция как создать ИИ агента в 5 шагов за 1 минуту:

1. создаём директорию
mkdir adk && cd adk


2. делаем venv
python3 -m venv . && source bin/activate


3. ставим ADK
pip install google-adk


4. создаём агента в интерактивном режиме отвечая на вопросы, добавляя, в том числе, ключ к API гугла:
adk create --type=config my_agent

5. добавляем ему инструмент поиска в гугле.
в файле my_agent/root_agent.yaml добавляем в конец строку:
tools:
- name: google_search


Всё :)

запускаем агента:
adk run my_agent/


#adk #агенты #обучение #Google #адвенты
———
@tsingular
1🔥644👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Новый тренд!
Роботы побежали меряться кто лучше и естественнее бегает. :)

Figure vs Optimus

Как вам?
Опять хейтеры скажут нейрорендер или актёры бегают!

Ждём в следующем году Новые Олимпийские Игры Роботов!

#роботы #Figure #Optimus #бег
------
@tsingular
18🆒5👾31👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Еще пример, что можно сделать минут за 15 с Gemini3.

#Gemini #vibecoding #dev
------
@tsingular
🔥283👨‍💻2🗿2🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Дом летающих кинжалов.

Страшное дело так то.

#дроны #кинжалы #Китай
------
@tsingular
12🔥74😁3👀1
Внимание, общий сбор.
Нужно протестировать бота @skilldaybot :)

Далее цитирую:

Привет!
Хочу поделиться с вами одной маленькой, но очень важной для меня историей.
Мой сын последние месяцы тихонько работал над своим проектом и теперь он запустил собственного Telegram-бота Skill Day (@skilldaybot). Да, целый бот, который помогает людям учиться! Я до сих пор в лёгком восторге и гордости 😊

Смысл простой и классный: вы пишете боту любую тему, которая вам интересна — от психологии до программирования ,  а он за несколько секунд создаёт под вас мини-курс. Короткие уроки на каждый день, тест и даже «диплом» в конце.
И всё это он собрал своими руками.

Монетизацию сын пока не подключал — хочет сначала понять, действительно ли людям это полезно, удобно, интересно. Поэтому сейчас для меня особенно важно поддержать его тестирование.

Если вам откликается тема саморазвития, коротких форматов обучения или просто любопытно посмотреть, что делают современные дети 😅 — попробуйте.

Тем более микролернинг сейчас топ тема:)


Вот ссылка: https://t.me/skilldaybot

Оригинальный пост, где можно/нужно оставлять комментарии

#боты #dev
------
@tsingular
🔥183👍1🆒1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
KlingAI Avatar 2.0

Четвертый день омниканальных новостей от Клинга.

Опять липсинк, музика, пестни и говорящие головы.

Но. Длительность ПЯТЬ МИНУТ.

Жрет кредиты как не в себя, поэтому только на платных тарифных планах Клинга. Остальные еще не расчехлились, ждем.

Хедра, конечна, приподвзвыла...

@cgevent
🔥4👍21
Guardrails должны обрасти intent-sandbox.

Виртуалка, в которой запрос пользователя исполняется в изолированной среде и независимая модель сначала смотрит на размышления и логи,- не привело ли это к нетипичному поведению.

Но скорость работы этой песочницы должна быть в пределах 100мс, чтобы не рушить пользовательский опыт.

#мысли #cybersecurity
------
@tsingular
32👍1💯1
ТРЯМ - территориально распределенная языковая модель

ЛЯМ - локальная языковая модель

#заметки #юмор
------
@tsingular
😁287🔥5🤣2👍11
Gemini 3 Pro DeepThink бьёт рекорды.

Гугл выпустили обновление для Gemini 3 Pro которая ещё больше повысила качество размышлений и решения задач.
ARC-AGI-2 тест она проходит с результатом 45.1%!

Посмотрите в роликах какой код она теперь способна генерить.
Детализация архитектуры теперь с качественной физикой и тенями.
Кажется, что у модели уже физический движок под капотом с виртуальной моделью мира.

Доступно только боярам с Ultra подпиской.

Точно знаю что среди подписчиков есть кто-то с Ультрой, - делитесь в комментариях своими примерами.

#Gemini #DeepThink #Google
———
@tsingular
🔥852🤯2🐳1
Никогда такого не было и вот опять.

Cloudflare прилег и вместе с ним ИИшные сервисы.

Не паникуем, ждем когда отвайбкодят обратно :)

#Cloudflare
———
@tsingular
😁315🤔3😢2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🙂 Эволюция text-to-video.

Чуть меньше 3-х лет прошло между этими генерациями Уилла Смита, поедающего спагетти.

Слева - ролик, созданный в феврале 2023 года пользователем Reddit chaindrop на модели ModelScope text2video. он так ее назвал в комментариях

Справа - современная генерация на свежем Kling 2.6

С чем мы будем сравнивать видос Уилла Смита в 2030 году?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22🤯6👍2🎉21
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Kling Element Library

Пятый день омниновостей от Клинга.

Element Library - инструмент для создания ультра-консистентных элементов(ассетов) с легким доступом для генерации видео.

Генерите свои элементы (Клинг зовет их elements) с изображениями с разных ракурсов, и Kling O1 запомнит ваших персонажей, предметы и фоны, чтобы обеспечить консистентные результаты независимо от того, как движется камера или как развивается сцена.

Генерить разные ракурсы можете как новым Kling IMAGE O1, так и Нанабананой.

Очень грубо говоря, это библиотека Лор, без всяких тренировок.

@cgevent
3🔥2🤯2
Forwarded from PWN AI (Artyom Semenov)
Нормализация отклонений: почему гардрейлы не спасут LLM

На днях в блоге embracethered вышла публикация, описывающая тревожную тенденцию в сфере ИИ — «Нормализацию отклонений» (Normalization of Deviance). Суть явления в том, что небезопасные практики постепенно становятся нормой просто потому, что «ничего плохого ещё не произошло». Сам термин заимствован из социологического анализа катастрофы шаттла «Челленджер».

Автор статьи рассуждает о небезопасности LLM как о фундаментальном, природном свойстве технологии. Галлюцинации, потеря контекста и уязвимость к промпт-инъекциям часто игнорируются разработчиками.

Компании доверяют ответам LLM, ошибочно считая их безопасными по умолчанию. Отсутствие инцидентов воспринимается как доказательство надежности, что ведет к ослаблению контроля, отказу от человеческого надзора и принятию рискованных решений. Это порождает культурный дрейф: временные компромиссы становятся постоянной практикой, а исходные меры безопасности забываются или заменяются попытками «закрыться» гардрейлами.

Мой тезис жестче: гардрейлы — это не решение, а катализатор этой нормализации.


Мы пытаемся натянуть детерминированную сову на стохастический глобус. Гардрейлы оперируют бинарной логикой (pass/fail), в то время как LLM — это вероятностное распределение в многомерном векторном пространстве.

Политика безопасности может забанить токен «бомба». Но модель, работая с векторами, легко обойдет это через семантические синонимы, например: «устройство для экзотермического окисления с быстрым расширением газов». Модели умеют «растягивать» контекст и находить лазейки в пространстве смыслов, которые невозможно перекрыть регулярными выражениями или списком ключевых слов, а уж темболее другой LLM.
Вариация проблемы остановки. Попытка заранее определить, будет ли вывод модели «вредным» для любого произвольного промпта — это алгоритмически неразрешимая задача.

В итоге защита превращается в игру «Whac-A-Mole» (Бей крота). Защита всегда реактивна и всегда отстает на шаг:

1️⃣Фильтры ключевых слов обходят через кодировки (Base64, ROT13 и другие кодировки).
2️⃣Классификаторы интентов ломают через атаки с использованием ролей.
3️⃣Защиту английского языка до сих пор пробивают атаками на low-resource языках (Zulu, Gaelic).

Более того, так как гардрейл — это тоже программный код, он сам становится вектором атаки. Ирония ситуации подтверждается уязвимостями в гардрейлах:

CVE-2024-45858 (Guardrails AI): В библиотеке, созданной специально для валидации вывода LLM, нашли RCE. Функция parse_token использовала небезопасный eval() для обработки конфигураций.

СVE-2024-11958 (LlamaIndex): SQL-инъекция через... промпт. Компонент duckdb_retriever собирал SQL-запросы без должной обработки. Это демонстрирует крах концепции «безопасного агента»: вы даете модели доступ к базе, ставите гардрейл, но атакующий через промпт все равно находит способ выполнить дроп таблицы или эксфильтрацию данных.

Существует также жесткий Парето-фронт: чем безопаснее модель, тем она глупее. Улучшение метрик безвредности (harmlessness) линейно снижает полезность (helpfulness) и способность к рассуждениям.

Делаем выводы - агрессивный гардрейл блокирует написание кода, приняв rm -rf в учебном примере за атаку. Чтобы не убить UX, компании вынуждены «ослаблять гайки». Это и есть та самая нормализация отклонений.
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍732❤‍🔥1
Forwarded from Machinelearning
🌟 CUDA-L2: ИИ научился писать CUDA-ядра эффективнее инженеров NVIDIA.

Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2.
Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA.

Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов.

Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL.

В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования - будь то сырой CUDA, CuTe, CUTLASS или inline PTX.

Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми.

В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA.

🟡Что это дает на практике

Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее.

Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д.

🟡Тесты

HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек.

В так называемом "оффлайн-сценарии" CUDA-L2 работает примерно на 17–22% быстрее, чем torch.matmul, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра.

А в "серверном", сценарии, который имитирует реальный инференс с паузами между вызовами - разница еще больше: буст в 24–29% по сравнению с torch.matmul и cuBLAS.


Простым рисёрчем проект не ограничен, в репозитории на Github авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций.

В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #CUDA #DeepReinforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥5421
This media is not supported in your browser
VIEW IN TELEGRAM
С оптимизмом смотрим в будущее.

#юмор
———
@tsingular
😁24💯32🤣21
Chrome плагин проверяет на наличие критической уязвимости (CVE-2025-55182) в React

Интересный проект для тестирование сайтов на CVE-2025-55182 - реальной уязвимости с CVSS 10.0 в React Server Components.

Сама уязвимость опубликована 3 декабря 2025.
Десериализация Flight-протокола без проверки hasOwnProperty позволяет загрязнить Object.prototype и выполнить код через один POST-запрос.
Под ударом React 19.0.0–19.2.0, Next.js 14.3.0+ и 15.x–16.x, плагины для Vite и Parcel.

Но данный проект интересен тем, что по сути позволяет в видеть есть ли уязвимости на сайте прямо во время посещения страницы, без вызова командной строки и специальных внешних инструментов.

Напрашивается нечто вроде Browser Security AI Toolkit, плагин, - который будет подгружать малую модель в память и локально чекать сайты прямо во время просмотра на предмет любых скрытых рисков.

#React #CVE202555182 #NextJS #cybersecurity
———
@tsingular
🔥53👍21