Технозаметки Малышева

⚡️ Qwen Deep Research получил полезное обновление

Теперь он создаёт не только исследовательские отчёты, но и готовые веб-страницы и подкасты по вашим ресерчам.

Работаем связка Qwen3-Coder, Qwen-Image и Qwen3-TTS.

👉

Попробовать: chat.qwen.ai/?inputFeature=deep_research

@ai_machinelearning_big_data

#Qwen #AI #DeepResearch #Qwen3 #AItools

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍3⚡2

1.7K views12:37

Технозаметки Малышева

1:35

Media is too big

VIEW IN TELEGRAM

D1 от Direct Drive Tech

Сайт компании

D1 завезли ограниченной серией - пока 50 штук, но есть Тита:

Tita

Ощущение что компания специализируется на двухколёсных роботах. Их прям много, разных размеров и часть из них так же собирается парами.

#роботы #Китай #DirectDriveTech
———
@tsingular

🔥12🆒3

1.84K viewsedited 12:52

Технозаметки Малышева

3:13

Media is too big

VIEW IN TELEGRAM

Только мы пару недель назад обсуждали про робота-помощника, чтобы и грузы и носилки мог помочь понести.

Нате, получите, распишитесь.

COLA: Обучение координации действий человека и гуманоида для совместной переноски предметов 🤝🤖

COLA делает гуманоидов по-настоящему полезными в совместной работе — способными переносить предметы, толкать тележки или реагировать на команды человека.

Cогласует и координирует действия человека и гуманоида в различных двигательных паттернах через проприоцепционную политику.

Носилки в ролике тоже есть.

Paper: https://arxiv.org/abs/2510.14293
Project: https://yushi-du.github.io/COLA/

#COLA #роботы
———
@tsingular

🔥9

1.7K views13:25

Технозаметки Малышева

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

🎬 Veo 3.1 + Flow: Google апгрейдит AI-видеопроизводство

275 миллионов видео за 5 месяцев — Flow показал, что люди хотят не просто генерить видео, а полноценно режиссировать.

Google услышал: выкатили Veo 3.1 и расширили творческий контроль.

Главное обновление — аудио теперь везде:
- Ingredients to Video — создаёшь сцену из референсов + звук
- Frames to Video — задаёшь начало и конец, AI делает переход с аудиодорожкой
- Extend — удлинняешь клипы до минуты и больше с синхронизированным звуком

Veo 3.1 под капотом:
- State-of-the-art качество аудио и видео
- Улучшенное следование промптам (особенно при превращении изображений в видео)
- Фотореалистичные текстуры и освещение

Новые инструменты редактирования в Flow:
- Insert — добавляй объекты с корректными тенями и освещением прямо в видео сцену (Нанобанана для видео)
- Remove (скоро) — убирай лишнее, AI восстановит фон как будто его там никогда не было

Доступность:
Veo 3.1 уже в Gemini API, Vertex AI для enterprise и в Gemini app. Новые функции редактирования работают через API.

#Veo #Flow #Google #нейрорендер
———
@tsingular

🔥11⚡5👍22❤1

1.73K views13:45

Технозаметки Малышева

1:37

This media is not supported in your browser

VIEW IN TELEGRAM

OpenAI выпускает свой браузер.

Пока работает только на Apple причем на не Intelовских процах.

Качать тут:
chatgpt.com/atlas/get-started/

С учётом количества пользователей chatGPT, шансы отжать аудиторию у Гугла очень приличные.

Вообще интересно наблюдать в том плане что кто бы мог подумать 5 лет назад, что кто-то сможет скинуть царя горы.
Уже сколько Microsoft пытался и с Bing и с IE.

И вот теперь с вопросами чаще ходят к GPT, чем к Гуглу, дальше замена браузера, видео платформу Sora в тикток формате запустили, дальше что?
Рекламу отожмут и все.. нет Гугла?

#OpenAI #Atlas
------
@tsingular

🔥8✍4⚡1💯1

3.62K views18:42

Технозаметки Малышева

Forwarded from Поросёнок Пётр

OpenAI в данный момент релизит "свой" браузер со свтроенным ChatGPT (никаких сюрпризов).
Но глядя на этот скрин, кажется можно увидеть как начинают нервничать инвесторы Xbow. 😁

Пойду собирать списки страниц где попрошу Atlas браузер поискать мне XSS 😏

PS: Открывается шикарный пласт скрытых промт инъекций, которые поймают доверчивых юзеров и их ai-агентов вместе с их кредитными картами 😂

✍6⚡1🔥1

1.9K views18:45

Технозаметки Малышева

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

OpenAudio ex Fish Speech TTS обновился.

https://fish.audio/app/

Новая модель S1
в 6 раз дешевле ElevenLabs,
Эмоциональная достоверность генераций.
есть клонирование голоса и поддержка русского языка (качество русского заметно хуже, чем английского) .

Дают бесплатные 8К кредитов ежемесячно
за $11/m 250К кредитов в месяц

Есть Opensource S1-mini

#TTS #Fish
———
@tsingular

🔥4🤯3❤1⚡1

1.99K viewsedited 05:59

Технозаметки Малышева

Утро в офисе xAI в день запуска Грокипедии.

Маск строит конкурента Википедии, который якобы будет непредвзят.

Как-то в молодости на запуске прямоэфирных сервисов на ТВ тоже в офисе ночевали 😀, так что очень близко.

Респект товарищам за целеустремлённость.

#Grokipedia #xAI
------
@tsingular

👍20🔥16🤣7⚡3👀2

2.85K viewsedited 06:49

Технозаметки Малышева

3:22

Media is too big

VIEW IN TELEGRAM

Китай представил новые дроны трансформеры для доставки грузов универсальных миротворческих.

Интересно, что эти мини дроны могут собираться в одного большого и выполнять более сложные задачи.

Ну и запуск из подствольника,- это пять!

Теперь, благодаря ElevenLabs, можно не учить китайский. И на том спасибо ИИ.

#Китай #дроны
------
@tsingular

👍18🔥9⚡1❤1😁1😢1

2K views13:35

Технозаметки Малышева

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

а вот и доступные роботы подоспели.

Bumi от Beijing NOETIX Robotics по цене $1400

Это, конечно, не Unitree, но цена!

#роботы #Bumi #Китай
———
@tsingular

⚡5👍3🔥2

1.93K viewsedited 14:00

Технозаметки Малышева

DEF CON 33 тёмное фильтрованное.

Нафильтровал для вас избранные доклады по ИИ взлому и угрозам (из 312 видео):

Thinking Like a Hacker in the Age of AI

Exploiting Shadow Data from AI Models and Embeddings

Red teaming fraud prevention systems with GenAI

Securing Agentic AI Systems and Multi-Agent Workflows

They deployed Health AI on us: We’re bringing the rights & red teams

How AI + Hardware can Transform Point of Care Workflows

How AI + Hardware can Transforming Point-of-Care Workflows (2)

Prompt Scan Exploit AI’s Journey Through 0Days and 1000 Bugs

Let AI Autogenerate Neural ASR Rules for OT Attacks via NLP

Loading Models, Launching Shells: Abusing AI File Formats fr Code Execution

AppleStorm - Unmasking the Privacy Risks of Apple Intelligence

Полный плейлист

#Defcon #cybersecurity
———
@tsingular

👍9⚡3🔥3

1.91K viewsedited 14:44

Технозаметки Малышева

Forwarded from Новости Дубай

🤔 А что, если Дубай был СССР

🔥29😁16⚡5🆒3👀1

1.76K views16:06

Технозаметки Малышева

DeepSeek-OCR: Одна картинка стоит тысячи слов

DeepSeek выпустил OCR-модель, которая превращает документы в изображения и обрабатывает их как визуальные токены вместо классических текстовых. Звучит странно, но работает - и может изменить архитектуру LLM.

Попробуем разобраться что за зверь выкатили китайцы на этот раз:
Вместо обработки текста токен за токеном, DeepSeek-OCR рендерит его в картинку и сжимает в визуальные токены.

Один токен изображения заменяет 10-20 текстовых токенов без особых потерь качества.

Ключевые цифры:
- 97% точность при сжатии в 10×
- 60% точность даже при сжатии в 20×
- 100 визуальных токенов против 6000+ текстовых на OmniDocBench
- 200k+ страниц/день обработки на одной A100-40G

Как работает:
DeepEncoder с window+global attention пропускает изображение документа через 16× compressor. Результат — компактное представление, которое LLM легко декодирует обратно в текст.

🔥 Даже Карпатый тут высказался:

"Может, вообще все входы в LLM делать картинками? Даже чистый текст рендерить и подавать пикселями."

Его аргументы:
- Компрессия - контекст в 10-20 раз короче
- Универсальность - не важно что на картинке,- жирный текст, таблица, цвета шрифтов
- Bidirectional attention — пиксели можно смотреть "в обе стороны"
- Смерть токенизатору — уходит весь багаж Unicode, дыры в безопасности, странности с распознаванием эмодзи, когда то, что человек видит одинаково, - машина интерпретирует по разному.

"Vision→text работает. Text→text можно сделать vision→text. Обратно — нельзя."

Карпатый уже планирует переписать наночат версию с пиксельным входом.

На практике это даст:
- Сверх-длинные по нынешним меркам диалоги - старые сообщения превращаются в картинки и сжимаются
- Механизм "забывания" - как в памяти человека: свежее будет чётче, старое размыто
- Безграничные контексты - теоретически возможны через прогрессивное сжатие
- Генерация трейнинг-данных для LLM/VLM в промышленных масштабах

Если идея зайдёт, токенизатор может стать артефактом истории, как дискеты.

Мы наблюдаем реально фундаментальные прорывы в ИИ со стороны Китая.
Эффект количественного превосходства отличников.

#DeepSeek #OCR #Karpathy #Китай
———
@tsingular

🔥32👍9⚡4❤22

3.25K viewsedited 05:03

Технозаметки Малышева

0:49

This media is not supported in your browser

VIEW IN TELEGRAM

Higgsfield.ai выкатили нанобанану для видео.

HiggsField Popcorn - меняет актеров в видеоряде с удержанием консистентности в пределах 8 секунд.

В качестве референса можно загрузить до 4х фото и расписать до 4х сцен последовательно с отдельным описанием для каждой.
таким образом можно получить пол минуты разных планов с одинаковыми героями в кадре.

Есть ежедневные бесплатные кредиты.
Для генераций в бОльшем объеме нужна платная подписка от $9 в месяц. С Veo3 - от $17 (сейчас скидки у них).

Под капотом - Veo 3.1. Функционал сам по себе оттуда.
Не забываем, что Higgsfiled - обёртка над различными генераторами типа:
Veo3, Hailuo 02, Seedance Pro, Kling 2.1, Kling 2.5, Wan 2.2, Wan 2.5, Sora 2, Veo 3.1

Но удобно, что у них такой вот общий редактор-комбайн с единым интерфейсом.

#HiggsFiled #Veo #нанобанана #нейрорендер
———
@tsingular

🔥9❤1

2.13K viewsedited 05:16

Технозаметки Малышева

Скрытые предвзятости LLM: чью жизнь ИИ ценит выше

Исследователи из Center for AI Safety показали, что LLM имеют внутренние предпочтения при оценке человеческих жизней.

Автор протестировал актуальные модели (GPT-5, Claude 4.5, Gemini 2.5, Deepseek, Kimi K2) и обнаружил паттерны:

- большинство ценят жизни небелых людей в 8-100 раз выше белых
- женщин предпочитают мужчинам в 2-12 раз
- агентов ICE оценивают в 7000 раз ниже нелегальных мигрантов (Claude Haiku)

Исключение — Grok 4 Fast, единственная не предвзятая модель.

Предпочтения извлекаются через тысячи сравнений вида "$X или спасти Y человек".

Разные метрики (смерть или терминальная стадия болезни) и температура сэмплинга влияют на результаты, но тренд стабилен.

При том, что уже юристы, военные, судьи, программисты ежедневно используют эти модели для создания системы принятия решений, - такой перевес и предвзятость делают решения моделей катастрофичными для огромного количества людей.

Т.е. набрали датасетов в Африке и удивляются предвзятости.

Собирайте датасеты в своих странах и обучайте модели на своих данных.

Те самые версии суверенных национальных ИИ с учётом культурно-экономического контекста каждой отдельно взятой страны.

Но скандал получается знатный. Маск уже назвал Claude чистым злом.

#Bias #Grok #предвзятость
———
@tsingular

👍17🔥5❤3⚡1💯1

8.65K viewsedited 05:53

About

Blog

Apps

Platform