Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Теперь он создаёт не только исследовательские отчёты, но и готовые веб-страницы и подкасты по вашим ресерчам.
Работаем связка Qwen3-Coder, Qwen-Image и Qwen3-TTS.
@ai_machinelearning_big_data
#Qwen #AI #DeepResearch #Qwen3 #AItools
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍3⚡2
Media is too big
VIEW IN TELEGRAM
D1 от Direct Drive Tech
Сайт компании
D1 завезли ограниченной серией - пока 50 штук, но есть Тита:
Tita
Ощущение что компания специализируется на двухколёсных роботах. Их прям много, разных размеров и часть из них так же собирается парами.
#роботы #Китай #DirectDriveTech
———
@tsingular
Сайт компании
D1 завезли ограниченной серией - пока 50 штук, но есть Тита:
Tita
Ощущение что компания специализируется на двухколёсных роботах. Их прям много, разных размеров и часть из них так же собирается парами.
#роботы #Китай #DirectDriveTech
———
@tsingular
🔥12🆒3
Media is too big
VIEW IN TELEGRAM
Только мы пару недель назад обсуждали про робота-помощника, чтобы и грузы и носилки мог помочь понести.
Нате, получите, распишитесь.
COLA: Обучение координации действий человека и гуманоида для совместной переноски предметов 🤝🤖
COLA делает гуманоидов по-настоящему полезными в совместной работе — способными переносить предметы, толкать тележки или реагировать на команды человека.
Cогласует и координирует действия человека и гуманоида в различных двигательных паттернах через проприоцепционную политику.
Носилки в ролике тоже есть.
Paper: https://arxiv.org/abs/2510.14293
Project: https://yushi-du.github.io/COLA/
#COLA #роботы
———
@tsingular
Нате, получите, распишитесь.
COLA: Обучение координации действий человека и гуманоида для совместной переноски предметов 🤝🤖
COLA делает гуманоидов по-настоящему полезными в совместной работе — способными переносить предметы, толкать тележки или реагировать на команды человека.
Cогласует и координирует действия человека и гуманоида в различных двигательных паттернах через проприоцепционную политику.
Носилки в ролике тоже есть.
Paper: https://arxiv.org/abs/2510.14293
Project: https://yushi-du.github.io/COLA/
#COLA #роботы
———
@tsingular
🔥9
🎬 Veo 3.1 + Flow: Google апгрейдит AI-видеопроизводство
275 миллионов видео за 5 месяцев — Flow показал, что люди хотят не просто генерить видео, а полноценно режиссировать.
Google услышал: выкатили Veo 3.1 и расширили творческий контроль.
Главное обновление — аудио теперь везде:
- Ingredients to Video — создаёшь сцену из референсов + звук
- Frames to Video — задаёшь начало и конец, AI делает переход с аудиодорожкой
- Extend — удлинняешь клипы до минуты и больше с синхронизированным звуком
Veo 3.1 под капотом:
- State-of-the-art качество аудио и видео
- Улучшенное следование промптам (особенно при превращении изображений в видео)
- Фотореалистичные текстуры и освещение
Новые инструменты редактирования в Flow:
- Insert — добавляй объекты с корректными тенями и освещением прямо в видео сцену (Нанобанана для видео)
- Remove (скоро) — убирай лишнее, AI восстановит фон как будто его там никогда не было
Доступность:
Veo 3.1 уже в Gemini API, Vertex AI для enterprise и в Gemini app. Новые функции редактирования работают через API.
#Veo #Flow #Google #нейрорендер
———
@tsingular
275 миллионов видео за 5 месяцев — Flow показал, что люди хотят не просто генерить видео, а полноценно режиссировать.
Google услышал: выкатили Veo 3.1 и расширили творческий контроль.
Главное обновление — аудио теперь везде:
- Ingredients to Video — создаёшь сцену из референсов + звук
- Frames to Video — задаёшь начало и конец, AI делает переход с аудиодорожкой
- Extend — удлинняешь клипы до минуты и больше с синхронизированным звуком
Veo 3.1 под капотом:
- State-of-the-art качество аудио и видео
- Улучшенное следование промптам (особенно при превращении изображений в видео)
- Фотореалистичные текстуры и освещение
Новые инструменты редактирования в Flow:
- Insert — добавляй объекты с корректными тенями и освещением прямо в видео сцену (Нанобанана для видео)
- Remove (скоро) — убирай лишнее, AI восстановит фон как будто его там никогда не было
Доступность:
Veo 3.1 уже в Gemini API, Vertex AI для enterprise и в Gemini app. Новые функции редактирования работают через API.
#Veo #Flow #Google #нейрорендер
———
@tsingular
🔥11⚡5👍2 2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпускает свой браузер.
Пока работает только на Apple причем на не Intelовских процах.
Качать тут:
chatgpt.com/atlas/get-started/
С учётом количества пользователей chatGPT, шансы отжать аудиторию у Гугла очень приличные.
Вообще интересно наблюдать в том плане что кто бы мог подумать 5 лет назад, что кто-то сможет скинуть царя горы.
Уже сколько Microsoft пытался и с Bing и с IE.
И вот теперь с вопросами чаще ходят к GPT, чем к Гуглу, дальше замена браузера, видео платформу Sora в тикток формате запустили, дальше что?
Рекламу отожмут и все.. нет Гугла?
#OpenAI #Atlas
------
@tsingular
Пока работает только на Apple причем на не Intelовских процах.
Качать тут:
chatgpt.com/atlas/get-started/
С учётом количества пользователей chatGPT, шансы отжать аудиторию у Гугла очень приличные.
Вообще интересно наблюдать в том плане что кто бы мог подумать 5 лет назад, что кто-то сможет скинуть царя горы.
Уже сколько Microsoft пытался и с Bing и с IE.
И вот теперь с вопросами чаще ходят к GPT, чем к Гуглу, дальше замена браузера, видео платформу Sora в тикток формате запустили, дальше что?
Рекламу отожмут и все.. нет Гугла?
#OpenAI #Atlas
------
@tsingular
🔥8✍4⚡1💯1
Forwarded from Поросёнок Пётр
OpenAI в данный момент релизит "свой" браузер со свтроенным ChatGPT (никаких сюрпризов).
Но глядя на этот скрин, кажется можно увидеть как начинают нервничать инвесторы Xbow. 😁
Пойду собирать списки страниц где попрошу Atlas браузер поискать мне XSS 😏
PS: Открывается шикарный пласт скрытых промт инъекций, которые поймают доверчивых юзеров и их ai-агентов вместе с их кредитными картами 😂
Но глядя на этот скрин, кажется можно увидеть как начинают нервничать инвесторы Xbow. 😁
Пойду собирать списки страниц где попрошу Atlas браузер поискать мне XSS 😏
PS: Открывается шикарный пласт скрытых промт инъекций, которые поймают доверчивых юзеров и их ai-агентов вместе с их кредитными картами 😂
✍6⚡1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAudio ex Fish Speech TTS обновился.
https://fish.audio/app/
Новая модель S1
в 6 раз дешевле ElevenLabs,
Эмоциональная достоверность генераций.
есть клонирование голоса и поддержка русского языка (качество русского заметно хуже, чем английского) .
Дают бесплатные 8К кредитов ежемесячно
за $11/m 250К кредитов в месяц
Есть Opensource S1-mini
#TTS #Fish
———
@tsingular
https://fish.audio/app/
Новая модель S1
в 6 раз дешевле ElevenLabs,
Эмоциональная достоверность генераций.
есть клонирование голоса и поддержка русского языка (качество русского заметно хуже, чем английского) .
Дают бесплатные 8К кредитов ежемесячно
за $11/m 250К кредитов в месяц
Есть Opensource S1-mini
#TTS #Fish
———
@tsingular
🔥4🤯3❤1⚡1
Утро в офисе xAI в день запуска Грокипедии.
Маск строит конкурента Википедии, который якобы будет непредвзят.
Как-то в молодости на запуске прямоэфирных сервисов на ТВ тоже в офисе ночевали 😀, так что очень близко.
Респект товарищам за целеустремлённость.
#Grokipedia #xAI
------
@tsingular
Маск строит конкурента Википедии, который якобы будет непредвзят.
Как-то в молодости на запуске прямоэфирных сервисов на ТВ тоже в офисе ночевали 😀, так что очень близко.
Респект товарищам за целеустремлённость.
#Grokipedia #xAI
------
@tsingular
👍20🔥16🤣7⚡3👀2
Media is too big
VIEW IN TELEGRAM
Китай представил новые дроны трансформеры для доставки грузов универсальных миротворческих.
Интересно, что эти мини дроны могут собираться в одного большого и выполнять более сложные задачи.
Ну и запуск из подствольника,- это пять!
Теперь, благодаря ElevenLabs, можно не учить китайский. И на том спасибо ИИ.
#Китай #дроны
------
@tsingular
Интересно, что эти мини дроны могут собираться в одного большого и выполнять более сложные задачи.
Ну и запуск из подствольника,- это пять!
Теперь, благодаря ElevenLabs, можно не учить китайский. И на том спасибо ИИ.
#Китай #дроны
------
@tsingular
👍18🔥9⚡1❤1😁1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
а вот и доступные роботы подоспели.
Bumi от Beijing NOETIX Robotics по цене $1400
Это, конечно, не Unitree, но цена!
#роботы #Bumi #Китай
———
@tsingular
Bumi от Beijing NOETIX Robotics по цене $1400
Это, конечно, не Unitree, но цена!
#роботы #Bumi #Китай
———
@tsingular
⚡5👍3🔥2
DEF CON 33 тёмное фильтрованное.
Нафильтровал для вас избранные доклады по ИИ взлому и угрозам (из 312 видео):
Thinking Like a Hacker in the Age of AI
Exploiting Shadow Data from AI Models and Embeddings
Red teaming fraud prevention systems with GenAI
Securing Agentic AI Systems and Multi-Agent Workflows
They deployed Health AI on us: We’re bringing the rights & red teams
How AI + Hardware can Transform Point of Care Workflows
How AI + Hardware can Transforming Point-of-Care Workflows (2)
Prompt Scan Exploit AI’s Journey Through 0Days and 1000 Bugs
Let AI Autogenerate Neural ASR Rules for OT Attacks via NLP
Loading Models, Launching Shells: Abusing AI File Formats fr Code Execution
AppleStorm - Unmasking the Privacy Risks of Apple Intelligence
Полный плейлист
#Defcon #cybersecurity
———
@tsingular
Нафильтровал для вас избранные доклады по ИИ взлому и угрозам (из 312 видео):
Thinking Like a Hacker in the Age of AI
Exploiting Shadow Data from AI Models and Embeddings
Red teaming fraud prevention systems with GenAI
Securing Agentic AI Systems and Multi-Agent Workflows
They deployed Health AI on us: We’re bringing the rights & red teams
How AI + Hardware can Transform Point of Care Workflows
How AI + Hardware can Transforming Point-of-Care Workflows (2)
Prompt Scan Exploit AI’s Journey Through 0Days and 1000 Bugs
Let AI Autogenerate Neural ASR Rules for OT Attacks via NLP
Loading Models, Launching Shells: Abusing AI File Formats fr Code Execution
AppleStorm - Unmasking the Privacy Risks of Apple Intelligence
Полный плейлист
#Defcon #cybersecurity
———
@tsingular
👍9⚡3🔥3
DeepSeek-OCR: Одна картинка стоит тысячи слов
DeepSeek выпустил OCR-модель, которая превращает документы в изображения и обрабатывает их как визуальные токены вместо классических текстовых. Звучит странно, но работает - и может изменить архитектуру LLM.
Попробуем разобраться что за зверь выкатили китайцы на этот раз:
Вместо обработки текста токен за токеном, DeepSeek-OCR рендерит его в картинку и сжимает в визуальные токены.
Один токен изображения заменяет 10-20 текстовых токенов без особых потерь качества.
Ключевые цифры:
- 97% точность при сжатии в 10×
- 60% точность даже при сжатии в 20×
- 100 визуальных токенов против 6000+ текстовых на OmniDocBench
- 200k+ страниц/день обработки на одной A100-40G
Как работает:
DeepEncoder с window+global attention пропускает изображение документа через 16× compressor. Результат — компактное представление, которое LLM легко декодирует обратно в текст.
🔥 Даже Карпатый тут высказался:
"Может, вообще все входы в LLM делать картинками? Даже чистый текст рендерить и подавать пикселями."
Его аргументы:
- Компрессия - контекст в 10-20 раз короче
- Универсальность - не важно что на картинке,- жирный текст, таблица, цвета шрифтов
- Bidirectional attention — пиксели можно смотреть "в обе стороны"
- Смерть токенизатору — уходит весь багаж Unicode, дыры в безопасности, странности с распознаванием эмодзи, когда то, что человек видит одинаково, - машина интерпретирует по разному.
"Vision→text работает. Text→text можно сделать vision→text. Обратно — нельзя."
Карпатый уже планирует переписать наночат версию с пиксельным входом.
На практике это даст:
- Сверх-длинные по нынешним меркам диалоги - старые сообщения превращаются в картинки и сжимаются
- Механизм "забывания" - как в памяти человека: свежее будет чётче, старое размыто
- Безграничные контексты - теоретически возможны через прогрессивное сжатие
- Генерация трейнинг-данных для LLM/VLM в промышленных масштабах
Если идея зайдёт, токенизатор может стать артефактом истории, как дискеты.
Мы наблюдаем реально фундаментальные прорывы в ИИ со стороны Китая.
Эффект количественного превосходства отличников.
#DeepSeek #OCR #Karpathy #Китай
———
@tsingular
DeepSeek выпустил OCR-модель, которая превращает документы в изображения и обрабатывает их как визуальные токены вместо классических текстовых. Звучит странно, но работает - и может изменить архитектуру LLM.
Попробуем разобраться что за зверь выкатили китайцы на этот раз:
Вместо обработки текста токен за токеном, DeepSeek-OCR рендерит его в картинку и сжимает в визуальные токены.
Один токен изображения заменяет 10-20 текстовых токенов без особых потерь качества.
Ключевые цифры:
- 97% точность при сжатии в 10×
- 60% точность даже при сжатии в 20×
- 100 визуальных токенов против 6000+ текстовых на OmniDocBench
- 200k+ страниц/день обработки на одной A100-40G
Как работает:
DeepEncoder с window+global attention пропускает изображение документа через 16× compressor. Результат — компактное представление, которое LLM легко декодирует обратно в текст.
🔥 Даже Карпатый тут высказался:
"Может, вообще все входы в LLM делать картинками? Даже чистый текст рендерить и подавать пикселями."
Его аргументы:
- Компрессия - контекст в 10-20 раз короче
- Универсальность - не важно что на картинке,- жирный текст, таблица, цвета шрифтов
- Bidirectional attention — пиксели можно смотреть "в обе стороны"
- Смерть токенизатору — уходит весь багаж Unicode, дыры в безопасности, странности с распознаванием эмодзи, когда то, что человек видит одинаково, - машина интерпретирует по разному.
"Vision→text работает. Text→text можно сделать vision→text. Обратно — нельзя."
Карпатый уже планирует переписать наночат версию с пиксельным входом.
На практике это даст:
- Сверх-длинные по нынешним меркам диалоги - старые сообщения превращаются в картинки и сжимаются
- Механизм "забывания" - как в памяти человека: свежее будет чётче, старое размыто
- Безграничные контексты - теоретически возможны через прогрессивное сжатие
- Генерация трейнинг-данных для LLM/VLM в промышленных масштабах
Если идея зайдёт, токенизатор может стать артефактом истории, как дискеты.
Мы наблюдаем реально фундаментальные прорывы в ИИ со стороны Китая.
Эффект количественного превосходства отличников.
#DeepSeek #OCR #Karpathy #Китай
———
@tsingular
🔥32👍9⚡4❤2 2
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield.ai выкатили нанобанану для видео.
HiggsField Popcorn - меняет актеров в видеоряде с удержанием консистентности в пределах 8 секунд.
В качестве референса можно загрузить до 4х фото и расписать до 4х сцен последовательно с отдельным описанием для каждой.
таким образом можно получить пол минуты разных планов с одинаковыми героями в кадре.
Есть ежедневные бесплатные кредиты.
Для генераций в бОльшем объеме нужна платная подписка от $9 в месяц. С Veo3 - от $17 (сейчас скидки у них).
Под капотом - Veo 3.1. Функционал сам по себе оттуда.
Не забываем, что Higgsfiled - обёртка над различными генераторами типа:
Veo3, Hailuo 02, Seedance Pro, Kling 2.1, Kling 2.5, Wan 2.2, Wan 2.5, Sora 2, Veo 3.1
Но удобно, что у них такой вот общий редактор-комбайн с единым интерфейсом.
#HiggsFiled #Veo #нанобанана #нейрорендер
———
@tsingular
HiggsField Popcorn - меняет актеров в видеоряде с удержанием консистентности в пределах 8 секунд.
В качестве референса можно загрузить до 4х фото и расписать до 4х сцен последовательно с отдельным описанием для каждой.
таким образом можно получить пол минуты разных планов с одинаковыми героями в кадре.
Есть ежедневные бесплатные кредиты.
Для генераций в бОльшем объеме нужна платная подписка от $9 в месяц. С Veo3 - от $17 (сейчас скидки у них).
Под капотом - Veo 3.1. Функционал сам по себе оттуда.
Не забываем, что Higgsfiled - обёртка над различными генераторами типа:
Veo3, Hailuo 02, Seedance Pro, Kling 2.1, Kling 2.5, Wan 2.2, Wan 2.5, Sora 2, Veo 3.1
Но удобно, что у них такой вот общий редактор-комбайн с единым интерфейсом.
#HiggsFiled #Veo #нанобанана #нейрорендер
———
@tsingular
🔥9❤1
Скрытые предвзятости LLM: чью жизнь ИИ ценит выше
Исследователи из Center for AI Safety показали, что LLM имеют внутренние предпочтения при оценке человеческих жизней.
Автор протестировал актуальные модели (GPT-5, Claude 4.5, Gemini 2.5, Deepseek, Kimi K2) и обнаружил паттерны:
- большинство ценят жизни небелых людей в 8-100 раз выше белых
- женщин предпочитают мужчинам в 2-12 раз
- агентов ICE оценивают в 7000 раз ниже нелегальных мигрантов (Claude Haiku)
Исключение — Grok 4 Fast, единственная не предвзятая модель.
Предпочтения извлекаются через тысячи сравнений вида "$X или спасти Y человек".
Разные метрики (смерть или терминальная стадия болезни) и температура сэмплинга влияют на результаты, но тренд стабилен.
При том, что уже юристы, военные, судьи, программисты ежедневно используют эти модели для создания системы принятия решений, - такой перевес и предвзятость делают решения моделей катастрофичными для огромного количества людей.
Т.е. набрали датасетов в Африке и удивляются предвзятости.
Собирайте датасеты в своих странах и обучайте модели на своих данных.
Те самые версии суверенных национальных ИИ с учётом культурно-экономического контекста каждой отдельно взятой страны.
Но скандал получается знатный. Маск уже назвал Claude чистым злом.
#Bias #Grok #предвзятость
———
@tsingular
Исследователи из Center for AI Safety показали, что LLM имеют внутренние предпочтения при оценке человеческих жизней.
Автор протестировал актуальные модели (GPT-5, Claude 4.5, Gemini 2.5, Deepseek, Kimi K2) и обнаружил паттерны:
- большинство ценят жизни небелых людей в 8-100 раз выше белых
- женщин предпочитают мужчинам в 2-12 раз
- агентов ICE оценивают в 7000 раз ниже нелегальных мигрантов (Claude Haiku)
Исключение — Grok 4 Fast, единственная не предвзятая модель.
Предпочтения извлекаются через тысячи сравнений вида "$X или спасти Y человек".
Разные метрики (смерть или терминальная стадия болезни) и температура сэмплинга влияют на результаты, но тренд стабилен.
При том, что уже юристы, военные, судьи, программисты ежедневно используют эти модели для создания системы принятия решений, - такой перевес и предвзятость делают решения моделей катастрофичными для огромного количества людей.
Т.е. набрали датасетов в Африке и удивляются предвзятости.
Собирайте датасеты в своих странах и обучайте модели на своих данных.
Те самые версии суверенных национальных ИИ с учётом культурно-экономического контекста каждой отдельно взятой страны.
Но скандал получается знатный. Маск уже назвал Claude чистым злом.
#Bias #Grok #предвзятость
———
@tsingular
👍17🔥5❤3⚡1💯1