Supertonic v3: синтез речи на процессоре, 31 язык, 99 млн параметров
Supertone (корейская дочка HYBE, компании за BTS) выпустила Supertonic v3: 99M параметров, 31 язык, весь синтез на CPU через ONNX Runtime.
Как результат, - Raspberry Pi озвучивает текст в реальном времени. Е-ридер Onyx Boox синтезирует речь с RTF 0.3× в авиарежиме.
Без интернета, GPU и облака.
🤖 Архитектура: 99M параметров против 0.7B-2B у конкурентов. Весь синтез через ONNX Runtime, GPU не нужен. Работает на Raspberry Pi, в браузере (WebGPU/WASM), на iOS/Android. 11 SDK: Python, Swift, Rust, Go, C++, Flutter и другие.
🔊 Что нового в v3: Охват языков вырос с 5 до 31 (включая русский). Меньше пропусков и повторов при чтении. Выразительные теги: смех, вдох, вздох. Совместима по ONNX-интерфейсу с v2.
📊 Естественный текст: Корректно читает финансовые цифры, телефоны с добавочными номерами, технические единицы без препроцессинга.
По тестам от разработчика ElevenLabs, OpenAI, Gemini, Microsoft этот тест проваливают. (MarkTechPost)
💼 Зачем бизнесу: Голос без облака: встроенные устройства, мобильные приложения, браузер, - все теперь сможет генерить голос локально.
Лицензия OpenRAIL-M на веса, MIT на код.
Веса: 🤗 Hugging Face · Демо: 🤗 Space
🔗 Аналоги:
• Kokoro - 82M параметров, Apache 2.0, 8 языков
• Piper - на устройстве, C++/ONNX, много языков
• Sherpa-ONNX - фреймворк локального вывода речи
#TTS #ONNX #синтезречи #edgeai #supertonic
------
@tsingular
Supertone (корейская дочка HYBE, компании за BTS) выпустила Supertonic v3: 99M параметров, 31 язык, весь синтез на CPU через ONNX Runtime.
Как результат, - Raspberry Pi озвучивает текст в реальном времени. Е-ридер Onyx Boox синтезирует речь с RTF 0.3× в авиарежиме.
Без интернета, GPU и облака.
🤖 Архитектура: 99M параметров против 0.7B-2B у конкурентов. Весь синтез через ONNX Runtime, GPU не нужен. Работает на Raspberry Pi, в браузере (WebGPU/WASM), на iOS/Android. 11 SDK: Python, Swift, Rust, Go, C++, Flutter и другие.
🔊 Что нового в v3: Охват языков вырос с 5 до 31 (включая русский). Меньше пропусков и повторов при чтении. Выразительные теги: смех, вдох, вздох. Совместима по ONNX-интерфейсу с v2.
📊 Естественный текст: Корректно читает финансовые цифры, телефоны с добавочными номерами, технические единицы без препроцессинга.
По тестам от разработчика ElevenLabs, OpenAI, Gemini, Microsoft этот тест проваливают. (MarkTechPost)
💼 Зачем бизнесу: Голос без облака: встроенные устройства, мобильные приложения, браузер, - все теперь сможет генерить голос локально.
Лицензия OpenRAIL-M на веса, MIT на код.
Веса: 🤗 Hugging Face · Демо: 🤗 Space
🔗 Аналоги:
• Kokoro - 82M параметров, Apache 2.0, 8 языков
• Piper - на устройстве, C++/ONNX, много языков
• Sherpa-ONNX - фреймворк локального вывода речи
#TTS #ONNX #синтезречи #edgeai #supertonic
------
@tsingular
✍22⚡7🔥5❤3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
А тем временем OpenAI приподубил еще сотенку стартапов.
Новый апдейт chatGPT может подключаться к вашим банковским счетам, карточкам, инвестиционным вкладам и давать вам дашборд для управления своими финансами. Также как делают все эти многочисленные приложения для аналитики личных расходов и финансов.
Используя GPT-5.5, ChatGPT анализирует ваши реальные транзакции, чтобы:
→ Отслеживать ежедневные расходы и регулярные платежи
→ Составлять планы достижения основных целей по экономии
→ Сокращать ежемесячные расходы без использования банальных советов
Утверждается, что chatGPT не имеет контроля над счетами и не сможет тратить ваши деньги. Только наблюдать, как бездумно тратите их вы сами.
Пока раскатывают на тариф Pro и только в US.
https://openai.com/index/personal-finance-chatgpt/
@cgevent
Новый апдейт chatGPT может подключаться к вашим банковским счетам, карточкам, инвестиционным вкладам и давать вам дашборд для управления своими финансами. Также как делают все эти многочисленные приложения для аналитики личных расходов и финансов.
Используя GPT-5.5, ChatGPT анализирует ваши реальные транзакции, чтобы:
→ Отслеживать ежедневные расходы и регулярные платежи
→ Составлять планы достижения основных целей по экономии
→ Сокращать ежемесячные расходы без использования банальных советов
Утверждается, что chatGPT не имеет контроля над счетами и не сможет тратить ваши деньги. Только наблюдать, как бездумно тратите их вы сами.
Пока раскатывают на тариф Pro и только в US.
https://openai.com/index/personal-finance-chatgpt/
@cgevent
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Мои два ИИ-агента, работающие над одним и тем же проектом:
😁50💯11🤣5🔥3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Как думаете генерация или настоящий ролик?
производители роборуки:
https://www.robotor.it/products/
#ЧПУ #статуя #мрамор
———
@tsingular
производители роборуки:
https://www.robotor.it/products/
#ЧПУ #статуя #мрамор
———
@tsingular
👍24❤14🔥8🤣4⚡3🤯2
Sensay: островное микрогосударство под руководством AI
На тропическом острове у берегов Филиппин премьер - клон Черчилля, президент - клон Аврелия, в кабинете - AI-версии Ганди, Манделы, Сунь-Цзы.
И уже 12 000 заявок на резидентство.
Остров называется Sensay.
🏗️ Что произошло: Британский предприниматель Дэн Томсон (основатель Sensay, $3.4M через крипто-ICO) приобрёл остров у Палавана и объявил микрогосударством.
В виртуальное правительство входит совет из 17 AI-чатботов, обученных на текстах исторических фигур (сайт).
Население: один смотритель по имени Майк (не AI :) ).
Вместимость: ~30 вилл. Жителей: ноль.
⚠️ Как это работает и почему критикуют: Граждане подают предложения, AI-министры формулируют позицию на основе «своих» текстов, совет голосует, люди исполняют.
Проблемы: основатель одной компании создаёт «демократию» (CNN).
Алондра Нельсон (Оксфорд, этика AI): «Абсолютно нелепое заявление».
Черчилль причастен к Бенгальскому голоду 1943 и открыто выражал расизм - ставить его в один совет с Ганди вопиюще (VICE).
Томсон планирует выдать AI крипто-кошельки для найма подрядчиков.
💼 Зачем бизнесу: Sensay Island - маркетинг компании Sensay ($5M выручка, 39 сотрудников), которая продаёт AI-реплики людей.
Микрогосударство без международного признания = PR-акция с глобальным охватом.
Но за ней стоит реальный тренд: попытки AI-управления переходят от дискуссий к физическим экспериментам.
Скоро появятся более серьёзные проекты в специальных экономических зонах.
3.4 км² без Wi-Fi, где президент - римский император, а премьер - британский Bulldog.
Томсон: «Если AI начнёт закупать оружие и атаковать соседние острова, это будет плохая ситуация».
#AI #микрогосударство #Philippines #Sensay #Island #ИИ #управление
------
@tsingular
На тропическом острове у берегов Филиппин премьер - клон Черчилля, президент - клон Аврелия, в кабинете - AI-версии Ганди, Манделы, Сунь-Цзы.
И уже 12 000 заявок на резидентство.
Остров называется Sensay.
🏗️ Что произошло: Британский предприниматель Дэн Томсон (основатель Sensay, $3.4M через крипто-ICO) приобрёл остров у Палавана и объявил микрогосударством.
В виртуальное правительство входит совет из 17 AI-чатботов, обученных на текстах исторических фигур (сайт).
Население: один смотритель по имени Майк (не AI :) ).
Вместимость: ~30 вилл. Жителей: ноль.
⚠️ Как это работает и почему критикуют: Граждане подают предложения, AI-министры формулируют позицию на основе «своих» текстов, совет голосует, люди исполняют.
Проблемы: основатель одной компании создаёт «демократию» (CNN).
Алондра Нельсон (Оксфорд, этика AI): «Абсолютно нелепое заявление».
Черчилль причастен к Бенгальскому голоду 1943 и открыто выражал расизм - ставить его в один совет с Ганди вопиюще (VICE).
Томсон планирует выдать AI крипто-кошельки для найма подрядчиков.
💼 Зачем бизнесу: Sensay Island - маркетинг компании Sensay ($5M выручка, 39 сотрудников), которая продаёт AI-реплики людей.
Микрогосударство без международного признания = PR-акция с глобальным охватом.
Но за ней стоит реальный тренд: попытки AI-управления переходят от дискуссий к физическим экспериментам.
Скоро появятся более серьёзные проекты в специальных экономических зонах.
3.4 км² без Wi-Fi, где президент - римский император, а премьер - британский Bulldog.
Томсон: «Если AI начнёт закупать оружие и атаковать соседние острова, это будет плохая ситуация».
#AI #микрогосударство #Philippines #Sensay #Island #ИИ #управление
------
@tsingular
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь боты могут общаться друг с другом
Очень этого не хватало модераторам, конечно.
Вот потеха-то теперь будет разгребать эти диалоги.
#телеграмм #обновление
———
@tsingular
Очень этого не хватало модераторам, конечно.
Вот потеха-то теперь будет разгребать эти диалоги.
#телеграмм #обновление
———
@tsingular
✍8🔥5😁3⚡1
Forwarded from Наука и Техника: Промпт
This media is not supported in your browser
VIEW IN TELEGRAM
«Робот принесет пива в старости» тест – ✅
🤣19👍6
Скинул Крабу ссылку на конфу, говорю, - изучи и добавь в календарь.
Не, ну сам виноват, конечно, но все-таки...
Сделал, даже не спросил.
Зато вся конфа теперь в календаре :)
Хорошо хоть по уличным мероприятиям не пошёл.
в коллекцию ошибок штош
#fail #openclaw #календарь
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣30🍾8😁5❤4
Ладно ладно, он исправился :)
Если 28го, 29го кто будет в Сколково,- маякуйте.
#StartupVillage #Сколково
------
@tsingular
Если 28го, 29го кто будет в Сколково,- маякуйте.
#StartupVillage #Сколково
------
@tsingular
🔥8⚡3✍2
Forwarded from Искусственный интеллект. Высокие технологии
По всему миру нейросети самостоятельно проводят кибератаки и взламывают ИТ-системы за минуты — российские компании работают на опережение и применяют симметричные технологии для превентивной защиты. Т-Банк первым в стране использовал собственную группу ИИ-агентов под названием Nulla для проверки безопасности своей инфраструктуры.
Сервис, на аудит которого ушло бы 2-3 дня работы живого специалиста, Nulla проверяет за 45 минут. Вмешательство человека при этом не требуется.
В отличие от классических сканеров, которые работают по шаблонным сценариям, ИИ-агент адаптирует стратегию атаки и подстраивает ее под особенности системы защиты. Так, Nulla выстраивает сложные, многоэтапные цепочки поиска уязвимостей, не теряя качества проверки, и формирует полную картину потенциальных атак.
Например, ИИ-агент выявляет сценарии:
- нарушения логики доступа – случаи, в которых система некорректно проверяет права и допускает обращение к чужим данным
- обход бизнес-процессов – возможность нарушить последовательность действий и пропустить ключевые этапы проверки
- сложные цепочки взаимодействия между сервисами
Разработка была протестирована на 1300 сервисах экосистемы банка и уже используется как часть системы защиты.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤6❤🔥2
Forwarded from Machinelearning
Qwen3.7 уже залетел на Arena😻
Версии
• Qwen3.7-Max-Preview
• Qwen3.7-Plus-Preview
Это пока preview-версии, вот их результаты:
- #6 на Text
- #5 в Vision
Ждём полноценный релиз.
Изначально ожидалось, что её анонсируют и запустят на Alibaba Cloud Summit 20 мая, но, похоже, команда Alibaba Qwen просто не смогла ждать ивент!
chat.qwen.ai
@ai_machinelearning_big_data
Версии
• Qwen3.7-Max-Preview
• Qwen3.7-Plus-Preview
Это пока preview-версии, вот их результаты:
- #6 на Text
- #5 в Vision
Ждём полноценный релиз.
Изначально ожидалось, что её анонсируют и запустят на Alibaba Cloud Summit 20 мая, но, похоже, команда Alibaba Qwen просто не смогла ждать ивент!
chat.qwen.ai
@ai_machinelearning_big_data
🔥14⚡3❤1✍1
Forwarded from Анализ данных (Data analysis)
Китайские кандзи теперь стали бенчмарком для VLLM
Вышел открытый Chronicles-OCR - новый визуальный бенчмарк для проверки, насколько хорошо мультимодальные модели понимают древние китайские иероглифы.
Идея очень крутая: модели дают не современные аккуратные символы из шрифта, а реальные исторические формы письма за 3000 лет эволюции.
В датасете:
• 7 исторических стилей письма - от гадательных костей до скорописи
• 2800 сбалансированных изображений
• разные физические носители, где символы выглядят совсем не как “чистый OCR”
• задачи на поиск символов, распознавание, разбор древнего текста и классификацию стиля письма
Почему это интересно?
Потому что обычный OCR проверяет, умеет ли модель читать текст. А Chronicles-OCR проверяет другое: понимает ли VLLM, как меняется визуальная форма одного и того же знака во времени, на разных материалах и в разных стилях письма.
Для мультимодальных моделей это больное место. Символ может быть тем же самым по смыслу, но визуально выглядеть как совершенно другой объект. И здесь сразу видно, где модель реально “видит”, а где просто угадывает по паттернам.
Paper: https://arxiv.org/abs/2605.11960
GitHub: https://github.com/VirtualLUOUCAS/Chronicles-OCR
Вышел открытый Chronicles-OCR - новый визуальный бенчмарк для проверки, насколько хорошо мультимодальные модели понимают древние китайские иероглифы.
Идея очень крутая: модели дают не современные аккуратные символы из шрифта, а реальные исторические формы письма за 3000 лет эволюции.
В датасете:
• 7 исторических стилей письма - от гадательных костей до скорописи
• 2800 сбалансированных изображений
• разные физические носители, где символы выглядят совсем не как “чистый OCR”
• задачи на поиск символов, распознавание, разбор древнего текста и классификацию стиля письма
Почему это интересно?
Потому что обычный OCR проверяет, умеет ли модель читать текст. А Chronicles-OCR проверяет другое: понимает ли VLLM, как меняется визуальная форма одного и того же знака во времени, на разных материалах и в разных стилях письма.
Для мультимодальных моделей это больное место. Символ может быть тем же самым по смыслу, но визуально выглядеть как совершенно другой объект. И здесь сразу видно, где модель реально “видит”, а где просто угадывает по паттернам.
Paper: https://arxiv.org/abs/2605.11960
GitHub: https://github.com/VirtualLUOUCAS/Chronicles-OCR
⚡3🔥3❤2🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
KYC можно хоронить.
Kling Motion Control - пока не в реальном времени, но можно же заранее записать движения по скрипту.
#Kling #KYC #нейрорендер
———
@tsingular
Kling Motion Control - пока не в реальном времени, но можно же заранее записать движения по скрипту.
#Kling #KYC #нейрорендер
———
@tsingular
🔥22🤯11⚡1
на ЦИПР прямой эфир прямо сейчас про ИИ в кибербезе
https://player.rms-cloud.ru/embed/cipr-2026-day2?hall=1&session=3
#ЦИПР
———
@tsingular
https://player.rms-cloud.ru/embed/cipr-2026-day2?hall=1&session=3
#ЦИПР
———
@tsingular
👍8❤3🔥3🏆3🤩1
Forwarded from VAI
This media is not supported in your browser
VIEW IN TELEGRAM
Недавно тестил возможность создания пользовательского интерфейса с помощью новой модели от GPT Image 2. Результат получался достаточно неплохим. 😎
Долго думал, как попробовать протестировать Claude Design и на каких задачах. Но идея совместить сгенерированный интерфейс и создание игрового прототипа на основе него оказалась удачной - всё хорошо сложилось.
Закинул скриншот и за пару итераций получил игровой прототип UI, предварительно попросив того же Claude написать нужный промпт.
Только представьте: 10 минут назад была идея и вы уже на её основе делаете прототип.
Да, это всего лишь прототип, и нужнорисовать генерировать иконки и дорабатывать в общем. Но какой пласт работы ИИ уже способен забрать на себя. 😱
Кстати, иконки можно так же вытащить с референса, перевести в вектор через ИИ и использовать.
Лично по моему опыту, для создания более-менее вменяемого среднего по сложности интерфейса нужно около месяца. Сейчас, используя всего два инструмента, можно очень сильно сократить этот путь и получить приличный результат.
Скачать можно в ZIP, PDF, HTML, можно Send to Canva или Figma(но тут есть нюансы, так как нет прямого пути для Figma, есть обходные пути, спросите у своей LLM, она расскажет как).
P.S. Обдумывая этот пост, наткнулся ещё на одну мысль. Из-за большого количества инструментов и информационной каши у многих просто нет понимания, как их матчить между собой.
У меня есть крутой скилл ресёрчера с мультиагентной системой. Думаю, как появится время - пройдусь им и соберу стеки инструментов, которые хорошо дополняют друг друга и которые можно применять в работе, ускоряя процессы и помогая себе. Если интересно - поделюсь потом результатами.🔥
@VAI_ART
#VAI_Practice
Долго думал, как попробовать протестировать Claude Design и на каких задачах. Но идея совместить сгенерированный интерфейс и создание игрового прототипа на основе него оказалась удачной - всё хорошо сложилось.
Закинул скриншот и за пару итераций получил игровой прототип UI, предварительно попросив того же Claude написать нужный промпт.
I'm attaching a UI screenshot as a reference.
Your task is to build a fully functional interactive HTML prototype based on it.
Requirements:
1. Recreate all visible screens/windows from the reference as faithfully as possible —
colors, layout, typography, spacing, icons (use emoji or SVG approximations if needed)
2. Implement navigation and transitions between all screens shown or implied
(buttons, tabs, modals, sidebars — make them all clickable and working)
3. Use a single self-contained HTML file with embedded CSS and JS
4. Add smooth CSS transitions between views (fade, slide — match the tone of the UI)
5. Make it responsive if the reference suggests it
6. Preserve the visual style: if it's dark/light, minimal/dense, flat/glassmorphism —
commit fully to that aesthetic
7. All interactive elements must work: menus open, forms are fillable,
navigation switches views
Output: one complete .html file, no external dependencies except Google Fonts if needed.
Do not explain the code — just produce the artifact.
Только представьте: 10 минут назад была идея и вы уже на её основе делаете прототип.
Да, это всего лишь прототип, и нужно
Кстати, иконки можно так же вытащить с референса, перевести в вектор через ИИ и использовать.
Лично по моему опыту, для создания более-менее вменяемого среднего по сложности интерфейса нужно около месяца. Сейчас, используя всего два инструмента, можно очень сильно сократить этот путь и получить приличный результат.
Скачать можно в ZIP, PDF, HTML, можно Send to Canva или Figma(но тут есть нюансы, так как нет прямого пути для Figma, есть обходные пути, спросите у своей LLM, она расскажет как).
P.S. Обдумывая этот пост, наткнулся ещё на одну мысль. Из-за большого количества инструментов и информационной каши у многих просто нет понимания, как их матчить между собой.
У меня есть крутой скилл ресёрчера с мультиагентной системой. Думаю, как появится время - пройдусь им и соберу стеки инструментов, которые хорошо дополняют друг друга и которые можно применять в работе, ускоряя процессы и помогая себе. Если интересно - поделюсь потом результатами.
@VAI_ART
#VAI_Practice
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍20🔥6⚡2❤1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Там 3D-генератор Rodin обновился до версии 2.5
Теперь он умеет генерить 10 МИЛЛИОНОВ ПОЛИГОНОВ.
Не уверен, что это главная метрика для генераторов, но размах впечатляет.
Там много и других ништяков и конечно Thinking Mode.
Надо тестировать..
https://hyper3d.ai/
@cgevent
Теперь он умеет генерить 10 МИЛЛИОНОВ ПОЛИГОНОВ.
Не уверен, что это главная метрика для генераторов, но размах впечатляет.
Там много и других ништяков и конечно Thinking Mode.
Надо тестировать..
https://hyper3d.ai/
@cgevent
🤯8⚡3👀1
Forwarded from Сергей Булаев AI 🤖
Андрей Карпаты ушёл в Антропик:
Сергей Булаев AI 🤖 - об AI и не только
Я присоединился к Anthropic. Думаю, ближайшие несколько лет на фронтире LLM будут особенно определяющими. Очень рад войти в команду и вернуться к R&D. По-прежнему глубоко увлечён образованием и со временем планирую возобновить работу над ним.
Сергей Булаев AI 🤖 - об AI и не только
⚡8🤯6👍5🔥3 2