Хауди Хо - IT юмор, жизнь программиста
82K subscribers
5.01K photos
263 videos
28 files
1.52K links
Интересные заметки, мысли вслух, годный юмор, эксперименты и многое другое из типичной "программистской" жизни 😏

Предложка — @hhsharebot
По рекламе (создатель): @priler

РКН: https://kurl.ru/ifVQB
Download Telegram
Еще одна достойная шутка для нашего ассистента 🌚
exe exe exe
Ютуб на что-то намекает или мне кажется? 🤔
Хауди: *просит подписчиков предлагать идеи по Джарвису*

Подписчики:

🌚🌚🌚
Многие предлагают реализовать синтез речи в Джарвисе, чтобы голос был как в фильме.

Но, я смотрю на это с технической точки зрения (простыми словами, думаю как реализовать в коде).
Синтез голоса для нас сейчас это большая проблема.
Нейросети для STT развиты на порядок лучше, чем для задач TTS.
Иными словами сегодня распознать речь сильно проще, чем её синтезировать.

Нормальных OpenSource TTS решений очень мало, я бы сказал их всего 2 штуки.
Это Coqui TTS и Silero TTS.

— У первой нет поддержки русского языка (нет русской модели, правда есть Украинская).
— Вторая это не чистый OpenSource, там грубо говоря выложены только модели. Всё остальное платное.

Оба решения не имеют SDK.
Но зато модели Coqui TTS можно перекинуть в ONNX (у Rust есть враппер для ONNX).
А вот с Silero не уверен, информации об этом нет (но это не означает, что нельзя).

Еще для синтеза есть такие штуки, как Larynx и тот же SAM, но будем честны - им далеко до синтеза человекоподобной речи.
Так что их я пока серьезно не рассматриваю.

Ну и подытоживая всё сказанное.
Попытаюсь ответить на вопрос: Можно ли синтезировать речь Джарвиса как в фильме?

Больше да, чем нет.
Для тренировки нейросети Coqui TTS на одной из существующих моделей (Glow, Vits, Tacotron 1/2) нужно как минимум 10-20 часов записи голоса в хорошем качестве (желательно 48000Hz).
Причем вместе с транскрипцией (текст).

Такие пироги 🥧

p.s. О и да, не будем забывать, что голос - это собственность владельца.
А значит синтез речи чьего-то голоса без разрешения его владельца - это прямое нарушение авторских прав.
This media is not supported in your browser
VIEW IN TELEGRAM
Откуда не ждали 🌚

Джарвис оказался сексистом, он отказывается слушать команды девушек.
Представительницам прекрасного пола приходится говорить грубо, имитируя мужской голос ... чтобы Джарвис отозвался.

Баг или фича? 🤔

p.s. Видео прислал подписчик.
Если вы не знали, вот так выглядит опытный Linux администратор 🌚
Микрофоны тоже люди 🌚
Ну и в чем он не прав? 🤔
Коротко обо мне, когда я разрабатываю Джарвиса 🌚
«ПризываНет» ПОДАРИТ договоры на полное сопровождение в получении военного билета на законных основаниях!

Регистрация на розыгрыш призов займет всего 30 секунд

Успей воспользоваться уникальной возможностью!

Ведь военкоматы уже активно рассылают повестки.

‼️ Врач и юрист во время трансляции бесплатно ответят на все твои вопросы о получении военного билета по здоровью

Также вы можете помочь своей второй половинке получить в подарок договор от «ПризываНет», отправив им данный пост!

Розыгрыш и консультация от наших специалистов пройдут в прямом эфире

🔔 Переходи по ссылке в бота, регистрируйся и хватай шанс на заключение договора оказания услуг бесплатно - @prizyvanet_freebilet9_bot
Тарантиновские диалоги в нашем чате 🌚
♥️ J.A.R.V.I.S. v0.0.2 опубликован!

Что исправлено/добавлено:
— Исправлены основные ошибки
— Теперь джарвис работает без API ключей (но с ключами тоже можно, по желанию)
— Добавлены новые команды, старые были модифицированы и исправлены
— Добавлена новая Wake-Word нейросеть (в будущем она будет адаптироваться под ваш личный голос)
— На звук наложены фильтры gain-normalizer и bass-pass, теперь джарвис должен слышать вас еще лучше
— Добавлена поддержка разрешения экрана 1280x720
— Теперь логи ошибок пишутся в файл log.txt
— Множество мелких фиксов и
улучшений в интерфейсе
— Для баг репортов/идей создан
отдельный бот

Примерный список команд (+новые):
— открой / закрой браузер
открой ютуб / открой переводчик
— открой калькулятор / закрой калькулятор
— перезагрузи себя
— ты глупый
— ты молодец
— расскажи шутку
— запусти/включи стим / игровой режим
— закрой/выключи стим / отключи игровой режим
— выключи/включи звук
— звук на минимум / громкость на середину / громкость на полную
— сверни все окна
— очисти корзину
— открой диспетчер задач
— сделай скриншот
— заблокируй компьютер
— перейти в спящий режим
— покажи буфер обмена
— смени раскладку / поменяй язык
— хватит слушать / отдыхай / на этом всё
— заверши работу / закройся / на сегодня хватит


⚜️[Скачать установщик v0.0.2]⚜️

* Не забудьте сделать бэкап своих команд, они могут затереться при переустановке.

🖥 Репозиторий с кодом — https://github.com/Priler/jarvis

Всем спасибо за участие в разработке и сообщения о найденных багах!
Вы лучшие
👏
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Половина пользователей: *пишут что ниче не работает*

Тем временем Джарвис на моем ПК: 🌚
Ничего, со временем мы и до пентагона доберёмся 😎
С такой крутой аудиторией, разработка будет жить и развиваться!
Я открыл Boosty и Patreon! 😎

Ваша поддержка даст мне возможность еще больше работать над нашими Open Source проектами (особенно над Джарвисом).

А еще вы будете получать крутые бонусы <3
Такие как — доступ в закрытый чат, — доступ к закрытым проектам, — последние новости о ходе разработки и конечно же, — ❤️ ваше имя будет показано в наших роликах!

⚡️ Поддержать меня на Boosty!
🔘 Поддержать меня на Patreon!

Лучшей аудитории, чем вы, просто не придумать ^_^
Спасибо за то, что вы есть!)

Всех обнял 🤗

UPD
: Ля вы чё реально подписываетесь 🤯
Мотивация пилить джарвиса и другие проекты +++ 📈
Please open Telegram to view this post
VIEW IN TELEGRAM
Тру сигма mode activated 😎

А сколько у вас экранное время?
Please open Telegram to view this post
VIEW IN TELEGRAM
Штош.
Вот мне и 27, полет нормальный 🙂

Рыбов хватает, это самое главное.
А так, у программистов нет дней рождения, есть только новая итерация (years++).

Так что, с новой итерацией меня
🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Уже начинаю искать работу уборщика улиц 🌚