Voice stuff – Telegram

Voice stuff

1.65K subscribers

425 photos

50 videos

3 files

577 links

Канал про голосовые технологии.

Чат группы @voice_stuff_chat

Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом.
Контакт: @frappuccino_o

Download Telegram

About

Blog

Apps

Platform

1.65K subscribers

Forwarded from CGIT_Vines (Marvin Heemeyer)

This media is not supported in your browser

VIEW IN TELEGRAM

Куда катиться мир, мем "как нарисовать сову" потерял свою идею, а следующие поколения навсегда утреяют его смысл.

Инструменты завязанные на мой любимый Artbreeder + StableDiffusion позволяют вам рисовать сову с навыками инфузории.

Вариант того так будут выглядеть инструменты в ближайшем будущем.

😁1

198 views08:01

Forwarded from Сергей Марков: машинное обучение, искусство и шитпостинг

А вас забавляет тот факт, что вы живёте ровно в тот момент истории, когда люди вплотную приблизились к созданию систем, превосходящих по сложности их самих?

170 views18:52

Forwarded from Мишин Лернинг

❗️OpenAI начало обучать GPT-4. Обучение будет закончено через пару месяцев

Сказать больше не могу, чтобы не подставлять.. Но что стоит знать:

— Огромное количество параметров
— MoE парадигма, PaLM-like
— Стоимость обучения ~ $.e6
— Text, audio-vqvae, image-vqvae (возможно и видео) токены в одном потоке
— SOTA в огромном количестве задач! Особенно значимые результаты в мультимодальном домене.
— Релизное окно: Декабрь-Февраль

p.s.: откуда инфа? ..оттуда. доверяю ли я ей сам. ну в чём-то да, в чём-то нет. мое дело рассказать, ваше — отказаться

@мишин лернинг

138 views17:45

Если есть кто-то, кто пользуется Rasa или DialogFlow, можете выбрасывать их. Новые модели как sentence BERT уже справляются с классификацией интентов по 1 образцу. Для Rasa требовался целый датасет, по 20 образцов вопроса на каждый интент, и не дай бог там будут коллизии.

Раньше:
- Где припаркована моя машина?
- где я припарковался?
- Где я машину поставил?
- локация моей машины
- покажи на карте мою машину
- где стоит моя машина?
- Локация машины

Сейчас:
- Где припаркована моя машина?

Качество одинаковое. Офигеть.

Rasa - это такой движок для разговоров. В него пишутся примеры вопросов и указываются ответы на них и скрипты, которые нужно сделать до ответа. Например, отображение той же геолокации машины. Good night, sweet prince.

165 views17:51

История успеха по-Армянски.

Приехали 3 парня в Армению, и даже не в столицу, а в Дилижан. Сняли там коттедж красивый и уже полгода пилят свой стартап. Судя по всему, даже получается.

Разумеется, стоимость жизни в Дилижане очень низкая, а отсутствие в нём жизни, заставляет фокусироваться на работе. Интернет хороший. Из развлечений - хайк по горам и соседний очень эстетичный ресторан.

Один из них экстраверт и жалуется что без людей тяжело, но двое других чувствуют себя замечательно.

Я иногда тоже думаю что если жизнь меня припрёт к стенке, я осяду где-то в глубинке Турции с видом на море и буду пилить свой стартап.

😁5👍1🔥1

186 views08:45

Forwarded from Neural Shit

Media is too big

VIEW IN TELEGRAM

ЭТО МАКСИМАЛЬНО ОХУЕННО!!!

Чувак пилит AR шутер, в который можно играть в своём доме.

Если есть окулус, то демку можно потестить уже сейчас в сайдквесте.

Разраб обещает в ближайшем обновлении напилить еще больше интересных фич.

Канал автора на ютубе

183 views13:33

Apple watch умеют определять начались ли месячные у владельца! При том, что носить на трусах их необязательно для этого)

😁1

180 views17:25

Ура, из айфонов убрали сим-карты!

P.S. Оставили только eSIM

188 viewsedited 17:59

В 14 айфоне появилась спутниковая связь 🙄
Но пока только для ЧС. И нужно показывать на спутник телефоном чтобы словило. Зато теперь find my работает даже без сети)

187 views18:10

Обратил внимание что Яндекс карты не рисуют государственных границ, ну или рисуют их очень незаметно.

Границы они в голове 🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

🤮1

201 views20:23

Forwarded from Kali Novskaya (Tatiana Shavrina)

День программиста? А может лучше
Pytorch мигрирует в Linux Foundation!

TLDR: Самый популярный и важный фреймворк для AI (смотрите сами в paperswithcode) мигрирует из Meta в нейтральную гавань, которая обеспечит долгосрочное и открытое развитие фреймворка.

Поздравляю всех! 🥂🎊🎉

Манифест Linux Foundation:
https://linuxfoundation.org/zh/blog/welcoming-pytorch-to-the-linux-foundation/

🔥3

200 views08:45

В этом году Coqui-AI выпустила такую нейронку для клонирования голоса, что она из коробки звучит и клонирует лучше, чем некоторые коммерческие решения. При том что обучена она всего лишь на датасете в 40 часов на где-то 100 спикеров. Ну ладно, там ещё два языка по 15 спикеров, что на самом деле вообще не облегчает задачу.

Так вот, YourTTS говорит на 3 языках, клонирует любой голос по 10-секундной записи и звучит лучше чем многие опенсорсные системы, обучающиеся на нескольких часах такого голоса.

https://edresson.github.io/YourTTS/

🔥3

224 views16:53

Вообще забавно что сейчас разница между коммерческим и бесплатным решением для синтеза речи скорее не в качестве звучания, а в том как хорошо работает нормализация текста перед подачей её в синтез. Это как если бы разница между бесплатной и платной машиной была в наличии коробки передач. И вы вместо бесплатной феррари покупаете жигули за деньги потому что на ней вы можете хоть куда-то уехать, а на бесплатной феррари, у которой только вторая передача, можно только по двору флексить.

234 views08:54

Сегодня третий день Interspeech 2022 - самой большой и крутой конференции по голосовым технологиям в мире. На этот раз она проходит в Южной Корее. Обычно на этих конференциях происходят крутые прорывы, так как публикуются важные статьи. В этот раз я заметил много материалов, связанных с TTS, и длинный туториал от Microsoft.

https://www.interspeech2022.org/
Расписание: https://www.interspeech2022.org/files/01.%20Session%20Making%20_%20Program%20at%20a%20Glance%20_%200916.pdf

🔥3

251 views18:55

https://twitter.com/fchollet/status/1573752180720312320

😁1

1.46K views09:40

Кто знает почему так?

Оказывается, все числа до 0 до 255 в python захешированы, как частоиспользуемые. И вместо того чтобы каждый раз размещать для них память отдельно, python хранит ссылки на них.

205 viewsedited 11:18

Forwarded from DL in NLP (Vlad Lialin)

BigScience announces BigCode project

1. 15B языковая модель для кода
1. Первая задача: сделать хороший большой датасет, причём с оглядкой на лицензии чтобы не было всяких вопросов о GPLv3
1. Вторая задача: разработка новых тулз для эвалюации кодогенерирующих моделей, чтобы они были проще и более доступны
1. Третья задача: исследование всех возможных трюков (включая архитектурные) чтобы сделать инферренс быстрым
1. Деньги на тренировку даёт ServiceNow
1. Если хотите присоединиться к коллаборации, а именно готовы писать код и участвовать в обсуждениях, вот ссылочка

👍1

208 views08:29

Сейчас обучал синтез речи и у меня вот такой вот артефакт получился. Тут два разных лосса работало. Один по самому аудио, второй по его биометрии. Только embedding биометрии я, конечно же, перепутал, и получил два голоса плавно вмешанные в один.

211 views15:21

Forwarded from эйай ньюз

Диффузия оптимизирует нейронки

А вот тут вышла статья, где с помощью диффузионной модели заменяют традиционные оптимизаторы типа SGD или ADAM.

На вход поступают текущие веса оптимизируемой нейронки, текущий лосс, желаемый лосс, и параметр шага диффузии. А диффузионная модель предсказывает новые веса нейросети. Ускорение по сравнению с традиционной оптимизацией в ≈1000 раз.

@ai_newz

Learning to Learn with Generative Models of Neural Network Checkpoints
Peebles, Radosavovic, et al. [Berkeley]
Статья: arxiv.org/abs/2209.12892
Код: github.com/wpeebles/G.pt
Блог: тык

Помните про парадигму learning to learn и всякие оптимитзаторы на основе…

170 views11:21

Forwarded from Я плачу на технологиях

https://youtu.be/FdC0hmUYJoE

[Walkthrough] Samplebrain, Aphex Twin's New Sound Design Tool

Download link and usage manual: https://gitlab.com/then-try-this/samplebrain

For more experiments, tutorials and project files: https://linktr.ee/uisato

_
00:00 - Introduction
00:19 - Brief explanation
01:00 - Example 1
02:06 - Example 2

#aphextwin #sounddesign…

228 views07:45

Voice stuff pinned «Кратко о себе - я работал над голосовой биометрией в ID R&D и участвовал в создании голосового ассистента в Сбере. Голос стал сферой моих компетенций, хотя начинал я с чатботов в Озоне и Cisco.»

19:18