Voice stuff

Apple watch умеют определять начались ли месячные у владельца! При том, что носить на трусах их необязательно для этого)

😁1

180 views17:25

Voice stuff

Ура, из айфонов убрали сим-карты!

P.S. Оставили только eSIM

188 viewsedited 17:59

Voice stuff

В 14 айфоне появилась спутниковая связь 🙄
Но пока только для ЧС. И нужно показывать на спутник телефоном чтобы словило. Зато теперь find my работает даже без сети)

187 views18:10

Voice stuff

Обратил внимание что Яндекс карты не рисуют государственных границ, ну или рисуют их очень незаметно.

Границы они в голове 🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

🤮1

201 views20:23

Voice stuff

Forwarded from Kali Novskaya (Tatiana Shavrina)

День программиста? А может лучше
Pytorch мигрирует в Linux Foundation!

TLDR: Самый популярный и важный фреймворк для AI (смотрите сами в paperswithcode) мигрирует из Meta в нейтральную гавань, которая обеспечит долгосрочное и открытое развитие фреймворка.

Поздравляю всех! 🥂🎊🎉

Манифест Linux Foundation:
https://linuxfoundation.org/zh/blog/welcoming-pytorch-to-the-linux-foundation/

🔥3

200 views08:45

Voice stuff

В этом году Coqui-AI выпустила такую нейронку для клонирования голоса, что она из коробки звучит и клонирует лучше, чем некоторые коммерческие решения. При том что обучена она всего лишь на датасете в 40 часов на где-то 100 спикеров. Ну ладно, там ещё два языка по 15 спикеров, что на самом деле вообще не облегчает задачу.

Так вот, YourTTS говорит на 3 языках, клонирует любой голос по 10-секундной записи и звучит лучше чем многие опенсорсные системы, обучающиеся на нескольких часах такого голоса.

https://edresson.github.io/YourTTS/

🔥3

224 views16:53

Voice stuff

Вообще забавно что сейчас разница между коммерческим и бесплатным решением для синтеза речи скорее не в качестве звучания, а в том как хорошо работает нормализация текста перед подачей её в синтез. Это как если бы разница между бесплатной и платной машиной была в наличии коробки передач. И вы вместо бесплатной феррари покупаете жигули за деньги потому что на ней вы можете хоть куда-то уехать, а на бесплатной феррари, у которой только вторая передача, можно только по двору флексить.

234 views08:54

Voice stuff

Сегодня третий день Interspeech 2022 - самой большой и крутой конференции по голосовым технологиям в мире. На этот раз она проходит в Южной Корее. Обычно на этих конференциях происходят крутые прорывы, так как публикуются важные статьи. В этот раз я заметил много материалов, связанных с TTS, и длинный туториал от Microsoft.

https://www.interspeech2022.org/
Расписание: https://www.interspeech2022.org/files/01.%20Session%20Making%20_%20Program%20at%20a%20Glance%20_%200916.pdf

🔥3

251 views18:55

Voice stuff

https://twitter.com/fchollet/status/1573752180720312320

😁1

1.46K views09:40

Voice stuff

Кто знает почему так?

Оказывается, все числа до 0 до 255 в python захешированы, как частоиспользуемые. И вместо того чтобы каждый раз размещать для них память отдельно, python хранит ссылки на них.

205 viewsedited 11:18

Voice stuff

Forwarded from DL in NLP (Vlad Lialin)

BigScience announces BigCode project

1. 15B языковая модель для кода
1. Первая задача: сделать хороший большой датасет, причём с оглядкой на лицензии чтобы не было всяких вопросов о GPLv3
1. Вторая задача: разработка новых тулз для эвалюации кодогенерирующих моделей, чтобы они были проще и более доступны
1. Третья задача: исследование всех возможных трюков (включая архитектурные) чтобы сделать инферренс быстрым
1. Деньги на тренировку даёт ServiceNow
1. Если хотите присоединиться к коллаборации, а именно готовы писать код и участвовать в обсуждениях, вот ссылочка

👍1

208 views08:29

Voice stuff

Audio

Сейчас обучал синтез речи и у меня вот такой вот артефакт получился. Тут два разных лосса работало. Один по самому аудио, второй по его биометрии. Только embedding биометрии я, конечно же, перепутал, и получил два голоса плавно вмешанные в один.

211 views15:21

Voice stuff

Forwarded from эйай ньюз

Диффузия оптимизирует нейронки

А вот тут вышла статья, где с помощью диффузионной модели заменяют традиционные оптимизаторы типа SGD или ADAM.

На вход поступают текущие веса оптимизируемой нейронки, текущий лосс, желаемый лосс, и параметр шага диффузии. А диффузионная модель предсказывает новые веса нейросети. Ускорение по сравнению с традиционной оптимизацией в ≈1000 раз.

@ai_newz

DL in NLP

Learning to Learn with Generative Models of Neural Network Checkpoints
Peebles, Radosavovic, et al. [Berkeley]
Статья: arxiv.org/abs/2209.12892
Код: github.com/wpeebles/G.pt
Блог: тык

Помните про парадигму learning to learn и всякие оптимитзаторы на основе…

170 views11:21

Voice stuff

Forwarded from Я плачу на технологиях

https://youtu.be/FdC0hmUYJoE

YouTube

[Walkthrough] Samplebrain, Aphex Twin's New Sound Design Tool

Download link and usage manual: https://gitlab.com/then-try-this/samplebrain

For more experiments, tutorials and project files: https://linktr.ee/uisato

_
00:00 - Introduction
00:19 - Brief explanation
01:00 - Example 1
02:06 - Example 2

#aphextwin #sounddesign…

228 views07:45

Voice stuff

Voice stuff pinned «Кратко о себе - я работал над голосовой биометрией в ID R&D и участвовал в создании голосового ассистента в Сбере. Голос стал сферой моих компетенций, хотя начинал я с чатботов в Озоне и Cisco.»

19:18

Voice stuff

Forwarded from ∏ρØƒuñçτØρ Øπτµç∑ | 👁‍🗨››››

😁4

183 views11:25

Voice stuff

Облачность
Последние пару лет ничего не запускаю на ноуте. Даже простые скрипты и юпитер. Даже посчитать количество слов в списке, я иду на свой сервак и считаю там. Даже если мне нужен калькулятор.

Таким образом у меня на ноуте есть только VSCode, консоль и браузер. Из-за чего можно прекрасно обходиться печатной машинкой от эппла под названием MacBook Air.

Какие доводы?
1. Не садится батарея. Это, пожалуй, главный довод. Чтобы поддерживать среду для программирования, нужна куча места. А если она ещё и висит в памяти - то и памяти и процессорного времени. Все эти idle jupyter жрут кучу энергии как оказалось.
2. На ноутбуке ничего толком не обучишь. В мире, где видеокарта на 8Гб уже едва тянет свежие архитектуры, нет смысла обучать что-то на ноуте, где видеопамяти ещё меньше. Впрочем, при желании, разумеется, можно запустить всё хоть на телефоне, но там всегда начинаются приседания вместо того чтобы всё сделать plug and play.
3. Разные среды. Типичный сценарий - я настроил среду с нужными версиями всего и не дышу на неё чтобы она не развалилась от очередного вызова пакетного менеджера. Короче, чем больше я пересобираю среду, тем меньше времени у меня остаётся на работу. С ноута на сервер переносить ничего не приходится больше.
4. Приучает пользоваться удалёнными серверами. Да, ими все равно придётся пользоваться чтобы что-то серьёзное обучать. Вы же не будете сидеть с монитором в серверной, если надо обучить что-то на кластере.

👍3👏1

213 viewsedited 07:25

Voice stuff

Интересно, я единственный человек, у которого при виде данной клавиатуры, появляется неистовое желание её купить, даже несмотря на то что у меня ноутбук и она вроде как не нужна?!

https://www.amazon.com/Air75-Mechanical-Connection-Compatible-Systems-Gateron/dp/B09KFRZS3J

Вообще, мечтаю что однажды я заселюсь где-нибудь на upper east side манхэттена, или в gaslamp в Сан-Диего, и буду обставлять себе квартиру как я хочу. Там будет кресло от herman Miller, стол из икеи, LG OLED Display 32” и вот такая клавиатура.

👍1

207 views07:45

Voice stuff

Forwarded from Николай Мальковский

Как на счет того, чтобы сделать какой-нибудь конфиденс и на пару с кросс валидацией проверять расхождение распознавания и референса

201 views17:43

Voice stuff

Николай Мальковский

- планы на вечер

211 viewsedited 17:45

Voice stuff

Оказывается, уже полгода как доступна в публичном доступе диффузионная модель для Text to Speech от Microsoft. Причём, даже обещают быстрый инференс.
https://github.com/microsoft/NeuralSpeech/tree/master/PriorGrad-acoustic

Кто не в курсе, а я тоже не в курсе, диффузия - это новый способ представить задачу машинного обучения. В ней мы даём нейронке шумный сигнал и говорим что его надо избавить от шума. А потом результат снова зашумляем и повторяем заново. Медленно катастрофа, зато все эти ваши neural art последний год живут только на диффузии. State of the art, как ни крути.

GitHub

NeuralSpeech/PriorGrad-acoustic at master · microsoft/NeuralSpeech

Contribute to microsoft/NeuralSpeech development by creating an account on GitHub.

240 views06:27

About

Blog

Apps

Platform