Digest 2022-05
📌 Code
Massive memory overhead: Numbers in Python and how NumPy helps - https://pythonspeed.com/articles/python-integers-memory/
Как изменилась стандартная библиотека Python за последние годы - https://habr.com/ru/post/665020/
Faster, more memory-efficient Python JSON parsing with msgspec - https://pythonspeed.com/articles/faster-python-json-parsing/
CPUs, cloud VMs, and noisy neighbors: the limits of parallelism - https://pythonspeed.com/articles/cpu-limits-to-speed/
Why I no longer recommend Julia - https://yuri.is/not-julia/
Мой опыт с резиновым мужиком. Github Copilot - https://habr.com/ru/post/666538/
A tableau of crimes and misfortunes: the ever-useful
"What if it changes?" - https://chriskiehl.com/article/the-tyranny-of-what-if-it-changes
Асинхронный python без головной боли - https://habr.com/ru/post/667630/
Протоколы в Python: утиная типизация по-новому - https://habr.com/ru/post/557898/
#digest
📌 Code
Massive memory overhead: Numbers in Python and how NumPy helps - https://pythonspeed.com/articles/python-integers-memory/
Как изменилась стандартная библиотека Python за последние годы - https://habr.com/ru/post/665020/
Faster, more memory-efficient Python JSON parsing with msgspec - https://pythonspeed.com/articles/faster-python-json-parsing/
CPUs, cloud VMs, and noisy neighbors: the limits of parallelism - https://pythonspeed.com/articles/cpu-limits-to-speed/
Why I no longer recommend Julia - https://yuri.is/not-julia/
Мой опыт с резиновым мужиком. Github Copilot - https://habr.com/ru/post/666538/
A tableau of crimes and misfortunes: the ever-useful
docker history
- https://pythonspeed.com/articles/docker-history/"What if it changes?" - https://chriskiehl.com/article/the-tyranny-of-what-if-it-changes
Асинхронный python без головной боли - https://habr.com/ru/post/667630/
Протоколы в Python: утиная типизация по-новому - https://habr.com/ru/post/557898/
#digest
Python⇒Speed
Massive memory overhead: Numbers in Python and how NumPy helps
Storing integers or floats in Python has a huge overhead in memory. Learn why, and how NumPy makes things better.
Continue sharing digests?
Anonymous Poll
67%
Yes
28%
Yes, but not enough time to read
4%
No / what are digests
Рейтинг русскоязычных энкодеров предложений
Полезные в реальной жизни энкодеры предложений на русском - птица редкая.
Поэтому я просто без лишних слов возьму и репостну эту статью:
- https://habr.com/ru/post/669674/
Мой развернутый комментарий - https://habr.com/ru/post/669674/#comment_24412620
Максимальный репост.
#deep_learing
Полезные в реальной жизни энкодеры предложений на русском - птица редкая.
Поэтому я просто без лишних слов возьму и репостну эту статью:
- https://habr.com/ru/post/669674/
Мой развернутый комментарий - https://habr.com/ru/post/669674/#comment_24412620
Максимальный репост.
#deep_learing
Хабр
Рейтинг русскоязычных энкодеров предложений
Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи....
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Год назад я выложил пост про rubert-tiny, миниатюрный энкодер предложений для русского языка.
В комменты пришёл @snakers4 и справедливо придрался, что я не сравнил свою модель с очевидными бейзлайнами: FastText, USE, Laser.
Спустя полгода я прокачал модель до rubert-tiny2 и сравнил ещё с кучей бейзлайнов.
А сейчас у меня наконец дошли руки накатать про это пост: Рейтинг русскоязычных энкодеров предложений.
TL;DR: если в вашем sentence encoder'е важно только качество на разнообразных задачах, юзайте USE, если очень важна скорость – FastText. Моя rubert-tiny2 – между ними; остальные модели проигрывают по качеству или скорости этим трём.
В комменты пришёл @snakers4 и справедливо придрался, что я не сравнил свою модель с очевидными бейзлайнами: FastText, USE, Laser.
Спустя полгода я прокачал модель до rubert-tiny2 и сравнил ещё с кучей бейзлайнов.
А сейчас у меня наконец дошли руки накатать про это пост: Рейтинг русскоязычных энкодеров предложений.
TL;DR: если в вашем sentence encoder'е важно только качество на разнообразных задачах, юзайте USE, если очень важна скорость – FastText. Моя rubert-tiny2 – между ними; остальные модели проигрывают по качеству или скорости этим трём.
Forwarded from Silero News (Alexander)
Silero TTS Full V3 Release
📌 Improvements:
- Huge release - 20 languages, 173 voices;
- 1 new high quality Russian voice (
- The CIS languages: Kalmyk, Russian, Tatar, Uzbek и Ukrainian;
- Romance and Germanic languages: English, Indic English, Spanish, German, French;
- 10 Indic languages;
- Russian automated stress model vastly improved (please see the article for more details);
- All models inherit all of the previous SSML perks;
📎 Links:
- Project page - https://github.com/snakers4/silero-models#text-to-speech
- SSML wiki - https://github.com/snakers4/silero-models/wiki/SSML
- Detailed Russian post https://habr.com/ru/post/669910/
Please like, share, repost
📌 Improvements:
- Huge release - 20 languages, 173 voices;
- 1 new high quality Russian voice (
eugene
);- The CIS languages: Kalmyk, Russian, Tatar, Uzbek и Ukrainian;
- Romance and Germanic languages: English, Indic English, Spanish, German, French;
- 10 Indic languages;
- Russian automated stress model vastly improved (please see the article for more details);
- All models inherit all of the previous SSML perks;
📎 Links:
- Project page - https://github.com/snakers4/silero-models#text-to-speech
- SSML wiki - https://github.com/snakers4/silero-models/wiki/SSML
- Detailed Russian post https://habr.com/ru/post/669910/
Please like, share, repost
GitHub
GitHub - snakers4/silero-models: Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly…
Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple - snakers4/silero-models
Forwarded from Silero News (Alexander)
Audio Samples
📎 English - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-english
📎 Indic English - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-indic-english
📎 Spanish - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-spanish
📎 Kalmyk - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-kalmyk
📎 German - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-german
📎 Russian - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-russian
📎 Tatar - https://soundcloud.com/alexander-veysov/silero-tts-v3-tatar
📎 Uzbek - https://soundcloud.com/alexander-veysov/silero-tts-v3-uzbek
📎 Ukrainian - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-ukrainian
📎 French - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-french
📎 Indic languages - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-indic
📎 English - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-english
📎 Indic English - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-indic-english
📎 Spanish - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-spanish
📎 Kalmyk - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-kalmyk
📎 German - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-german
📎 Russian - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-russian
📎 Tatar - https://soundcloud.com/alexander-veysov/silero-tts-v3-tatar
📎 Uzbek - https://soundcloud.com/alexander-veysov/silero-tts-v3-uzbek
📎 Ukrainian - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-ukrainian
📎 French - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-french
📎 Indic languages - https://soundcloud.com/alexander-veysov/sets/silero-tts-v3-indic
SoundCloud
Silero TTS v3 English
Listen to Silero TTS v3 English by Alexander Veysov #np on #SoundCloud
Forwarded from Варим МЛ
Я долго ходил вокруг jax-а, что-то про него читал и смотрел, но наконец-то более-менее добрался и полноценно потыкал. Мне понравилось, но я подумал, что в продакшн его запускать рановато и написал про это.
#Миша #тулинг
#Миша #тулинг
Telegraph
jax: почему это круто и почему он вам (скорее всего) не нужен
Как читать этот пост? Если вы уже знаете что такое jax и haiku/flax/optax - можно сразу прыгать до секции "почему плохо для продакшена". Если интересно про опыт использования библиотек, то в секцию "про опыт использования". Если хочется TL;DR, то jax быстрый…
A More Realistic Piece on AV
AV companies, in general line with typical western marketing, have employed many dirty tricks trying to justify their bloated forecasts (e.g. purchasing scripted non-critical coverage from influencers).
This is the first down to earth AV experience I have seen shared:
https://rodneybrooks.com/no-front-seat-occupants-adventures-in-autonomous-ride-services
Tldr:
- Works in a limited area in SF, avoids busy zones, ~50% of its area
- Works only during low traffic hours (10:30pm to 5:00am)
- The rides must originate and terminate in SF
- Avoids bad weather
- "quite a bit of heavy braking, and at one point a car behind us also had to brake heavily to avoid hitting us"
Please read in full.
AV companies, in general line with typical western marketing, have employed many dirty tricks trying to justify their bloated forecasts (e.g. purchasing scripted non-critical coverage from influencers).
This is the first down to earth AV experience I have seen shared:
https://rodneybrooks.com/no-front-seat-occupants-adventures-in-autonomous-ride-services
Tldr:
- Works in a limited area in SF, avoids busy zones, ~50% of its area
- Works only during low traffic hours (10:30pm to 5:00am)
- The rides must originate and terminate in SF
- Avoids bad weather
- "quite a bit of heavy braking, and at one point a car behind us also had to brake heavily to avoid hitting us"
Please read in full.
Разруха не в клозетах, или чтобы стать крылатым нужно стремление к полету
Репостил тут недавно вот статью про полезный русский BERT. И ... будучи выше на голову, чем прошлая такая же статья автора она набрала на Хабре +20. Хм.
Недавно Хабр объявил итоги своего очередного конкурса статей ... и в номинации ML они отдали приз статье-реферату. Это распрекрасный и полезный реферат, но если бы отдали свой "приз" статье-переводу на тему очередного хайпа, было бы еще показательнее.
Не то чтобы раньше у нас или у меня были прямо идеальные статьи-кандидаты (именно про ML они выбирали годные, но неконструктивные статьи и раньше), но в 2021 году нас была статья-единорог, набравшая +205 с 45к просмотрами.
И естественно там есть еще парочка конструктивных статей в этой категории (где люди сами что-то сделали своими руками) ... но по состоянию на сейчас Хабр естественно уже удалил эту страницу (https://habr.com/ru/technotext/ml/).
И тут мы приходим к основной идее этого поста. Показывать людям, что они могут - опасно. Надо гасить весь конструктивизм и поддерживать пустые вскрики. Нужно топить за карго-культ и максимально кричащие и бессмысленные заголовки.
Вам это ничего и никого не напоминает?
Репостил тут недавно вот статью про полезный русский BERT. И ... будучи выше на голову, чем прошлая такая же статья автора она набрала на Хабре +20. Хм.
Недавно Хабр объявил итоги своего очередного конкурса статей ... и в номинации ML они отдали приз статье-реферату. Это распрекрасный и полезный реферат, но если бы отдали свой "приз" статье-переводу на тему очередного хайпа, было бы еще показательнее.
Не то чтобы раньше у нас или у меня были прямо идеальные статьи-кандидаты (именно про ML они выбирали годные, но неконструктивные статьи и раньше), но в 2021 году нас была статья-единорог, набравшая +205 с 45к просмотрами.
И естественно там есть еще парочка конструктивных статей в этой категории (где люди сами что-то сделали своими руками) ... но по состоянию на сейчас Хабр естественно уже удалил эту страницу (https://habr.com/ru/technotext/ml/).
И тут мы приходим к основной идее этого поста. Показывать людям, что они могут - опасно. Надо гасить весь конструктивизм и поддерживать пустые вскрики. Нужно топить за карго-культ и максимально кричащие и бессмысленные заголовки.
Вам это ничего и никого не напоминает?
Telegram
Spark in me
Рейтинг русскоязычных энкодеров предложений
Полезные в реальной жизни энкодеры предложений на русском - птица редкая.
Поэтому я просто без лишних слов возьму и репостну эту статью:
- https://habr.com/ru/post/669674/
Мой развернутый комментарий - http…
Полезные в реальной жизни энкодеры предложений на русском - птица редкая.
Поэтому я просто без лишних слов возьму и репостну эту статью:
- https://habr.com/ru/post/669674/
Мой развернутый комментарий - http…
The Cat is on the Mat
Interesting approach to be combined with Ngram embeddings when span boundaries are fuzzy.
I guess can be used downstream with existing sentence parsers.
Such models can be rough and dirty, cheap to train and robust.
- https://explosion.ai/blog/spancat
Interesting approach to be combined with Ngram embeddings when span boundaries are fuzzy.
I guess can be used downstream with existing sentence parsers.
Such models can be rough and dirty, cheap to train and robust.
- https://explosion.ai/blog/spancat
explosion.ai
Spancat: a new approach for span labeling · Explosion
The SpanCategorizer is a spaCy component that answers the NLP community's need to
have structured annotation for a wide variety of labeled spans, including long
phrases, non-named entities, or overlapping annotations. In this blog post, we're
excited to talk…
have structured annotation for a wide variety of labeled spans, including long
phrases, non-named entities, or overlapping annotations. In this blog post, we're
excited to talk…
Forwarded from Silero News (Alexander)
image_2022-06-21_12-26-10.png
1.3 MB
DALL-E Mini
Did not read the technical report yet, but I am kind of impressed.
Takes dozens of attempts to generate something decent, takes only a couple of minutes (w a GPU?), compared to 30m on GPU for a Sber's DALL-E.
Cannot really say that it is much better than GANS in 2018-2019, but this is in the wild and it clearly memorized the famous photos.
Did not read the technical report yet, but I am kind of impressed.
Takes dozens of attempts to generate something decent, takes only a couple of minutes (w a GPU?), compared to 30m on GPU for a Sber's DALL-E.
Cannot really say that it is much better than GANS in 2018-2019, but this is in the wild and it clearly memorized the famous photos.
DALL-E Mini Explained with Demo
Tech report:
- Financed by Google Cloud and HF, essentially an advertising campaign for JAX, 8 person team
- 27x smaller than the original, trained on a single TPU v3-8 for only 3 days + ~3 weeks for experiments, 400M params
- 30m image-text pairs, only 2m used to fine-tune the VQGAN encoder
- Could use preemptible TPU instances
- Pre-trained BART Encoder
- Pre-trained VQGAN encoder
- Pre-trained CLIP is used to select the best generated images
- (so the actual cost probably is actually ~1-2 orders of magnitude higher)
- (compare with 20k GPU days stipulated by Sber)
- The report is expertly written and easy to read
Tech report:
- Financed by Google Cloud and HF, essentially an advertising campaign for JAX, 8 person team
- 27x smaller than the original, trained on a single TPU v3-8 for only 3 days + ~3 weeks for experiments, 400M params
- 30m image-text pairs, only 2m used to fine-tune the VQGAN encoder
- Could use preemptible TPU instances
- Pre-trained BART Encoder
- Pre-trained VQGAN encoder
- Pre-trained CLIP is used to select the best generated images
- (so the actual cost probably is actually ~1-2 orders of magnitude higher)
- (compare with 20k GPU days stipulated by Sber)
- The report is expertly written and easy to read
W&B
DALL-E Mini Explained
Generate images from a text prompt in this interactive report: DALL-E Mini Explained, a reproduction of OpenAI DALL·E. Made by Boris Dayma using W&B
Forwarded from Silero News (Alexander)
Telegram Voice-to-Text
Tested the Telegram STT Premium feature and compared it with our @silero_audio_bot, it is surprisingly decent. I have no idea which engine they use, but:
- It seems to have at least 2 languages (I tried to speak Russian, English, German and Spanish, it picked up only Russian and English);
- The pipeline seems to be - language classifier + STT;
- It works only with voice recordings, not audio files in general. I.e. it avoids the huge pain in the ass we had to endure to parse audio and check MIME tags vs extensions vs actual codecs used;
- It is 2-3x slower than our bot on average (a 30s file was processing by us in 4-5s, theirs took 10-12s), but it also supports some form of hash based caching (the same message is processed instantly);
- It boasts some recasing and repunctuation model, but on anecdotal tests it performed worse, probably due to lack of polish in their pipeline;
- As for quality - it is subjective, I ran some anecdotal tests on funny / difficult / purposefully misleading or made up phrases, and it is decent, though I believe that our models are still better;
- Yeah ... and the elephant in the room - it should be manually triggered on each message and it is hidden behind a paywall for premium users;
Tested the Telegram STT Premium feature and compared it with our @silero_audio_bot, it is surprisingly decent. I have no idea which engine they use, but:
- It seems to have at least 2 languages (I tried to speak Russian, English, German and Spanish, it picked up only Russian and English);
- The pipeline seems to be - language classifier + STT;
- It works only with voice recordings, not audio files in general. I.e. it avoids the huge pain in the ass we had to endure to parse audio and check MIME tags vs extensions vs actual codecs used;
- It is 2-3x slower than our bot on average (a 30s file was processing by us in 4-5s, theirs took 10-12s), but it also supports some form of hash based caching (the same message is processed instantly);
- It boasts some recasing and repunctuation model, but on anecdotal tests it performed worse, probably due to lack of polish in their pipeline;
- As for quality - it is subjective, I ran some anecdotal tests on funny / difficult / purposefully misleading or made up phrases, and it is decent, though I believe that our models are still better;
- Yeah ... and the elephant in the room - it should be manually triggered on each message and it is hidden behind a paywall for premium users;
image_2022-06-22_09-59-55.png
142.8 KB
The biggest value here is that if they will move in this direction and develop the service properly.
Not the cringe advertising / misinformation hell like FB or Twitter or ad dystopia. Not the cringe crypto bro lies. Just you get what you pay for.
Also, if we take the 3% desired customer penetration from Durov's post ... we will get an estimated monthly burn of around USD100m?
Seems kind of high, or is my calculation wrong? Maybe it is their total cost up-to-date?
If their monthly burn is USD100m, then they are very INEFFICIENT. If USD100m is their TOTAL cost up-to-date, they are very EFFICIENT.
Not the cringe advertising / misinformation hell like FB or Twitter or ad dystopia. Not the cringe crypto bro lies. Just you get what you pay for.
Also, if we take the 3% desired customer penetration from Durov's post ... we will get an estimated monthly burn of around USD100m?
Seems kind of high, or is my calculation wrong? Maybe it is their total cost up-to-date?
If their monthly burn is USD100m, then they are very INEFFICIENT. If USD100m is their TOTAL cost up-to-date, they are very EFFICIENT.
Forwarded from Silero News (Alexander)
image_2022-06-22_10-08-57.png
23.6 KB
Also ... I had my hopes up, but someone pointed this out
- https://telegram.org/tos#7-4-voice-to-text-conversion
- https://telegram.org/tos#7-4-voice-to-text-conversion
Не удержался, запилил микро-статью на Хабр - https://habr.com/ru/post/672782/
Хабр
Telegram Premium отправляет голосовые сообщения клиентов в сервисы Google
Говорят, царь — ненастоящий! Буду краток. На днях Телеграм выкатил премиум-подписку и Дуров высказался за все хорошее, мол цитата: "This will herald a new, user-centric era in the history of social...
Мама я в телевизоре, правда через проксю =)
Но если серьезно, то эрозия телеграмма началась не с рекламы, и это довольно смешно и иронично (я конечно понимаю, что Дуров всегда за все хорошее и против всего плохого, но до этого мне особо было не до чего докопаться)
Не уверен, на что ссылается Дуров в первом предложении (и явно это сделано для пущего эффекта), но чуть подробнее распишу, почему я считаю это опять же, скорее популизмом
Но если серьезно, то эрозия телеграмма началась не с рекламы, и это довольно смешно и иронично (я конечно понимаю, что Дуров всегда за все хорошее и против всего плохого, но до этого мне особо было не до чего докопаться)
Не уверен, на что ссылается Дуров в первом предложении (и явно это сделано для пущего эффекта), но чуть подробнее распишу, почему я считаю это опять же, скорее популизмом