Spark in me
2.2K subscribers
829 photos
48 videos
116 files
2.68K links
Lost like tears in rain. DS, ML, a bit of philosophy and math. No bs or ads.
Download Telegram
Digest 2022-05

📌 Code

Massive
memory overhead: Numbers in Python and how NumPy helps - https://pythonspeed.com/articles/python-integers-memory/

Как изменилась стандартная библиотека Python за последние годы - https://habr.com/ru/post/665020/

Faster, more memory-efficient Python JSON parsing with msgspec - https://pythonspeed.com/articles/faster-python-json-parsing/


CPUs, cloud VMs, and noisy neighbors: the limits of parallelism - https://pythonspeed.com/articles/cpu-limits-to-speed/

Why I no longer recommend Julia - https://yuri.is/not-julia/

Мой опыт с резиновым мужиком. Github Copilot - https://habr.com/ru/post/666538/

A tableau of crimes and misfortunes: the ever-useful docker history - https://pythonspeed.com/articles/docker-history/

"What if it changes?" - https://chriskiehl.com/article/the-tyranny-of-what-if-it-changes

Асинхронный python без головной боли - https://habr.com/ru/post/667630/

Протоколы в Python: утиная типизация по-новому - https://habr.com/ru/post/557898/

#digest
Рейтинг русскоязычных энкодеров предложений

Полезные в реальной жизни энкодеры предложений на русском - птица редкая.

Поэтому я просто без лишних слов возьму и репостну эту статью:

- https://habr.com/ru/post/669674/

Мой развернутый комментарий - https://habr.com/ru/post/669674/#comment_24412620

Максимальный репост.

#deep_learing
Год назад я выложил пост про rubert-tiny, миниатюрный энкодер предложений для русского языка.
В комменты пришёл @snakers4 и справедливо придрался, что я не сравнил свою модель с очевидными бейзлайнами: FastText, USE, Laser.

Спустя полгода я прокачал модель до rubert-tiny2 и сравнил ещё с кучей бейзлайнов.
А сейчас у меня наконец дошли руки накатать про это пост: Рейтинг русскоязычных энкодеров предложений.

TL;DR: если в вашем sentence encoder'е важно только качество на разнообразных задачах, юзайте USE, если очень важна скорость – FastText. Моя rubert-tiny2 – между ними; остальные модели проигрывают по качеству или скорости этим трём.
Forwarded from Silero News (Alexander)
Silero TTS Full V3 Release

📌 Improvements:

- Huge release - 20 languages, 173 voices;
- 1 new high quality Russian voice (eugene);
- The CIS languages: Kalmyk, Russian, Tatar, Uzbek и Ukrainian;
- Romance and Germanic languages: English, Indic English, Spanish, German, French;
- 10 Indic languages;
- Russian automated stress model vastly improved (please see the article for more details);
- All models inherit all of the previous SSML perks;

📎 Links:

- Project page - https://github.com/snakers4/silero-models#text-to-speech
- SSML wiki - https://github.com/snakers4/silero-models/wiki/SSML
- Detailed Russian post https://habr.com/ru/post/669910/

Please like, share, repost
Теперь хоть кто-то пояснил зачем нужен jax
A More Realistic Piece on AV

AV companies, in general line with typical western marketing, have employed many dirty tricks trying to justify their bloated forecasts (e.g. purchasing scripted non-critical coverage from influencers).

This is the first down to earth AV experience I have seen shared:

https://rodneybrooks.com/no-front-seat-occupants-adventures-in-autonomous-ride-services

Tldr:

- Works in a limited area in SF, avoids busy zones, ~50% of its area
- Works only during low traffic hours (10:30pm to 5:00am)
- The rides must originate and terminate in SF
- Avoids bad weather
- "quite a bit of heavy braking, and at one point a car behind us also had to brake heavily to avoid hitting us"

Please read in full.
Разруха не в клозетах, или чтобы стать крылатым нужно стремление к полету

Репостил тут недавно вот статью про полезный русский BERT. И ... будучи выше на голову, чем прошлая такая же статья автора она набрала на Хабре +20. Хм.

Недавно Хабр объявил итоги своего очередного конкурса статей ... и в номинации ML они отдали приз статье-реферату. Это распрекрасный и полезный реферат, но если бы отдали свой "приз" статье-переводу на тему очередного хайпа, было бы еще показательнее.

Не то чтобы раньше у нас или у меня были прямо идеальные статьи-кандидаты (именно про ML они выбирали годные, но неконструктивные статьи и раньше), но в 2021 году нас была статья-единорог, набравшая +205 с 45к просмотрами.

И естественно там есть еще парочка конструктивных статей в этой категории (где люди сами что-то сделали своими руками) ... но по состоянию на сейчас Хабр естественно уже удалил эту страницу (https://habr.com/ru/technotext/ml/).

И тут мы приходим к основной идее этого поста. Показывать людям, что они могут - опасно. Надо гасить весь конструктивизм и поддерживать пустые вскрики. Нужно топить за карго-культ и максимально кричащие и бессмысленные заголовки.

Вам это ничего и никого не напоминает?
The Cat is on the Mat

Interesting approach to be combined with Ngram embeddings when span boundaries are fuzzy.

I guess can be used downstream with existing sentence parsers.

Such models can be rough and dirty, cheap to train and robust.

- https://explosion.ai/blog/spancat
Forwarded from Silero News (Alexander)
Plz upvote, if you have a HN account:

- https://news.ycombinator.com/item?id=31807201
image_2022-06-21_12-26-10.png
1.3 MB
DALL-E Mini

Did not read the technical report yet, but I am kind of impressed.

Takes dozens of attempts to generate something decent, takes only a couple of minutes (w a GPU?), compared to 30m on GPU for a Sber's DALL-E.

Cannot really say that it is much better than GANS in 2018-2019, but this is in the wild and it clearly memorized the famous photos.
DALL-E Mini Explained with Demo

Tech report:

- Financed by Google Cloud and HF, essentially an advertising campaign for JAX, 8 person team
- 27x smaller than the original, trained on a single TPU v3-8 for only 3 days + ~3 weeks for experiments, 400M params
- 30m image-text pairs, only 2m used to fine-tune the VQGAN encoder
- Could use preemptible TPU instances
- Pre-trained BART Encoder
- Pre-trained VQGAN encoder
- Pre-trained CLIP is used to select the best generated images
- (so the actual cost probably is actually ~1-2 orders of magnitude higher)
- (compare with 20k GPU days stipulated by Sber)
- The report is expertly written and easy to read
Forwarded from Silero News (Alexander)
Telegram Voice-to-Text

Tested the Telegram STT Premium feature and compared it with our @silero_audio_bot, it is surprisingly decent. I have no idea which engine they use, but:

- It seems to have at least 2 languages (I tried to speak Russian, English, German and Spanish, it picked up only Russian and English);

- The pipeline seems to be - language classifier + STT;

- It works only with voice recordings, not audio files in general. I.e. it avoids the huge pain in the ass we had to endure to parse audio and check MIME tags vs extensions vs actual codecs used;

- It is 2-3x slower than our bot on average (a 30s file was processing by us in 4-5s, theirs took 10-12s), but it also supports some form of hash based caching (the same message is processed instantly);

- It boasts some recasing and repunctuation model, but on anecdotal tests it performed worse, probably due to lack of polish in their pipeline;

- As for quality - it is subjective, I ran some anecdotal tests on funny / difficult / purposefully misleading or made up phrases, and it is decent, though I believe that our models are still better;

- Yeah ... and the elephant in the room - it should be manually triggered on each message and it is hidden behind a paywall for premium users;
image_2022-06-22_09-59-55.png
142.8 KB
The biggest value here is that if they will move in this direction and develop the service properly.

Not the cringe advertising / misinformation hell like FB or Twitter or ad dystopia. Not the cringe crypto bro lies. Just you get what you pay for.

Also, if we take the 3% desired customer penetration from Durov's post ... we will get an estimated monthly burn of around USD100m?

Seems kind of high, or is my calculation wrong? Maybe it is their total cost up-to-date?

If their monthly burn is USD100m, then they are very INEFFICIENT. If USD100m is their TOTAL cost up-to-date, they are very EFFICIENT.
Forwarded from Silero News (Alexander)
image_2022-06-22_10-08-57.png
23.6 KB
Also ... I had my hopes up, but someone pointed this out

- https://telegram.org/tos#7-4-voice-to-text-conversion
Мама я в телевизоре, правда через проксю =)

Но если серьезно, то эрозия телеграмма началась не с рекламы, и это довольно смешно и иронично (я конечно понимаю, что Дуров всегда за все хорошее и против всего плохого, но до этого мне особо было не до чего докопаться)

Не уверен, на что ссылается Дуров в первом предложении (и явно это сделано для пущего эффекта), но чуть подробнее распишу, почему я считаю это опять же, скорее популизмом