Aspiring Data Science – Telegram

Aspiring Data Science

@AspiringDataScience

318 subscribers

386 photos

10 videos

6 files

1.41K links

Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.

Download Telegram

About

Blog

Apps

Platform

Aspiring Data Science

318 subscribers

Aspiring Data Science

#postgres #rdbms

Выбирают постгре-совместимую СУБД для распределённого хранения данных (на многих серверах), частично они состоят из временных рядов (неизменяемые, append-only) без первичного ключа (типа показаний сенсоров) , частично из записей с меткой времени, но всё же подверженных нечастому изменению, уже с первичным ключом. часть с json, часть нормализованная. Таблицы большие. Рассматриваю TimescaleDB vs Citus. Если есть опыт использования, отпишите впечатления в комменты, плиз.

37 viewsedited 13:01

Aspiring Data Science

#citus

https://www.youtube.com/watch?v=A9q7w96yO_E&ab_channel=MicrosoftDeveloper

How to scale Postgres for time series data with Citus | Citus Con: An Event for Postgres 2022

Video of a conference talk by Burak Velioglu at Citus Con: An Event for Postgres. Abstract: Managing time series data at scale can be a challenge. PostgreSQL offers many powerful data processing features such as indexes, COPY, and SQL—but the high data volumes…

36 views13:22

Aspiring Data Science

#citus

https://www.youtube.com/watch?v=qV_fcja-aQA&ab_channel=FordevsCommunity

Contributing.today - Citus 10 Open Source & Columnar Storage for Postgres

Citus 10 is out! A spectacular new release from our Citus open source team. Citus 10 gives you columnar storage for Postgres, Citus on a single node—plus, we’ve open sourced the shard rebalancer. Come see a demo & learn how the Citus extension gives you Postgres…

36 views13:35

Aspiring Data Science

#ottertune #rdbms #tuning

Внезапно, есть сервис, который тюнит с помощь МЛ настройки ваших СУБД (postgres,mysql). Оказывается, 40% облачных инстансов overprovisioned. Достигнутые метрики точности, как обычно, никогда не уточняются. На Хабре давно видел статью от Postgres Pro о динамическом ML-планировщике, так и не знаю, пошел ли он в прод.

https://www.youtube.com/watch?v=J_3NHB5bQgM&ab_channel=MicrosoftDeveloper

Why Postgres Is Better Than MySQL for Automated Knob Tuning | Citus Con: An Event for Postgres 2022

Video of a talk by Dana Van Aken at Citus Con: An Event for Postgres. Abstract: Database management systems (DBMS) expose dozens of configurable knobs that control runtime behavior. Setting these knobs correctly for an application's workload can improve the…

39 viewsedited 13:44

Aspiring Data Science

https://ottertune.com/

36 views13:48

Aspiring Data Science

39 viewsedited 13:48

Aspiring Data Science

#ottertune

Системные параметры ОС тоже тюнятся. ML-метрики достигнутые нигде не упомянуты, что заставляет задуматься, а есть ли там вообще МЛ, или это просто оптимизация брутфорс перебором. Работает только с AWS, стоит $110/mo/instance

https://www.youtube.com/watch?v=SFoYQqGfxhE&t=4s&ab_channel=PostgresConference

OtterTune: An Automatic Database Configuration Tuning Service

Database management systems (DBMS) expose dozens of configurable knobs that control their runtime behavior. Setting these knobs correctly for an application's workload can improve the performance and efficiency of the DBMS. But such tuning requires considerable…

42 viewsedited 13:52

Aspiring Data Science

Forwarded from Записки дата-шрушера (Ppilif) (Ppilif [GMT+1])

Абсолютно проклятая штука.

Чуваки упаковывают единичные квадраты для разных n в самые маленькие возможные квадраты. Эти картинки — ад для перфекциониста.

https://erich-friedman.github.io/packing/squinsqu/

36 views20:19

Aspiring Data Science

Forwarded from DLStories

Google Research представили очередную text-to-image модель Muse, которая (как обычно) бьет SOTA в задаче генерации картинок по метрикам FID и CIP. Но кроме качественной генерации у модели есть интересная особенность — она не использует диффузию.

Устройство Muse — на второй картинке к посту. Вот что там происходит:

1. Текст прогоняется через предобученную большую языковую модель (конкретно в этой работе это T5-XXL), на выходе получается эмбеддинг текста. Тут ничего нового: все недавние text-to-image получают эмбеддинги текста таким способом.
2. На картинках датасета обучается VGGAN. Это автоэнкодер, у которого дискретное латентное пространство. То есть, латентное представление картинки — это набор дискретных токенов. В Muse латентное представление имеет размер 16х16, т.е. одна картинка — это 16х16 дискретных векторов.
3. Далее берется Transformer и обучается под следующую задачу:
- берем картинку, прогоняем через энкодер VQGAN’а, получаем 16х16 латентных токенов;
- случайным образом заменяем несколько из этих латентных токенов на специальный токен [MASK].
- Подаем эти токены вместе с positional encoding, а также эмбеддинг текста из T5 в качестве кондишена на вход Transformer. Задача Transformer — используя информацию из текста восстановить замаскированные токены. Т.е. на выходе Transformer должен выдать латентное представление VQGAN’а для входящей картинки размера 16х16.
4. На этапе инференса мы получаем эмбеддинг входящего текста из T5. Его подаем в обученный Transformer из 3 пункта вместе с латентным вектором размера 16х16, состоящим полностью из токенов [MASK]. Далее в течение нескольких шагов Transformer генерирует токены VQGAN’а вместо всех токенов [MASK]. После того, как все токены [MASK] заменены на токены VQGAN’а, эти токены подаются в декодер VQGAN’а, который выдает итоговую картинку.

Muse использует два набора VQGAN+Transformer: один для первичной генерации low-res картинок размера 256х256, второй для генерации high-res картинок размера 512х512. VQGAN+Transformer для low-res картинок работают ровно так, как описано выше. В случае генерации high-res картинок есть одно отличие: Transformer учится восстанавливать замаскированные токены основываясь не только на эмбеддингах текста, но и на токенах VQGAN’а меньшего разрешения. (на картинке это показано пунктирной стрелкой).
Авторы Muse утверждают, что генерация картинки в две стадии (low-res -> high-res) повышает качество итоговых изображений.

Вот такое устройство модели позволяет ей генерировать качественные картинки, обгоняя по FID и CLIP метрикам другие популярные модели типа Imagen, Parti, GLIDE, DALL-E 2. При этом Muse работает еще и намного быстрее (сравнение скоростей — на 3 картинке к посту).

Стоит еще сказать, что идея устройства Muse позволяет легко делать text-based image editing и image inpainting. Делается так: берем картинку, которую хотим изменить, получаем с помощью VGGAN латентные токены. Заменяем на [MASK] те из них, которые относятся к части картинки, которую хотим изменить, и затем позволяем модели восстановить картинку на основе нового текста.

Ссылки:
Страница проекта
Статья. Там — больше деталей устройства и обучения модели.
Инфу о Muse нашла в канале Мишин Лернинг

45 views20:22

Aspiring Data Science

#scalping #trading #futures

Посмотрел вебинар от Алора по скальпингу на срочном рынке. Очень вдохновляет. Оказывается, скальперы - это такие люди, которые сидят над мониторами и клавами, открывают позицию на 5-60 секунд и быстро фиксируют прибыль или убыток. И некоторые ещё умудряются при этом зарабатывать!

Если вдруг кто захочет поработать со мной в этом направлении, пишите.

https://alorstudy.ru/pl/teach/control/lesson/view?id=275259867&editMode=0

51 viewsedited 20:59

Aspiring Data Science

Forwarded from Kali Novskaya (Tatiana Shavrina)

Присылайте затравки, завтра продолжим! Мы уже выяснили:
🔹 что считает модель все еще плохо
🔹со стихами на русском тоже беда
🔹явно проскальзывают знания после 2021 года
🔹 есть знания в очень разных форматах + реально крутое написание кода

43 views22:34

Aspiring Data Science

#gpt4

"По заявлению OpenAI, модель GPT-4 сдала смоделированный адвокатский экзамен лучше 90 % людей, экзамен SAT Reading test (нужно ответить на вопросы по небольшим текстам) — лучше, чем 93 % людей, а экзамен SAT по математике — лучше, чем 89 % людей."

https://3dnews.ru/1083402/zapushchena-bolshaya-yazikovaya-iimodel-gpt4

39 viewsedited 12:37

Aspiring Data Science

#gpt4

https://openai.com/research/gpt-4

39 viewsedited 12:46

Aspiring Data Science

#hardware

"Карта позволяет установить в один слот PCIe x16 сразу до 21 твердотельного накопителя стандарта PCIe 4.0 M.2 NVMe. Таким образом карта может нести на себе до 168 Тбайт флеш-памяти в виде твердотельных накопителей ёмкостью по 8 Тбайт каждый (в будущем после появления моделей на 16 Тбайт максимальная ёмкость составит 336 Тбайт), обеспечивая при этом пропускную способность до 30,5 Гбайт/с."

https://3dnews.ru/1083456/apex-storage-predstavila-x21-kartu-rasshireniya-pcie-dlya-21-nakopitelya-pcie-40-m2-nvme

3DNews - Daily Digital Digest

21 SSD теперь можно установить в один слот PCIe — представлена карта расширения Apex Storage X21

Компания Apex Storage представила карту расширения X21, которая позволяет установить в один слот PCIe x16 сразу до 21 твердотельного накопителя стандарта PCIe 4.

37 viewsedited 23:12

Aspiring Data Science

#zfs

https://arstechnica.com/gadgets/2021/06/a-quick-start-guide-to-openzfs-native-encryption/

A quick-start guide to OpenZFS native encryption

Learn the hows, whys, and whats of OpenZFS encryption with this short guide.

37 views06:41

Aspiring Data Science

Forwarded from Записки C3PO

Еще и новую Midjorney подвезли (сетка для генерации изображения по текстовому описанию).

В этом твиттер треде можно глянуть на разницу между v4 и v5. Говорят, что теперь у людей, наконец, 5 пальцев.
https://twitter.com/nickfloats/status/1636116959267004416?s=46&t=I6EHIJSkJGBVFq_MSZWntg

Выглядит 😘

Please open Telegram to view this post

VIEW IN TELEGRAM

34 views06:58

Aspiring Data Science

#midjourney

Если бы мне несколько лет тому сказали, что нейросеть нарисует по тексту вот такую картинку, я бы не поверил. А сегодня это обыденность. Вот вам и экспоненциальный прогресс. Сингулярность всё ближе, мы в неё падаем.

"Street style photo, Closeup shot, Nike Air Force 1 slytherin collab, unique Colorway, snake skin, hogwarts, natural lighting, original, unique, 4k --ar 16:9"

48 viewsedited 07:00

Aspiring Data Science

35 views11:04

Aspiring Data Science

https://3dnews.ru/1083512/uchyonie-obnarugili-priznaki-vulkanicheskoy-aktivnosti-na-venere

3DNews - Daily Digital Digest

Учёные впервые обнаружили действующий вулкан на Венере — по данным 30-летней давности

Американские учёные обнаружили первое свидетельство присутствия на Венере действующего вулкана — открытие было сделано при изучении материалов, собранных более 30 лет назад зондом «Магеллан» (Magellan), который был запущен в 1989 году.

37 views18:55

Aspiring Data Science

#postgres #tuning

https://www.cloudbees.com/blog/tuning-postgresql-with-pgbench

Tuning PostgreSQL with pgbench

To answer the challenges of tuning a database

37 views19:00