Aspiring Data Science
318 subscribers
386 photos
10 videos
6 files
1.41K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#postgres #rdbms

Выбирают постгре-совместимую СУБД для распределённого хранения данных (на многих серверах), частично они состоят из временных рядов (неизменяемые, append-only) без первичного ключа (типа показаний сенсоров) , частично из записей с меткой времени, но всё же подверженных нечастому изменению, уже с первичным ключом. часть с json, часть нормализованная. Таблицы большие. Рассматриваю TimescaleDB vs Citus. Если есть опыт использования, отпишите впечатления в комменты, плиз.
#ottertune #rdbms #tuning

Внезапно, есть сервис, который тюнит с помощь МЛ настройки ваших СУБД (postgres,mysql). Оказывается, 40% облачных инстансов overprovisioned. Достигнутые метрики точности, как обычно, никогда не уточняются. На Хабре давно видел статью от Postgres Pro о динамическом ML-планировщике, так и не знаю, пошел ли он в прод.

https://www.youtube.com/watch?v=J_3NHB5bQgM&ab_channel=MicrosoftDeveloper
#ottertune

Системные параметры ОС тоже тюнятся. ML-метрики достигнутые нигде не упомянуты, что заставляет задуматься, а есть ли там вообще МЛ, или это просто оптимизация брутфорс перебором. Работает только с AWS, стоит $110/mo/instance

https://www.youtube.com/watch?v=SFoYQqGfxhE&t=4s&ab_channel=PostgresConference
Forwarded from Записки дата-шрушера (Ppilif) (Ppilif [GMT+1])
Абсолютно проклятая штука.

Чуваки упаковывают единичные квадраты для разных n в самые маленькие возможные квадраты. Эти картинки — ад для перфекциониста.

https://erich-friedman.github.io/packing/squinsqu/
Forwarded from DLStories
Google Research представили очередную text-to-image модель Muse, которая (как обычно) бьет SOTA в задаче генерации картинок по метрикам FID и CIP. Но кроме качественной генерации у модели есть интересная особенность — она не использует диффузию.

Устройство Muse — на второй картинке к посту. Вот что там происходит:

1. Текст прогоняется через предобученную большую языковую модель (конкретно в этой работе это T5-XXL), на выходе получается эмбеддинг текста. Тут ничего нового: все недавние text-to-image получают эмбеддинги текста таким способом.
2. На картинках датасета обучается VGGAN. Это автоэнкодер, у которого дискретное латентное пространство. То есть, латентное представление картинки — это набор дискретных токенов. В Muse латентное представление имеет размер 16х16, т.е. одна картинка — это 16х16 дискретных векторов.
3. Далее берется Transformer и обучается под следующую задачу:
- берем картинку, прогоняем через энкодер VQGAN’а, получаем 16х16 латентных токенов;
- случайным образом заменяем несколько из этих латентных токенов на специальный токен [MASK].
- Подаем эти токены вместе с positional encoding, а также эмбеддинг текста из T5 в качестве кондишена на вход Transformer. Задача Transformer — используя информацию из текста восстановить замаскированные токены. Т.е. на выходе Transformer должен выдать латентное представление VQGAN’а для входящей картинки размера 16х16.
4. На этапе инференса мы получаем эмбеддинг входящего текста из T5. Его подаем в обученный Transformer из 3 пункта вместе с латентным вектором размера 16х16, состоящим полностью из токенов [MASK]. Далее в течение нескольких шагов Transformer генерирует токены VQGAN’а вместо всех токенов [MASK]. После того, как все токены [MASK] заменены на токены VQGAN’а, эти токены подаются в декодер VQGAN’а, который выдает итоговую картинку.

Muse использует два набора VQGAN+Transformer: один для первичной генерации low-res картинок размера 256х256, второй для генерации high-res картинок размера 512х512. VQGAN+Transformer для low-res картинок работают ровно так, как описано выше. В случае генерации high-res картинок есть одно отличие: Transformer учится восстанавливать замаскированные токены основываясь не только на эмбеддингах текста, но и на токенах VQGAN’а меньшего разрешения. (на картинке это показано пунктирной стрелкой).
Авторы Muse утверждают, что генерация картинки в две стадии (low-res -> high-res) повышает качество итоговых изображений.

Вот такое устройство модели позволяет ей генерировать качественные картинки, обгоняя по FID и CLIP метрикам другие популярные модели типа Imagen, Parti, GLIDE, DALL-E 2. При этом Muse работает еще и намного быстрее (сравнение скоростей — на 3 картинке к посту).

Стоит еще сказать, что идея устройства Muse позволяет легко делать text-based image editing и image inpainting. Делается так: берем картинку, которую хотим изменить, получаем с помощью VGGAN латентные токены. Заменяем на [MASK] те из них, которые относятся к части картинки, которую хотим изменить, и затем позволяем модели восстановить картинку на основе нового текста.

Ссылки:
Страница проекта
Статья. Там — больше деталей устройства и обучения модели.
Инфу о Muse нашла в канале Мишин Лернинг
#scalping #trading #futures

Посмотрел вебинар от Алора по скальпингу на срочном рынке. Очень вдохновляет. Оказывается, скальперы - это такие люди, которые сидят над мониторами и клавами, открывают позицию на 5-60 секунд и быстро фиксируют прибыль или убыток. И некоторые ещё умудряются при этом зарабатывать!

Если вдруг кто захочет поработать со мной в этом направлении, пишите.

https://alorstudy.ru/pl/teach/control/lesson/view?id=275259867&editMode=0
Forwarded from Kali Novskaya (Tatiana Shavrina)
Присылайте затравки, завтра продолжим! Мы уже выяснили:
🔹 что считает модель все еще плохо
🔹со стихами на русском тоже беда
🔹явно проскальзывают знания после 2021 года
🔹 есть знания в очень разных форматах + реально крутое написание кода
#gpt4

"По заявлению OpenAI, модель GPT-4 сдала смоделированный адвокатский экзамен лучше 90 % людей, экзамен SAT Reading test (нужно ответить на вопросы по небольшим текстам) — лучше, чем 93 % людей, а экзамен SAT по математике — лучше, чем 89 % людей."


https://3dnews.ru/1083402/zapushchena-bolshaya-yazikovaya-iimodel-gpt4
#hardware

"Карта позволяет установить в один слот PCIe x16 сразу до 21 твердотельного накопителя стандарта PCIe 4.0 M.2 NVMe. Таким образом карта может нести на себе до 168 Тбайт флеш-памяти в виде твердотельных накопителей ёмкостью по 8 Тбайт каждый (в будущем после появления моделей на 16 Тбайт максимальная ёмкость составит 336 Тбайт), обеспечивая при этом пропускную способность до 30,5 Гбайт/с."

https://3dnews.ru/1083456/apex-storage-predstavila-x21-kartu-rasshireniya-pcie-dlya-21-nakopitelya-pcie-40-m2-nvme
Forwarded from Записки C3PO
Еще и новую Midjorney подвезли (сетка для генерации изображения по текстовому описанию).

В этом твиттер треде можно глянуть на разницу между v4 и v5. Говорят, что теперь у людей, наконец, 5 пальцев.
https://twitter.com/nickfloats/status/1636116959267004416?s=46&t=I6EHIJSkJGBVFq_MSZWntg

Выглядит 😘
Please open Telegram to view this post
VIEW IN TELEGRAM
#midjourney

Если бы мне несколько лет тому сказали, что нейросеть нарисует по тексту вот такую картинку, я бы не поверил. А сегодня это обыденность. Вот вам и экспоненциальный прогресс. Сингулярность всё ближе, мы в неё падаем.

"Street style photo, Closeup shot, Nike Air Force 1 slytherin collab, unique Colorway, snake skin, hogwarts, natural lighting, original, unique, 4k --ar 16:9"