Слайдер Данные

Forwarded from SmartData — конференция по инженерии данных

#видеозаписи

Открываем полный плейлист SmartData 2024

😉

YouTube | 📺 VK Видео

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

SmartData 2024

Share your videos with friends, family, and the world

🔥1

25 views10:13

Слайдер Данные

Как выглядит кошмар аналитика
В честь Хеллоуина решили обсудить с вами кое-что действительно жуткое — страшнее приведений или клоунов.

Плохой SQL. 👻

Потому что приведений не существует, а вот кривой код очень даже реален и иметь с ним дело приходится регулярно. Для затравки нашли для вас целую подборку примеров, среди которых:
🔵нагромождение CASE WHEN, создающее хаос, в котором может разобраться только автор кода (но это не точно),
🔵несколько уровней подзапросов, разобраться в которых не может даже сам автор,
🔵вьюхи поверх вьюх поверх других вьюх — сначала это может быть удобно и красиво, но со временем система рискует стать слишком непонятной, еще и создает нагрузку на базу,
🔵попытки «подчистить» результат запроса с помощью DISTINCT для того, которые прячут проблему вместо того, чтобы ее решать.

Встречались с чем-то подобным? Или даже видели что-нибудь похуже? Делитесь в комментариях!

👀

Please open Telegram to view this post

VIEW IN TELEGRAM

Substack

SQL Anti-Patterns You Should Avoid

75 views11:42

Forwarded from DE

Free Python Standard Library How-to
Cheatsheet for Data Engineers

#de #cheatsheet

29 views06:27

Слайдер Данные

В качестве регулярных напоминаний, всяческий полезный [и бесполезный] код утилит для командной строки которые я когда-то делал и иногда продолжаю развивать когда это необходимо для работы,
например, для Dateno. Лично я испытываю глубокую привязанность к работе в командной строке отсюда и все эти инструменты:

- undatum - многофункциональная утилита для обработки данных изначально в формате JSON lines, делалась как xsv для JSON/JSON lines, я её лично активно и везде применяю.
- docx2csv - утилита по извлечению таблиц из файлов MS Word (.docx), настолько простая что надо её с чем-то объединить
- mongo2md - инструмент автоматизации документирования коллекций в MongoDB было полезно когда MongoDB была в основе технологического стека разных проектов, сейчас скорее буду переводить в статус легаси, но полезно как пример автодокументирования.
- metawarc утилита по извлечению метаданных из файлов WARC, умеет собирать данные из pdf, doc, docx, pdf, png, jpg, xls, xlsx и других файлов документов и изображений. Полезна для разного рода OSINT задач и для автоматизированного анализа WARC файлов
- apibackuper утилита для сбора данных из API через декларативно заданные правила. Использую её повсеместно и всё время хочу переписать чтобы вместо cfg файлов использовать yaml/toml, заменить zip контейнеры на базу duckdb и в целом сделать удобнее. Но и так работает
- wparc архиватор API и данных из Wordpress и файлов заодно. Одна из утилит для архивации сайтов для RuArxive
- lazyscraper скрейпер сайтов для лентяев, когда хочется извлечь данные минимальными усилиями и без программирования. Я её чуть-чуть не доделал чтобы даже xpath не использовать, но в остальном вполне рабочий инструмент
- metacrafter мой любимый инструмент идентификации структуры таблиц в файлах и таблицах с данными. Надо объединить с undatum её конечно же
- apicrafter утилита по быстрому созданию API поверх коллекций в MongoDB. Когда-то использовалась в проектах где основной стек был на MongoDB, сейчас всё по другому я бы делал

GitHub

GitHub - datacoon/undatum: undatum: a command-line tool for data processing. Brings CSV simplicity to NDJSON, BSON, XML and other…

undatum: a command-line tool for data processing. Brings CSV simplicity to NDJSON, BSON, XML and other dat files - datacoon/undatum

60 views09:43

Слайдер Данные

🔥3

44 views06:58

About

Blog

Apps

Platform