Data Engineering / Инженерия данных / Data Engineer / DWH

🚀 Изучаем SQL индексы!

Индексы в базах данных — это структуры, которые помогают ускорить поиск и извлечение данных.

Вот основные типы индексов:
✓ B-Tree индексы: Наиболее распространённый тип индексов. Используется для диапазонного поиска и поддерживает сортировку данных. Работает по принципу сбалансированного дерева.
✓ Hash индексы: Используются для быстрого поиска по точному совпадению. Не поддерживают диапазонные запросы, но могут быть очень быстрыми для конкретных значений.
✓ GiST (Generalized Search Tree): Позволяет создавать индексы для сложных типов данных, таких как географические данные. Поддерживает множество операций поиска.
✓ GIN (Generalized Inverted Index): Эффективен для индексации массивов и полнотекстового поиска. Использует инвертированный индекс, что делает его подходящим для текстовых данных.
✓ Кластеризованные индексы: Определяют физический порядок хранения данных в таблице. То есть физически сортирует строки таблицы в соответствии с индексом. Обычно создаются на первичном ключе и позволяют значительно ускорить чтение данных.
✓ Некластеризованный индекс (Nonclustered): Создаются отдельно от основной таблицы и содержат указатели на строки данных. Позволяют создавать несколько индексов для одной таблицы.
✓ Составные индексы: Индексы, которые включают несколько колонок таблицы. Полезны для запросов, которые фильтруют данные по нескольким полям.

В этом посте собраны полезные статьи и видео на YouTube о SQL индексах, которые помогут вам разобраться в этой важной теме:

📌 Статья: Влияние индексов БД на производительность выборки данных
📌 Статья: Обслуживание индексов MS SQL Server: как, когда и, главное, зачем?
📌 YouTube: Что такое SQL ИНДЕКСЫ за 10 минут: Объяснение с примерами
📌 YouTube: ИНДЕКСЫ В БАЗАХ ДАННЫХ. СОБЕС В OZON.
📌 YouTube: Как устроен B-TREE индекс в базах данных
📌 YouTube: EXPLAIN в базах данных за 10 минут
📌 YouTube: Андрей Сальников — Индексы в PostgreSQL. Как понять, что создавать
📌 YouTube: Оптимизация запросов с помощью индексов
📌 Статья: 14 вопросов об индексах в SQL Server, которые вы стеснялись задать

#Индексы #btree #hashindex #index

Work Solutions

Влияние индексов БД на производительность выборки данных

Зачем нужны индексы в таблицах БД — Блог Work Solutions

🔥3👍1

2.03K views07:30

Data Engineering / Инженерия данных / Data Engineer / DWH

Вся сложность алгоритмов за 11 минут

https://youtu.be/cXCuXNwzdfY?si=Yjp1qqhwviyf2Btu

#алгоритмы

YouTube

ВСЯ СЛОЖНОСТЬ АЛГОРИТМОВ ЗА 11 МИНУТ | ОСНОВЫ ПРОГРАММИРОВАНИЯ

Онлайн-буткемп «Junior-аналитик с нуля за 10 недель»: https://go.skillfactory.ru/JD4LkA
По промокоду ALEKOS скидка 45%

Оценка сложности алгоритмов за 11 минут.

Подписывайся в соц. сетях:
Телеграм - https://t.me/Alek_OS
ВК - https://vk.com/alekos1

❤️ Поддержка…

🔥2

899 views07:00

Data Engineering / Инженерия данных / Data Engineer / DWH

How Uber Manages Petabytes of Real-Time Data (en)

В статье описывается, как Uber эффективно обрабатывает телеметрию с миллионов устройств, используя Apache Kafka и Flink для потоковой обработки, и как она поддерживает низкие задержки при высоких объемах данных.
Отдельно описан механизм репликации данных.

https://blog.bytebytego.com/p/how-uber-manages-petabytes-of-real

Bytebytego

How Uber Manages Petabytes of Real-Time Data

Stop renting auth.

863 views12:30

Data Engineering / Инженерия данных / Data Engineer / DWH

Гайд по логированию за 12 минут

▫️Вы узнаете, что такое логи, зачем они нужны и как правильно их использовать.
▫️Как настроить логи с помощью библиотек, вместо простого вывода на консоль, чтобы не потерять данные.
▫️Уровни логирования (INFO, DEBUG, ERROR).
▫️Как интегрировать логи с ElasticSearch и использовать их в Spring проектах.

https://youtu.be/KHS8hPh8mtU?si=IIBATXhg3KhsOn4u

YouTube

Лучший Гайд по Логированию За 12 Минут

ШПАРГАЛКА ПО ЛОГИРОВАНИЮ УЖЕ ДОСТУПНА В БИБЛИОТЕКЕ JAVA JUNIOR: https://www.faang.school/community?utm_source=youtube_video&utm_medium=organic&utm_campaign=library-java-junior&utm_content=video-65

Вы узнаете, что такое логи, зачем они нужны и как правильно…

👍2

1.93K views06:30

Data Engineering / Инженерия данных / Data Engineer / DWH

Monitor Apache Airflow with Airbyte, Snowflake and Apache Superset

https://youtu.be/x7oRfH4ig54?si=NgUKI9BklYSUbaaM

#Airflow #Airbyte #Superset

YouTube

Mini Data Engineering Project: Monitor Apache Airflow with Airbyte, Snowflake, and Superset

Mini Data Engineering Project: Monitor Apache Airflow with Airbyte, Snowflake, and Superset

Notion Page: https://robust-dinosaur-2ef.notion.site/PUBLIC-Mini-Data-Engineering-Project-Monitoring-Airflow-DAGs-and-Tasks-with-Airbyte-and-Snowflake-1159e45d4d…

👍4

964 views09:30

Data Engineering / Инженерия данных / Data Engineer / DWH

OReillys Data Quality Fundamentals 2022.pdf

9.7 MB

OReillys Data Quality Fundamentals 2022.pdf

📌 Build more trustworthy and reliable data pipelines
📌 Write scripts to make data checks and identify broken pipelines with data observability
📌 Learn how to set and maintain data SLAs, SLIs, and SLOs
📌 Develop and lead data quality initiatives at your company
📌 Learn how to treat data services and systems with the diligence of production software
📌 Automate data lineage graphs across your data ecosystem
📌 Build anomaly detectors for your critical data assets

#DataQuality #SLA #SLI #SLO #DataAssets #DataLineage

👍4

1.02K views12:30

Data Engineering / Инженерия данных / Data Engineer / DWH

Spark_v_deystvii.pdf

14.5 MB

Spark в действии.pdf

О книге👇

Анализ корпоративных данных начинается с чтения, фильтрации и объединения файлов и потоков из многих источников. Механизм обработки данных Spark способен обрабатывать эти разнообразные объемы информации как признанный лидер в этой области, обеспечивая в 100 раз большую скорость, чем например Hadoop. Благодаря поддержке SQL, интуитивно понятному интерфейсу и простому и ясному многоязыковому API вы можете использовать Spark без глубокого изучения новой сложной экосистемы. Эта книга научит вас создавать полноценные и завершенные аналитические приложения. В качестве примера используется полный конвейер обработки данных, поступающих со спутников NASA.

Для чтения этой книги не требуется какой-либо предварительный опыт работы со Spark, Scala или Hadoop.

#spark #scala #hadoop

👍9

2.17K viewsedited 14:43

Data Engineering / Инженерия данных / Data Engineer / DWH

Алгоритмы_и_структуры_для_массивных_наборов_данных_2023_Меджедович.pdf

63.3 MB

Алгоритмы и структуры для массивных наборов данных [2023] Меджедович Дж., Тахирович Э.pdf

Стандартные алгоритмы и структуры при применении к крупным распределенным наборам данных могут становиться медленными — или вообще не работать. Правильный подбор алгоритмов, предназначенных для работы с большими данными, экономит время, повышает точность и снижает стоимость обработки.
Книга знакомит с методами обработки и анализа больших распределенных данных. Насыщенное отраслевыми историями и занимательными иллюстрациями, это удобное руководство позволяет легко понять даже сложные концепции. Вы научитесь применять на реальных примерах такие мощные алгоритмы, как фильтры Блума, набросок count-min, HyperLogLog и LSM-деревья, в своих собственных проектах.

2.25K views07:01

Data Engineering / Инженерия данных / Data Engineer / DWH

GitHub - TheAlgorithms/Python: All Algorithms implemented in Python
https://github.com/TheAlgorithms/Python

GitHub

GitHub - TheAlgorithms/Python: All Algorithms implemented in Python

All Algorithms implemented in Python. Contribute to TheAlgorithms/Python development by creating an account on GitHub.

👍2

926 views07:00

Data Engineering / Инженерия данных / Data Engineer / DWH

Каталог задачек от Яндекса для прокачки скилов (по направлениям)

https://coderun.yandex.ru/catalog

CodeRun

Каталог задач // CodeRun

Заходи в каталог CodeRun и решай задачи по программированию. Прокачивай свои навыки по направлениям: фронтенд, бэкенд, аналитика, ML, мобильная разработка.

👍4🤝1

1.14K views10:01

Data Engineering / Инженерия данных / Data Engineer / DWH

Алгоритмика
https://ru.algorithmica.org/

👍8

1.19K views12:30

Data Engineering / Инженерия данных / Data Engineer / DWH

Problem Solving with Algorithms and Data Structures using Python

https://runestone.academy/ns/books/published/pythonds/index.html

runestone.academy

Problem Solving with Algorithms and Data Structures using Python — Problem Solving with Algorithms and Data Structures

An interactive version of Problem Solving with Algorithms and Data Structures using Python.

🔥1

1.04K views07:00

Data Engineering / Инженерия данных / Data Engineer / DWH

40_algoritmov.pdf

12.5 MB

40 алгоритмов, которые должен знать каждый программист на Python

Автор: Ахмад Имран

Понимание работы алгоритмов и умение применять их для решения прикладных задач – must-have для любого программиста или разработчика. Эта книга поможет вам не только развить навыки использования алгоритмов, но и разобраться в принципах их функционирования, в их логике и математике. Вы начнете с введения в алгоритмы, от поиска и сортировки перейдете к линейному программированию, ранжированию страниц и графам и даже поработаете с алгоритмами машинного обучения. Теории не бывает без практики, поэтому вы займетесь прогнозами погоды, кластеризацией твитов, механизмами рекомендаций фильмов. И, наконец, освоите параллельную обработку, что даст вам возможность решать задачи, требующие большого объема вычислений. Дойдя до конца, вы превратитесь в эксперта по решению реальных вычислительных задач с применением широкого спектра разнообразных алгоритмов.

🔥2

1.36K views07:00

Data Engineering / Инженерия данных / Data Engineer / DWH

Вопросы и ответы для собеседования Back-end/Golang разработчика и не только

Много полезного помимо Golang

https://github.com/goavengers/go-interview

GitHub

GitHub - goavengers/go-interview: :octocat: Вопросы и ответы для собеседования Back-end/Golang разработчика и не только

:octocat: Вопросы и ответы для собеседования Back-end/Golang разработчика и не только - goavengers/go-interview

1.22K views07:30

Data Engineering / Инженерия данных / Data Engineer / DWH

Нормальные формы базы данных (YouTube)

00:00 - О чём пойдёт речь в статье
00:45 - Коротко о реляционных БД
01:20 - Что такое нормализация
01:46 - Зачем нужна нормализация БД
02:08 - Что такое избыточность данных с примерами
04:51 - Какие бывают нормальные формы БД и о процессе нормалиции в целом
08:00 - Ненормализованная форма или нулевая нормальная форма с примером
09:37 - Первая нормальная форма с примером нормализации
11:24 - Вторая нормальная форма с примером нормализации
15:29 - Что такое декомпозиция
16:18 - Третья нормальная форма с примером нормализации
18:54 - Нормальная форма Бойса-Кодда с примером нормализации
21:54 - Четвертая нормальная форма с примером нормализации
27:45 - Почему обычно никто не нормализует БД до 5 или 6 нормальной формы
29:14 - Пятая нормальная форма с примером нормализации
34:23 - Доменно-ключевая нормальная форма
35:39 - Шестая нормальная форма
38:02 - Выводы и заключение

https://youtu.be/zqQxWdTpSIA?si=9WUJIZbQ8Qu7QWjO

YouTube

Нормальные формы баз данных: Объясняем на пальцах

Listen IT на Я.Дзене - https://zen.yandex.ru/listenit

00:00 - О чём пойдёт речь в статье
00:45 - Коротко о реляционных БД
01:20 - Что такое нормализация
01:46 - Зачем нужна нормализация БД
02:08 - Что такое избыточность данных с примерами
04:51 - Какие бывают…

🔥4

2.65K views07:31

Data Engineering / Инженерия данных / Data Engineer / DWH

Оконные функции.pdf

2.6 MB

Небольшая шпаргалка по оконным функциям.
Делал при подготовке к собесам

🔥7❤2

1.68K views07:30

Data Engineering / Инженерия данных / Data Engineer / DWH

Forwarded from дата инженеретта

Подъехала запись и презы с митапа

https://developers.sber.ru/kak-v-sbere/events/data_meetup_october

developers.sber.ru

DATA.Meetup 2024

Митап о технологиях, инструментах и нюансах управления данными больших компаний

👍1

1.06K views07:50

Data Engineering / Инженерия данных / Data Engineer / DWH

Как ускорить высокопараллельные вставки строк в SQL Server за считанные часы: опыт Mindbox

https://habr.com/ru/companies/mindbox/articles/854156/

Хабр

Как ускорить высокопараллельные вставки строк в SQL Server за считанные часы: опыт Mindbox

Привет, Хабр! Меня зовут Тимур Маннапов, и я самый обычный senior-разработчик в Mindbox. На примере нашего продукта я расскажу, почему при загрузке CPU наполовину или меньше скорость параллельных...

👍1

1.15K views07:30

Data Engineering / Инженерия данных / Data Engineer / DWH

The Bitnami Containers Library
Popular applications, provided by Bitnami, containerized and ready to launch.

Здесь можно найти примеры docker compose и других настроек для таких приложений как:
airflow, spark, vault, nginx, minio, clickhouse, kafka и многое другое

https://github.com/bitnami/containers/

GitHub

GitHub - bitnami/containers: Bitnami container images

Bitnami container images. Contribute to bitnami/containers development by creating an account on GitHub.

🔥4

1.51K views07:01

Data Engineering / Инженерия данных / Data Engineer / DWH

Atlas нужен для автоматизации управления схемами баз данных, позволяя легко проектировать, мигрировать и управлять ими с использованием декларативного подхода и гибкого CLI.

Проект
GitHub - ariga/atlas: Manage your database schema as code
https://github.com/ariga/atlas

Habr: Atlas — инструмент управления схемами миграций БД с открытым исходным кодом: наш опыт и ошибки создателей
https://habr.com/en/companies/flant/articles/753122/

GitHub

GitHub - ariga/atlas: Manage your database schema as code

Manage your database schema as code. Contribute to ariga/atlas development by creating an account on GitHub.

👍2

1.08K views07:10

About

Blog

Apps

Platform