How Uber Manages Petabytes of Real-Time Data (en)
В статье описывается, как Uber эффективно обрабатывает телеметрию с миллионов устройств, используя Apache Kafka и Flink для потоковой обработки, и как она поддерживает низкие задержки при высоких объемах данных.
Отдельно описан механизм репликации данных.
https://blog.bytebytego.com/p/how-uber-manages-petabytes-of-real
В статье описывается, как Uber эффективно обрабатывает телеметрию с миллионов устройств, используя Apache Kafka и Flink для потоковой обработки, и как она поддерживает низкие задержки при высоких объемах данных.
Отдельно описан механизм репликации данных.
https://blog.bytebytego.com/p/how-uber-manages-petabytes-of-real
Bytebytego
How Uber Manages Petabytes of Real-Time Data
Stop renting auth.
Гайд по логированию за 12 минут
▫️Вы узнаете, что такое логи, зачем они нужны и как правильно их использовать.
▫️Как настроить логи с помощью библиотек, вместо простого вывода на консоль, чтобы не потерять данные.
▫️Уровни логирования (INFO, DEBUG, ERROR).
▫️Как интегрировать логи с ElasticSearch и использовать их в Spring проектах.
https://youtu.be/KHS8hPh8mtU?si=IIBATXhg3KhsOn4u
▫️Вы узнаете, что такое логи, зачем они нужны и как правильно их использовать.
▫️Как настроить логи с помощью библиотек, вместо простого вывода на консоль, чтобы не потерять данные.
▫️Уровни логирования (INFO, DEBUG, ERROR).
▫️Как интегрировать логи с ElasticSearch и использовать их в Spring проектах.
https://youtu.be/KHS8hPh8mtU?si=IIBATXhg3KhsOn4u
YouTube
Лучший Гайд по Логированию За 12 Минут
ШПАРГАЛКА ПО ЛОГИРОВАНИЮ УЖЕ ДОСТУПНА В БИБЛИОТЕКЕ JAVA JUNIOR: https://www.faang.school/community?utm_source=youtube_video&utm_medium=organic&utm_campaign=library-java-junior&utm_content=video-65
Вы узнаете, что такое логи, зачем они нужны и как правильно…
Вы узнаете, что такое логи, зачем они нужны и как правильно…
👍2
Monitor Apache Airflow with Airbyte, Snowflake and Apache Superset
https://youtu.be/x7oRfH4ig54?si=NgUKI9BklYSUbaaM
#Airflow #Airbyte #Superset
https://youtu.be/x7oRfH4ig54?si=NgUKI9BklYSUbaaM
#Airflow #Airbyte #Superset
YouTube
Mini Data Engineering Project: Monitor Apache Airflow with Airbyte, Snowflake, and Superset
Mini Data Engineering Project: Monitor Apache Airflow with Airbyte, Snowflake, and Superset
Notion Page: https://robust-dinosaur-2ef.notion.site/PUBLIC-Mini-Data-Engineering-Project-Monitoring-Airflow-DAGs-and-Tasks-with-Airbyte-and-Snowflake-1159e45d4d…
Notion Page: https://robust-dinosaur-2ef.notion.site/PUBLIC-Mini-Data-Engineering-Project-Monitoring-Airflow-DAGs-and-Tasks-with-Airbyte-and-Snowflake-1159e45d4d…
👍4
OReillys Data Quality Fundamentals 2022.pdf
9.7 MB
OReillys Data Quality Fundamentals 2022.pdf
📌 Build more trustworthy and reliable data pipelines
📌 Write scripts to make data checks and identify broken pipelines with data observability
📌 Learn how to set and maintain data SLAs, SLIs, and SLOs
📌 Develop and lead data quality initiatives at your company
📌 Learn how to treat data services and systems with the diligence of production software
📌 Automate data lineage graphs across your data ecosystem
📌 Build anomaly detectors for your critical data assets
#DataQuality #SLA #SLI #SLO #DataAssets #DataLineage
📌 Build more trustworthy and reliable data pipelines
📌 Write scripts to make data checks and identify broken pipelines with data observability
📌 Learn how to set and maintain data SLAs, SLIs, and SLOs
📌 Develop and lead data quality initiatives at your company
📌 Learn how to treat data services and systems with the diligence of production software
📌 Automate data lineage graphs across your data ecosystem
📌 Build anomaly detectors for your critical data assets
#DataQuality #SLA #SLI #SLO #DataAssets #DataLineage
👍4
Spark_v_deystvii.pdf
14.5 MB
Spark в действии.pdf
О книге👇
Анализ корпоративных данных начинается с чтения, фильтрации и объединения файлов и потоков из многих источников. Механизм обработки данных Spark способен обрабатывать эти разнообразные объемы информации как признанный лидер в этой области, обеспечивая в 100 раз большую скорость, чем например Hadoop. Благодаря поддержке SQL, интуитивно понятному интерфейсу и простому и ясному многоязыковому API вы можете использовать Spark без глубокого изучения новой сложной экосистемы. Эта книга научит вас создавать полноценные и завершенные аналитические приложения. В качестве примера используется полный конвейер обработки данных, поступающих со спутников NASA.
Для чтения этой книги не требуется какой-либо предварительный опыт работы со Spark, Scala или Hadoop.
#spark #scala #hadoop
О книге👇
Анализ корпоративных данных начинается с чтения, фильтрации и объединения файлов и потоков из многих источников. Механизм обработки данных Spark способен обрабатывать эти разнообразные объемы информации как признанный лидер в этой области, обеспечивая в 100 раз большую скорость, чем например Hadoop. Благодаря поддержке SQL, интуитивно понятному интерфейсу и простому и ясному многоязыковому API вы можете использовать Spark без глубокого изучения новой сложной экосистемы. Эта книга научит вас создавать полноценные и завершенные аналитические приложения. В качестве примера используется полный конвейер обработки данных, поступающих со спутников NASA.
Для чтения этой книги не требуется какой-либо предварительный опыт работы со Spark, Scala или Hadoop.
#spark #scala #hadoop
👍9
Алгоритмы_и_структуры_для_массивных_наборов_данных_2023_Меджедович.pdf
63.3 MB
Алгоритмы и структуры для массивных наборов данных [2023] Меджедович Дж., Тахирович Э.pdf
Стандартные алгоритмы и структуры при применении к крупным распределенным наборам данных могут становиться медленными — или вообще не работать. Правильный подбор алгоритмов, предназначенных для работы с большими данными, экономит время, повышает точность и снижает стоимость обработки.
Книга знакомит с методами обработки и анализа больших распределенных данных. Насыщенное отраслевыми историями и занимательными иллюстрациями, это удобное руководство позволяет легко понять даже сложные концепции. Вы научитесь применять на реальных примерах такие мощные алгоритмы, как фильтры Блума, набросок count-min, HyperLogLog и LSM-деревья, в своих собственных проектах.
Стандартные алгоритмы и структуры при применении к крупным распределенным наборам данных могут становиться медленными — или вообще не работать. Правильный подбор алгоритмов, предназначенных для работы с большими данными, экономит время, повышает точность и снижает стоимость обработки.
Книга знакомит с методами обработки и анализа больших распределенных данных. Насыщенное отраслевыми историями и занимательными иллюстрациями, это удобное руководство позволяет легко понять даже сложные концепции. Вы научитесь применять на реальных примерах такие мощные алгоритмы, как фильтры Блума, набросок count-min, HyperLogLog и LSM-деревья, в своих собственных проектах.
GitHub - TheAlgorithms/Python: All Algorithms implemented in Python
https://github.com/TheAlgorithms/Python
https://github.com/TheAlgorithms/Python
GitHub
GitHub - TheAlgorithms/Python: All Algorithms implemented in Python
All Algorithms implemented in Python. Contribute to TheAlgorithms/Python development by creating an account on GitHub.
👍2
Problem Solving with Algorithms and Data Structures using Python
https://runestone.academy/ns/books/published/pythonds/index.html
https://runestone.academy/ns/books/published/pythonds/index.html
runestone.academy
Problem Solving with Algorithms and Data Structures using Python — Problem Solving with Algorithms and Data Structures
An interactive version of Problem Solving with Algorithms and Data Structures using Python.
🔥1
40_algoritmov.pdf
12.5 MB
40 алгоритмов, которые должен знать каждый программист на Python
Автор: Ахмад Имран
Понимание работы алгоритмов и умение применять их для решения прикладных задач – must-have для любого программиста или разработчика. Эта книга поможет вам не только развить навыки использования алгоритмов, но и разобраться в принципах их функционирования, в их логике и математике. Вы начнете с введения в алгоритмы, от поиска и сортировки перейдете к линейному программированию, ранжированию страниц и графам и даже поработаете с алгоритмами машинного обучения. Теории не бывает без практики, поэтому вы займетесь прогнозами погоды, кластеризацией твитов, механизмами рекомендаций фильмов. И, наконец, освоите параллельную обработку, что даст вам возможность решать задачи, требующие большого объема вычислений. Дойдя до конца, вы превратитесь в эксперта по решению реальных вычислительных задач с применением широкого спектра разнообразных алгоритмов.
Автор: Ахмад Имран
Понимание работы алгоритмов и умение применять их для решения прикладных задач – must-have для любого программиста или разработчика. Эта книга поможет вам не только развить навыки использования алгоритмов, но и разобраться в принципах их функционирования, в их логике и математике. Вы начнете с введения в алгоритмы, от поиска и сортировки перейдете к линейному программированию, ранжированию страниц и графам и даже поработаете с алгоритмами машинного обучения. Теории не бывает без практики, поэтому вы займетесь прогнозами погоды, кластеризацией твитов, механизмами рекомендаций фильмов. И, наконец, освоите параллельную обработку, что даст вам возможность решать задачи, требующие большого объема вычислений. Дойдя до конца, вы превратитесь в эксперта по решению реальных вычислительных задач с применением широкого спектра разнообразных алгоритмов.
🔥2
Вопросы и ответы для собеседования Back-end/Golang разработчика и не только
Много полезного помимо Golang
https://github.com/goavengers/go-interview
Много полезного помимо Golang
https://github.com/goavengers/go-interview
GitHub
GitHub - goavengers/go-interview: :octocat: Вопросы и ответы для собеседования Back-end/Golang разработчика и не только
:octocat: Вопросы и ответы для собеседования Back-end/Golang разработчика и не только - goavengers/go-interview
Нормальные формы базы данных (YouTube)
00:00 - О чём пойдёт речь в статье
00:45 - Коротко о реляционных БД
01:20 - Что такое нормализация
01:46 - Зачем нужна нормализация БД
02:08 - Что такое избыточность данных с примерами
04:51 - Какие бывают нормальные формы БД и о процессе нормалиции в целом
08:00 - Ненормализованная форма или нулевая нормальная форма с примером
09:37 - Первая нормальная форма с примером нормализации
11:24 - Вторая нормальная форма с примером нормализации
15:29 - Что такое декомпозиция
16:18 - Третья нормальная форма с примером нормализации
18:54 - Нормальная форма Бойса-Кодда с примером нормализации
21:54 - Четвертая нормальная форма с примером нормализации
27:45 - Почему обычно никто не нормализует БД до 5 или 6 нормальной формы
29:14 - Пятая нормальная форма с примером нормализации
34:23 - Доменно-ключевая нормальная форма
35:39 - Шестая нормальная форма
38:02 - Выводы и заключение
https://youtu.be/zqQxWdTpSIA?si=9WUJIZbQ8Qu7QWjO
00:00 - О чём пойдёт речь в статье
00:45 - Коротко о реляционных БД
01:20 - Что такое нормализация
01:46 - Зачем нужна нормализация БД
02:08 - Что такое избыточность данных с примерами
04:51 - Какие бывают нормальные формы БД и о процессе нормалиции в целом
08:00 - Ненормализованная форма или нулевая нормальная форма с примером
09:37 - Первая нормальная форма с примером нормализации
11:24 - Вторая нормальная форма с примером нормализации
15:29 - Что такое декомпозиция
16:18 - Третья нормальная форма с примером нормализации
18:54 - Нормальная форма Бойса-Кодда с примером нормализации
21:54 - Четвертая нормальная форма с примером нормализации
27:45 - Почему обычно никто не нормализует БД до 5 или 6 нормальной формы
29:14 - Пятая нормальная форма с примером нормализации
34:23 - Доменно-ключевая нормальная форма
35:39 - Шестая нормальная форма
38:02 - Выводы и заключение
https://youtu.be/zqQxWdTpSIA?si=9WUJIZbQ8Qu7QWjO
YouTube
Нормальные формы баз данных: Объясняем на пальцах
Listen IT на Я.Дзене - https://zen.yandex.ru/listenit
00:00 - О чём пойдёт речь в статье
00:45 - Коротко о реляционных БД
01:20 - Что такое нормализация
01:46 - Зачем нужна нормализация БД
02:08 - Что такое избыточность данных с примерами
04:51 - Какие бывают…
00:00 - О чём пойдёт речь в статье
00:45 - Коротко о реляционных БД
01:20 - Что такое нормализация
01:46 - Зачем нужна нормализация БД
02:08 - Что такое избыточность данных с примерами
04:51 - Какие бывают…
🔥4
Оконные функции.pdf
2.6 MB
Небольшая шпаргалка по оконным функциям.
Делал при подготовке к собесам
Делал при подготовке к собесам
🔥7❤2
Как ускорить высокопараллельные вставки строк в SQL Server за считанные часы: опыт Mindbox
https://habr.com/ru/companies/mindbox/articles/854156/
https://habr.com/ru/companies/mindbox/articles/854156/
Хабр
Как ускорить высокопараллельные вставки строк в SQL Server за считанные часы: опыт Mindbox
Привет, Хабр! Меня зовут Тимур Маннапов, и я самый обычный senior-разработчик в Mindbox. На примере нашего продукта я расскажу, почему при загрузке CPU наполовину или меньше скорость параллельных...
👍1
The Bitnami Containers Library
Popular applications, provided by Bitnami, containerized and ready to launch.
Здесь можно найти примеры docker compose и других настроек для таких приложений как:
airflow, spark, vault, nginx, minio, clickhouse, kafka и многое другое
https://github.com/bitnami/containers/
Popular applications, provided by Bitnami, containerized and ready to launch.
Здесь можно найти примеры docker compose и других настроек для таких приложений как:
airflow, spark, vault, nginx, minio, clickhouse, kafka и многое другое
https://github.com/bitnami/containers/
GitHub
GitHub - bitnami/containers: Bitnami container images
Bitnami container images. Contribute to bitnami/containers development by creating an account on GitHub.
🔥4
Atlas нужен для автоматизации управления схемами баз данных, позволяя легко проектировать, мигрировать и управлять ими с использованием декларативного подхода и гибкого CLI.
Проект
GitHub - ariga/atlas: Manage your database schema as code
https://github.com/ariga/atlas
Habr: Atlas — инструмент управления схемами миграций БД с открытым исходным кодом: наш опыт и ошибки создателей
https://habr.com/en/companies/flant/articles/753122/
Проект
GitHub - ariga/atlas: Manage your database schema as code
https://github.com/ariga/atlas
Habr: Atlas — инструмент управления схемами миграций БД с открытым исходным кодом: наш опыт и ошибки создателей
https://habr.com/en/companies/flant/articles/753122/
GitHub
GitHub - ariga/atlas: Manage your database schema as code
Manage your database schema as code. Contribute to ariga/atlas development by creating an account on GitHub.
👍2
SQL_Server_Наладка_и_оптимизация_для_профессионалов_2023.pdf
10.3 MB
Книга "SQL Server. Наладка и оптимизация для профессионалов. — СПб.: Питер, 2023.pdf"
+ доп.материалы:
Статья "Hands-On with Columnstore Indexes" в 4х частях:
Part 1 Architecture
Part 2 Best Practices and Guidelines
Part 3 Maintenance and Additional Options
Part 4 Query Patterns
+ доп.материалы:
Статья "Hands-On with Columnstore Indexes" в 4х частях:
Part 1 Architecture
Part 2 Best Practices and Guidelines
Part 3 Maintenance and Additional Options
Part 4 Query Patterns