#dwh
Еще одно годное сравнение Кимпбаловского и Инмоновского подхода. Ну и в целом ресурс годный, очень много качественного материала про "DWH для чайников"
Еще одно годное сравнение Кимпбаловского и Инмоновского подхода. Ну и в целом ресурс годный, очень много качественного материала про "DWH для чайников"
zentut
Kimball vs. Inmon in Data Warehouse Architecture
We will discuss about the Kimball vs. Inmon in data warehouse architecture and design approach. We also answer the question of how to choose Kimball or Inmon's architecture to build data warehouse.
Тут, кстати, Spark 3.0 вышел! Вот полный release notes, но, самое интересное вот:
P.S внезапно оказалось, что наиболее распространен не оригинальный Scala Spark, а PySpark
adaptive query execution; dynamic partition pruning; ANSI SQL compliance; significant improvements in pandas APIs; new UI for structured streaming; up to 40x speedups for calling R user-defined functions; accelerator-aware scheduler; and SQL reference documentation P.S внезапно оказалось, что наиболее распространен не оригинальный Scala Spark, а PySpark
Forwarded from oleg_log (Oleg Kovalov)
Стырю свой твит, короч.
Хороший пост от Дейва о логировании, вот прям за каждый абзац готов дать +
Правда по поводу ненадобности Warn чуть-чуть бы поспорил, но лень, можно и так жить спокойно.
https://dave.cheney.net/2015/11/05/lets-talk-about-logging
Еще про уровни логирования можно читнуть: WakeMeUpInTheMiddleOfTheNight https://divan.dev/posts/wakemeupinthemiddleofthenight/ (уже не раз на канале упоминал, стоит держать в уме).
Ах да, это все language agnostic, поэтому не думайте, что это только для Go, вещи правда полезные озвучены в этих постах.
Хороший пост от Дейва о логировании, вот прям за каждый абзац готов дать +
Правда по поводу ненадобности Warn чуть-чуть бы поспорил, но лень, можно и так жить спокойно.
https://dave.cheney.net/2015/11/05/lets-talk-about-logging
Еще про уровни логирования можно читнуть: WakeMeUpInTheMiddleOfTheNight https://divan.dev/posts/wakemeupinthemiddleofthenight/ (уже не раз на канале упоминал, стоит держать в уме).
Ах да, это все language agnostic, поэтому не думайте, что это только для Go, вещи правда полезные озвучены в этих постах.
#db
Кстати, @Databases митап от мейла внезапно оказался интересным. Мне больше всего понравился доклад про их S3-велосипед, но и другие доклады были прям ничего
Кстати, @Databases митап от мейла внезапно оказался интересным. Мне больше всего понравился доклад про их S3-велосипед, но и другие доклады были прям ничего
YouTube
Online @Databases Meetup #2
Организаторы @Databases Meetup #2: Mail.ru Cloud Solutions https://mcs.mail.ru/yt и Tarantool. Анонсы в Telegram: https://t.me/k8s_mail Выступить на митапе: https://mcs.mail.ru/speak Программа: https://corp.mail.ru/ru/press/events/databases-2/
Forwarded from DataEng
Всем привет!
Нужна ваша помощь. Я решил в виде Twitter треда собрать список полезных материалов для изучения data engineering: https://twitter.com/adilkhash/status/1274757239488774144
Если вы пользуетесь Twitter, то просьба поставить лайк/сделать ретвит, это поможет распространить этот тред на большее количество людей.
Спасибо!
Нужна ваша помощь. Я решил в виде Twitter треда собрать список полезных материалов для изучения data engineering: https://twitter.com/adilkhash/status/1274757239488774144
Если вы пользуетесь Twitter, то просьба поставить лайк/сделать ретвит, это поможет распространить этот тред на большее количество людей.
Спасибо!
Twitter
Adil 🇰🇿
Wanna dive into Data Engineering? Here is the list of subjects and corresponding resources you can follow. Thread 👇
Интересная история из Dropbox про то как они строили монорепу на Git.
TLDR парням пришлось дождаться новой версии гита, самим поправить баги и в итоге написать свой враппер над гитом и все равно
Кароч очередной привет всем кто считает, что достаточно Bazel поставить
TLDR парням пришлось дождаться новой версии гита, самим поправить баги и в итоге написать свой враппер над гитом и все равно
git status у них подскакивает до 1.5сек. Так же в статье есть ссылка на аналогичный success-story от Микрософт.Кароч очередной привет всем кто считает, что достаточно Bazel поставить
dropbox.tech
Speeding up a Git monorepo at Dropbox with <200 lines of code
Forwarded from Lil Functor
Хорошая статья с чеклистом для ревью кода внутри распределённых систем.
Обращение к сторонним компонентам
- обрабатываются ли все ошибки, прописано ли восстановление после ошибок?
- закрываются ли ресурсы в случае ошибок, откатываются ли изменения состояния?
- есть ли таймаут на обращение к другому компоненту? обрабатывается ли таймаут отдельно от остальных ошибок?
- есть ли ретраи на таймауты?
- ограничивается ли нагрузка при ретраях (экспоненциальные ретраи, circuit breaker)?
- в случае использования batch API, ограничен ли размер батча?
- кешируются ли ответы?
Разработка API
- идемпотентно ли API?
- ограничено ли время ожидания ответа?
- может ли API работать батчами? ограничен ли размер принимаемого батча?
- собираются ли логи/метрики обращений к API?
- какой статус должен получить клиент в случае отказа отдельных этапов обработки запроса?
- не протекают ли доменные модели между частями системы?
Ещё у автора есть пост по дизайн ревью новых компонентов системы: https://www.kislayverma.com/post/design-review-checklist-for-distributed-systems
Обращение к сторонним компонентам
- обрабатываются ли все ошибки, прописано ли восстановление после ошибок?
- закрываются ли ресурсы в случае ошибок, откатываются ли изменения состояния?
- есть ли таймаут на обращение к другому компоненту? обрабатывается ли таймаут отдельно от остальных ошибок?
- есть ли ретраи на таймауты?
- ограничивается ли нагрузка при ретраях (экспоненциальные ретраи, circuit breaker)?
- в случае использования batch API, ограничен ли размер батча?
- кешируются ли ответы?
Разработка API
- идемпотентно ли API?
- ограничено ли время ожидания ответа?
- может ли API работать батчами? ограничен ли размер принимаемого батча?
- собираются ли логи/метрики обращений к API?
- какой статус должен получить клиент в случае отказа отдельных этапов обработки запроса?
- не протекают ли доменные модели между частями системы?
Ещё у автора есть пост по дизайн ревью новых компонентов системы: https://www.kislayverma.com/post/design-review-checklist-for-distributed-systems
Kislay Verma
Code review checklist for distributed systems | Kislay Verma
A basic checklist for reviewing code in a distributed systems environment
Forwarded from HABR FEED + OPENNET
Что нужно знать об архитектуре ClickHouse, чтобы его эффективно использовать. Алексей Зателепин
https://habr.com/ru/post/509540/?utm_source=habrahabr&utm_medium=rss&utm_campaign=509540
Tags: IT-инфраструктура, Open source, Администрирование баз данных, Высокая производительность, Хранение данных, clickhouse
Author chemtech #habr
https://habr.com/ru/post/509540/?utm_source=habrahabr&utm_medium=rss&utm_campaign=509540
Tags: IT-инфраструктура, Open source, Администрирование баз данных, Высокая производительность, Хранение данных, clickhouse
Author chemtech #habr
Хабр
Что нужно знать об архитектуре ClickHouse, чтобы его эффективно использовать. Алексей Зателепин (2018г)
ClickHouse — высокопроизводительная аналитическая база данных с открытыми исходниками, разработанная в Яндексе. Изначально ClickHouse создавался для задач Яндекс.Метрики, но постепенно нашёл...
#security
Elastic заопенсорсили свой набор detection rule'ов. Я тот еще мамкин безопасник, поэтому понятия не имею как это правильно заюзать, но возможно кому-то будет полезно
Elastic заопенсорсили свой набор detection rule'ов. Я тот еще мамкин безопасник, поэтому понятия не имею как это правильно заюзать, но возможно кому-то будет полезно
Elastic Blog
Elastic Security opens public detection rules repo
Elastic Security has opened its detection rules repository to the world. We will develop rules in the open alongside the community, and we’re welcoming your community-driven detections. This is an opp...
#concurrency
Очень интересный лонгрид про уровни concurrency паттернов с миленькими бенчами на разных архитектурах.
Очень полезно(хоть и больно, т.к. код на крестах) будет почитать всем кто не очень понимает в чем отличие по перфомансу spin wait'a от atomic'ов
Очень интересный лонгрид про уровни concurrency паттернов с миленькими бенчами на разных архитектурах.
Очень полезно(хоть и больно, т.к. код на крестах) будет почитать всем кто не очень понимает в чем отличие по перфомансу spin wait'a от atomic'ов
Performance Matters
A Concurrency Cost Hierarchy
Concurrent operations can be grouped relatively neatly into categories based on their cost
тут в твиттере мелькнула интересная мысль: этот ваш софтваре девелопмент отлично ложится на Akin’s Laws of Spacecraft Design(ну или, по-крайней мере, если следовать этим законам, то софт будет получаться сильно лучше)
Все знают про каррирование функций названное в честь Хаскелла Карри, но не многие в курсе, что концепция каррирования была немного раньше(до Карри) уже изобретена Мосесом Шонфинкелем(не уверен, что правильно перевел Schoenfinkel). Так что технически мы с вами функции шонфилькируем)))
Очень годный лонгрид про полиморфизм(особенно если походить по ссылочкам).
Если все еще путаете параметрический и ad-hoc, то вам сюда
Если все еще путаете параметрический и ad-hoc, то вам сюда
Medium
Полиморфизм простыми словами
Скорее всего вы уже встречались с понятием “полиморфизм” и даже помните примеры с наследованием, но они показывают далеко не всё..
#linux
Каким-то чудом не запостил сериал от Петра Зайцева(Percona) про то, как мерять перфоманс подсистем линукса. Как раз вышла новая часть про io
Каким-то чудом не запостил сериал от Петра Зайцева(Percona) про то, как мерять перфоманс подсистем линукса. Как раз вышла новая часть про io
ma.ttias.be
How to measure Linux Performance Avoiding Most Typical Mistakes: CPU
This post is the first in a four-part blog series by Peter Zaitsev, Percona Chief Executive Officer.
Forwarded from CatOps
Статья от Percona с советами по созданию дашбордов
В названии фигурирует Grafana, но советы на самом деле общее. Кому-то они могут показаться капитанскими, но я повидал слишком много непонятных, бесполезных и перегруженных дашбордов. Потому считаю необходимым запостить.
#observability
В названии фигурирует Grafana, но советы на самом деле общее. Кому-то они могут показаться капитанскими, но я повидал слишком много непонятных, бесполезных и перегруженных дашбордов. Потому считаю необходимым запостить.
#observability
Percona Database Performance Blog
Tips for Designing Grafana Dashboards
Peter Zaitsev share some of his considerations for designing Grafana Dashboards which will allow you to create better dashboards.
Forwarded from dd if=/dev/stuff of=/dev/tg
Пейперы, поданные на ICFP 2020:
https://github.com/llelf/icfp2020-papers
https://github.com/llelf/icfp2020-papers
GitHub
GitHub - llelf/icfp2020-papers: ICFP 2020 papers. Crowd-sourced
ICFP 2020 papers. Crowd-sourced. Contribute to llelf/icfp2020-papers development by creating an account on GitHub.
I hate overtime
#data Шикарный лонгрид с обзорами и сравнением DWH и DataLake Одна картинка чего стоит, хех. Кмк, это самое емкое определение data governance