Инжиниринг Данных
21.4K subscribers
1.6K photos
38 videos
177 files
2.91K links
Делюсь новостями из мира аналитики и карьерными советами;)

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG, solo entrepreneur🏄‍♂️

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Если у вас есть много времени и вы хотите разобраться в построение распределенных системе, то вы можете ознакомится с лекциями MIT. -> MIT 6.824: Distributed Systems (Spring 2020)
Мне нравятся параллели с прошлым. Многое из того, что используем сейчас было сделано давно, но только сейчас становиться популярным. Ссылка: https://thenewstack.io/apache-iceberg-a-different-table-design-for-big-data/

Кто-то работал с Iceberg?
А это CEO Snowflake на обложке Forbes. Я про него читал, он иммигрант из Нидерландов. Он такой, настоящий ковбой, знает, что хочет и добивается. Явно полная противоположность Сатии CEO Microsoft. Я читал, что до Snowflake он уже был на пенсии, тусил с семьей на яхте, и согласился возглавить снежинку, и теперь миллиардер. Я кстати тоже 1000$ заработал на росте акции, с момента IPO.

https://www.forbes.com/sites/alexkonrad/2021/02/01/the-outsider/
Еще один python инструмент для ETL и pipelines, выпустил обновление под кодовым названием "The Edge of Glory.” https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory
Dropbox рассказывает почему выбрали Apache Superset. Я то знаю наперед, у них много программистов, которые могут внедрять такое решение, модифицировать и поддерживать его. А то скучно будет. В статье также сравнительная таблица нескольких BI инструментов и критерии отбора, можно использовать:
-Superset
-Redash
-Mode
-Periscope

Я бы купил табло всем и не парился🤪 Но ребята любят Open Source
Прислали копию книг Azure Data Factory. 4 автора включая меня это наши ребята и один из technical reviewer, тоже наш человек. Кстати Павел ещё курирует модуль 4 про ETL и сейчас готовит видео по Pentaho DI, где покажет как делать базовые вещи в ETL/DW.
Каждый день я изучаю databricks и прохожу тренинги по нему. И по-моему не зря. Он получил еще млрд инвестиций от Salesforce, AWS и других. Так как я изучаю продукт в Azure, то там вообще всех запутали. Вы можете использовать Synapse Analytics (DW) от Azure, и к нему опционально использовать databricks или писать запросы к Delta таблицам в databricks. А можете использовать только databricks и строить Delta Lake. Но в Azure про это совсем не четко написано, как будто их задача, чтобы вы использовали Synapse + Databricks, да и только.

Сам продукт состоит из 2х основных компонентов:
- worspace - это notebooks, где мы пишем код, трансформации
- sql Analytics - это BI слой на основе Redash, который купили ранее

Пока больше вопросов, чем ответов. Я понимаю как сделать все решение на Synapse Analytics (DW) + Power BI, так как это классика. А еще бы легче на Snowflake. А вот, если я хочу только databricks, то уже есть вопросы, про ETL, BI и тп. Будем разбираться. Хотелось бы найти людей, кто прошел этот путь.
#datalearn именно за такими success stories я охочусь и мы все в сообществе data learn создаем их каждый день своим трудом и целеустремленностью. Мне нравиться доказывать, что обходными путями можно добиться куда больше, чем просто в лоб как все. Что не надо платить кучу денег за посредственные курсы, когда все бесплатно. И главное, что когда мы помогаем кому-то, то этот человек будет так же помогать другим, своим пример мы можем немножко менять судьбы людей, это дает сил🚀
Интересно как повлияет уход Безоса с поста CEO на компанию и на стоимость акций Амазон, которые выросли в 5 раз за 5 лет.

Вовремя я ушел, без Безоса Амазон, не Амазон для меня.
Отличный message про сертификацию и доп курсы. Если нет сертификата это не так уж и плохо, на то могут быть причины. Но если есть, то это показывает ваш интерес к теме изучения предмета. Я всегда на собеседования в Амазон спрашивал про онлайн курсы типа Coursera, edx. Мне не важны были сертификации, но сам процесс изучения предмета говорит о многом.

Возвращаясь к нашей реальности, если у нас уже все ок с работой и опытом и мы не в консалтинге, где нужен прув экзамена, то и фиг с ним. А вот джунам, которые выдают себя за мидл😜, сертификат добавит веса, будет легче придерживаться своей красивой истории про большой опыт.
Порция постов для оголодавших гиков и прочих причастных к Big Data, ML и Python разработке:
Speaking of Spark Mllib
Modern Big Data architectures
Testing and validation in ML

Если вам интересно то и то, то вы можете подписаться на канал

PS автор поста закинул денежку vsevsevmeste.ru🤗
Вот и подошла к концу самая эпичная битва зимы!

Финал чемпионата для дата-сайентистов Alfa Battle 2.0.
Присоединяйтесь на утренний кофе с победителями и всеми причастными к громкому событию в it-индустрии 💥

Мы собрали для вас содержательный и яркий видеоподкаст:
- Победители поведали секреты эффективного подхода к решению задач чемпионата
- Организаторы поделились инсайтами “Как создавать задачи со звездочками”
- Жюри выбрало лучшие открытые решения
- Раскрыли карты “Как попасть на стажировку в компании Альфа-Групп”

📍Ссылка на трансляцию - https://www.youtube.com/watch?v=A7ha6mRUnhc

Заваривайте свой любимый напиток и готовьтесь погрузиться в самое технологичное утро февраля ☕️

PS тоже поддержали vsevsevmeste.ru😋
Хорошо нарисовали, что во что можно конвертировать в power query