Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
6000x быстрее вашего DW? Ну а чего мелочиться-то!!! А так можно было? Обычно 2-3x, ну или если не скромно, то 10-15х.
Возможно еще можно успеть по коду получить доступ к preview новой книге про Data Mesh. https://twitter.com/zhamakd/status/1426660127914958848?s=20

Лично я не ххочу тратить время на datamesh, для себя считаю бесполезной и скучной штукой. Но это я, я не люблю огромные команды, где куча процессово и бюррокартии, мне нужно место, чтобы строить и иметь полный контроль.
Клабхаус (извините) открыл регистрацию для всех, без инвайтов.

Но дело его живет!
Если вы думаете, что оценка snowflake в $70B при выходе на IPO это верх хайпа в мире баз данных, то нет, появился еще претендент.

Знаете, есть такие коктейльные бары, в которые пускают только тех, кто в теме. Такие бары называются speakeasy. Со времен сухого закона в США, когда бары располагались за секретной дверью в глубине парикмахерской.
В Москве есть бар "Чайная", который находится в подвале в одной из подворотен около Белорусского вокзала.
В Куала-Лумпуре вход в такой бар был стилизован под электрическую подстанцию.

Так вот, теперь есть speakeasy клауд база данных!

firebolt.io

Зарегаться в ней можно, только если докажешь, что тебе очень надо!
Да, именно. Вы должны доказать, что вам надо. Не наоборот.

Нужно созвониться с сейлзами, восхитить их длинной своих пайплайнов и размером хранилища.
Мне, например, не удалось. Меня послали в конец очереди ждать паблик релиз в конце этого года.

Но все это не помешало компании с двухлетней историей поднять $164m инвестиций.

О, этот "а чо, так можно было?" moment.

Единственное что я понял, там бай дизайн есть несколько разных движков под разные нагрузки, которые можно выбирать в зависимости от того, что вы ходите сделать.
Так же в демке я заметил очень прикольные штуки:

CREATE AGGREGATE INDEX agg_ind ON fact_round (
game_code,
player_code,
count(distinct round_id),
sum(credit),
...
)
и

CREATE JOIN INDEX join_games_ind ON dim_games (
game_code, -- join column
game_studio, -- dim column
game_currency -- dim column
)

Похоже действительно пришло время подумать о своей базе данных...
Современные дата стартапы навеяли идею дропшипинга. Берём условно snowflake или bigquery, делаем красивый front end, и продаем как новую бд по записи. Data warehouse as service. Что под капотом уже не так важно. Главное продать. А там можно и инвестиций поднять🤑
Hive Metastore уже затерли до дыр. Изначально он создавался как SQL движок для Hadoop, чтобы не писать сложный Map Reduce Job на Java. Эта часть называется Query Engine. Его другая полезная часть - Metastore - репозиторий (или абстракция в виде базы данных над данными-файлами).

Да что я вам рассказываю, вот же статья - Hive Metastore – Why It’s Still Here and What Can Replace It?

PS я его использовал в AWS Athena, AWS Glue, AWS Redshift Spectrum, AWS Elastic Map Reduce, Azure HDInsight, Azure Synapse и теперь использую в Azure Databricks. Получается это самый важный элемент big data экосистемы (вы тоже его попробуете в модулях 6-8)
Никто не читал? https://nostarch.com/missing-readme Может есть уже pdf?)
Не забудьте в чатиках засветиться! Сами понимаете какое сейчас время - биг дата не спит!
Еще кто-то из дата поднял денюшку! Я не слышал про MonteCarlo data tool. Был там разок проездом на поезде из Фрнацию в Италию. Знаю еще есть метод Монте карло для оценки рисков, можно даже в Excel использовать.

As first defined by the team here at Monte Carlo, Data Observability leverages the best practices and principles of automatic application observability (think: Datadog or AppDynamics) and applies them to data pipelines, giving data engineers and analysts visibility across all data pipelines and data products. Simultaneously, Monte Carlo’s machine learning-powered platform provides data leaders and other data stakeholders with a holistic view of their company’s data health and reliability for critical business use cases.
Apache Hudi - The Data Lake Platform - отличная документия по open source решению для Lake house.

Всего 3 решения доступны для вашего data lake:
- Apache Hudi by Uber Engineering
- Apache Iceberg by Netflix
- Delta Lake by Spark developers

Я использую delta lake в Databricks, вроде ничего так, работает. А вы как?
Preset - коммерческий продукт Apache Superset (open source BI), теперь доступен беслатно до 5 пользователей. Раньше такое было у Mode (SQL BI облачный продукт).

Почему они так делают, себе в убыток? А все просто, это такая бизнес модель, дать бесплатно что-то, чтобы потом заработать. Их statement "The Future of Business Intelligence is Open Source" - не новый, открытое ПО было всегда и дальше будет. В них вложили уже 12.5млн $. Врят ли инвесторы захотели потратить деньги, чтобы мы могли бесплатно кривые pie chart строить🦧 И еще бабло спускать на дорогих инженеров, чтобы нам это pie chart напрограммировать. Лучше в 3D!😇
У Tableau есть Iron Viz контест, где самые креативные пользователи могу построить визуализацию по заданному датасету, как правило там best of the best. Вот ТОП 10 в 2021 году The results for the 2021 Iron Viz Qualifier Contest are in https://www.tableau.com/about/blog/2021/8/data-joy-iron-viz-qualifier-contest-results-2021
А вы все еще используюте палитру светофора, где
- ПЛОХО
- ХОРОШО

А зря! И вот почему Friends Don’t Let Friends Use Stoplight Color Schemes

Кстати у нее на сайте много интересного материала! Как она говорит про себя - "Сотрудники белого дома при Обаме были в восторге от нее!"

PS c 3D pie chart можно!
Квантум рынок тоже не стоит на месте. На графике инвестиции в quantum startups. Я заметил, что некоторые connections на linkedin (кто занимался аналитикой) инвестируют время в изучение квантум, например на курсах от IBM. https://www.theinformation.com/articles/quantum-computing-startups-draw-record-investment

Я совершенно про них не знаю, но будет интересно, если в будущем аналитика будет использовать квантовые вычисления
https://www.ibm.com/quantum-computing/what-is-quantum-computing/
Секрет богатства найден)) в Северной Америке с этим проблем нет, главное было бы желание тратить все время на работу, и как говориться в статье "каждый paycheck мотивирует продолжать". Так что удачи вам и желаю вам больших зарплат! И больше не надо ныть менеджеру про повышение на 10-15%, просто находим 2ю работу и получаем + 100%.🤗
Недавно посетила мысль про онлайн обучение. Конечно же в теме курсы по data analytics, data science, big data и data engineering. Причем не важно в РФ или на Западе, но часто получается одна и таже ситуация.

Такие компании как Skillbox, SkillFactory, ОТУС, Нетология, Geek brains и другие очень хорошо умеют продавать. У них есть сильная команда по UI/UX, чтобы нарисовать классные landing , картинки, диаграмммы, сертификаты.

Все что пожелаете - будет сиять и блистеть, то есть выглядеть очень привлекательно.

У них есть команда front-end инженеров, которая готова построить функциональный сайт.

Есть хорошие переводчики, которые возьмут топовую статья на английском, переведут ее на русский и добавят в личный блог на хабр.

Есть группы в социальных сетях и могут быть телеграм каналы. Ну и конечно же есть классная маркетинговая команда (машина), которая генерит идеи и загоняет студентов в воронку.

Отдельно стоить упомянуть про специалистов по продаже. Я уверен они профессионалы и знают как продавать. И они это делают, причем очень успешно, согласно отчетам по доходам.

Но в конце воронке у нас есть курс по "<тема курса>", который создается одним (или несколькими людьми). И мне кажется это самое слабое звено в этой цепи. С одной стороны у нас большая команда, которая "нагоняет траффик" за счет обещаний лучшей жизни, причем они не хотят никого обманывать, они реально хотят продать хороший курс или хотят его таковым считать, а с другой сторону у нас инструктор, у которого и так хватает хлопот (дом, работа, семья, собеседования) и ему платят за создание курса копейки.

И получается, что часто курсы не соответствуют ожиданиям, студенты не довольны, просят вернуть обратно деньги, репутация школы страдает. Кстати, страдает ли репутация инструктора? Обычно нет, даже наоборот, строчка в резюме и доп знакомства, но по факту окажется, что это никак не монетизируется.

Поэтому я считаю, что в дорогих курсах и школах, которые их продают, самое слабое звено это сам курс, потому что, его надо сделать за сжатые сроки и за маленькое вознаграждение.

Один из вариантов решения проблемы на раннем этапе, это проводить бета тестирование курса, то есть просить людей из индустрии проходить курс по мере поступления контента (за дорого, реально платить по часам, за то, чтобы какой-нибуль топовый эсперт прошел курс). Получать фидбек (покупать фидбек и критику) и улучшать курс.

А какие вам видятся проблемы в курсах и школах по аналитике?
Как готовиться к собеседованиям? О чём там вообще спрашивают? Какие темы могут затронуть?
Ребята из канала https://t.me/start_ds собирают полезные материалы для подготовки: статьи, обзоры, видео-примеры собеседований, сборники вопросов.
Пригодится как начинающим карьеру, так и опытным специалистам (пробежаться по базовым понятиям перед интервью)

PS Автор канала проведет для нас интересный вебинар в будущем про профессию data scientist и про свой путь и опыт! 🙏