Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Итоги 2021 года:
Данные взяты не за все время, а только за 2021 год
Общая статистика:
SQL - Анатолий Балакирев:
• 37 видео
• Всего просмотров: 26479
• Часов просмотра: 2699

Вебинары - ведущий Роман Пономарев:
• 28 видео
• Всего просмотров: 38697
• Часов просмотра: 7016

Курс DE 101 - Дмитрий Аношин:
• 23 видео
• Всего просмотров: 19535
• Часов просмотра: 2161

Курс Getting started with Machine Learning and Data Science - Анастасия Риццо:
• 10 видео
• Всего просмотров: 9722
• Часов просмотра: 827

Анастасия Дробышева:
• 6 видео
• Всего просмотров: 3108
• Часов просмотра: 164

women in data community - Яна Конн, Яна Одинцова:
• 5 видео
• Всего просмотров: 1831
• Часов просмотра: 145

Pentaho - Павел Новичков:
• 2 видео
• Всего просмотров: 3569
• Часов просмотра: 420

Гости-спикеры наших вебинаров 2021 года
(список писал с последовательности выступлений сначала года):
• Владимир Лагутинский
• Денис Волк
• Аноним
• Павел Новичков
• Николай Голов
• Артемий Козырь
• Misha Britan
• Александр Гончар
• Алена дробышевская
• Дмитрий Павлов
• Павел Дубин
• Ксения Певзнер
• Штанова Евгения
• Viktor Kessler
• Владимир Калмыков
• Андрей Менде
• Иван Трусов
• Евгения Ребрикова
• Роман Зыков
• Денис Соловьев
• Виктория Олейник
• Олег Агапов
• Роман Васильев
• Эмиль Богомолов
• Дмитрий Браженко
• Анна Абрамова
• Gor Hayrapetyan
• Дмитрий Павлов
• Ришат Мингазов

❤️ Мы выражаем благодарность каждому спикеру, кто внес свой вклад в образовательное сообщество DataLearn.
Хотел написать, что очень рад, что к нам пришли много спикеров из очень крупных в том числе международных компаний, но потом вспомнил, что в 2020 году было также, и планка на максимуме задана с самого старта :)
Также напоминаю, что если у вас есть, чем поделиться с миром, то пишите и будем ждать вас на вебинаре.❤️

Еще немного достижений:
🔱 Запустили женское сообщество: women-in-data-community
🔱 Запустили очень крутой курс по sql для начинающих
🔱 Запустили очень крутой курс по Machine Learning and Data Science
🔱 Также на данный момент у нас в слаке 4823 человека (за год выросли примерно в 2 раза). Слак разбит на множество тематических каналов, так что общайтесь, помогайте и делитесь знаниями.
Чтобы попасть в слак нужно зарегаться на курс на сайте datalearn.ru. Курс полностью бесплатный.
🔱 Также есть чат по инжинирингу данных в тг, там уже 500+.

Идея DataLearn изначально была как образовательное сообщество и для нас огромной мотивацией служит несколько вещей:
• Когда новички приходят, учатся и устраиваются на работу в течение нескольких месяцев, а таких случаев уже больше десятка.
• Когда своими знаниями хотят поделится опытные специалисты
• Когда люди помогают друг другу в обучении
• Когда новые ученики осознают, что у нас не просто курс, а комьюнити и после того как получили знания остаются на связи и проявляют активность
Что мы терпеть не может так это то что у нас бывают грамматические ошибки, иногда плохой звук и люди уже начинают кидать претензии. что картинка не кинематографическая)))) Мы об этом все знаем не переживайте, но делаем все настолько насколько хватает сил и средств и свободного времени))

Хотелось бы еще рассказать о планах на 2022 год, но о них мы поговорим в другом посте :)

Всех обнимаем, с Наступившим Новым Годом и больших успехов в новом году :)🥳🥳🥳🥳
🎉3👍2
Speak English Like An American.pdf
4.3 MB
Моя самая любимая книга для изучения английского языка, чтобы уж точно за своего сойти))
Мне нравится использовать новые технологии и подходы, так интересней и всегда есть аспект изучения новых вещей и решение новых проблем.

Сегодня увидел интересную мысль про преимущества использования старых проверенных технологий:

The problem with new technology is that it’s less mature. In his presentation “Choose Boring Technology,” Dan McKinley points out, “Failure modes of boring technology are well understood” (http://boringtechnology.club/). All technology is going to break, but old stuff breaks in predictable ways. New things break in surprising ways. Lack of maturity means smaller communities, less stability, less documentation, and less compatibility. New technologies have fewer Stack Overflow answers.
👍1
А другая интересная мысль про замещения старого - новым.

In book The Hard Thing About Hard Things (Harper Business, 2014), Ben Horowitz says:

The primary thing that any technology startup must do is build a product that’s at least ten times better at doing something than the current prevailing way of doing that thing. Two or three times better will not be good enough to get people to switch to the new thing fast enough or in large enough volume to matter.


То есть условно, если новое хранилище данных не будет в 10 раз эффективней старого (по разным параметрам), то может быть еще рано его заменять? Таким образом можно выбирать приоритеты.
👍1
Ребята под предыдущим постом, где были итоги года вы накидали хороших комментов, спасибо вам большое :)
Но сейчас не об этом...
Я подробней посмотрел на статистику вебинаров и увидел, что у Димы 5-й модуль про облачные вычисления не залетел, 4-й и 6-й его опередили. Может в русскоязычном сегменте еще не готовы к облаку, но радует, то что когда момент настанет у нас у одних из первых уже есть мега крутой материал. Кстати кто не знает, но по 5-му модулю даже есть лабораторные работы в облаке.

Это я все к чему:
Напишите пожалуйста в комментариях, сколько модулей прошли или может быть вы смотрите вебинары, то тоже напишите, что смотрите только вебинары, также если вы дошли до какого-то модуля, но затем прервались, напишите тоже пожалуйста, если вы на канале не давно и не в курсе о чем речь, пишите что без понятия о чем курс и о чем речь.

А ну и самое для нас интересное: если вы состоите в слаке datalearn напишите пожалуйста и как часто вы туда заходите? :)
Есть специальный сайт, на котором можно посмотреть рейтинг движков баз данных и узнать по каким критериям строится рейтинг. Я вот выбрал несколько. Самый быстрый рост среди аналитичиских БД у Clickhouse (самая нижняя зеленая линия) и Snowflake (голубая линия снизу). https://db-engines.com/en/ranking

Databricks, , Firebolt в списке нет.
🎉2
Интересная статья - The Great Immigrant Resignation: Fed Up Indian Tech Workers Ditch the American Dream, в которой рассказывают про иммигрантов, которые оставляют работу в Амазоне Сиэтле (как пример) и возвращаются обратно в Индию.

Все выглядит действительно так, когда работаешь в Амазоне и еще молодой, когда не болит голова про садики и школы:

They lived in an apartment in downtown Seattle with floor-to-ceiling windows that afforded a precious glimpse of an inlet that flowed out to the Pacific Ocean. On weekends, they went on hikes or gathered with friends on the rooftop deck of their high-rise, playing board games as they ate and drank on the ample terrace that was outfitted with large television screens and fireplaces that came alive at the touch of a button.

Мне очень нравилось в Сиэтле так чилить в допандемийные времени, когда получалось вырваться с отсрова на недельку с семьей. Даже рассматривали Сиэтл как место жизни, и почти переехали в 2020 с внутреннем траснфером в Амазоне, но был нюанс, зп при переведе не меняется, поэтому решили переехать в Ванкувер.

Возвращаемся обратно к статье. Сила Америки всегда была в наличие талантов, которые туда съежались со всего мира за лучшей жизнью и за хорошей зарплатой. Но сейчас, ребята из Индии уезжают обратно, так как у них очень сильные традиции и корни, да и Амазон, и другие компании открыли свои офисы в Индии.

This is the main threat to America now,” said Sarah Cone, founder of Social Impact Capital, which provides seed funding to startups and counts among its limited partners Peter Thiel, Marc Andreessen and Rob Hayes. “We certainly don’t make all the smartest people in the world but for a long time the smartest people ended up in America.” Losing technically competent people, she said, “is terrible for American competitiveness.”

В целом тренд на возвращение иммигрантов подрывает инновации Северной Америки.

Kidding aside, “the loss of foreigners—the loss of Indians in particular—is very damaging,” said Giovanni Peri, professor of economics at the University of California, Davis, who has studied the impact of immigration on economies. “There is overwhelming evidence that more high-skilled immigration corresponds to more innovation.”

Интересно, что доля индийцев очень высока:

H-1B visas allow companies like Amazon to temporarily employ foreign workers in certain areas and can pave the way to sponsoring green cards for immigrants. About 75% of all H-1B visas approved in fiscal year 2020 went to Indians, according to Statista.

Почему же они возвращаются домой? На самом деле в статье уклон идет на стартапы, и многие индийцы возвращаются обратно потому что они так же могут делать стартап у себя на родине:

“Now they are saying, ‘I can have access to the same capital; why don’t I go back home?’”

Но реально мир меняется, и если раньше была односторонняя иммиграция, то все больше случаев возвращения. Про русских такой статистики нет, но несколько наших знакомых вернулись обратно. Но мне кажется, что главная причина это проблемы с самореализацией, да и терять особо нечего. Из успешных мигрантов еще никого не знаю, кто вернулся обратно.
👍3
Недавно мне пришлось работать со средой, в которой есть много зависимостей, требования к версиям библиотек и зависимостей.

Обычный вариант, pip install библиотеку и погнал не работает. Даже больше скажу, каждый раз когда я так делал я уничтожал вообще всю python среду на ноутбуке, программы переставали запускаться и теряли $PATH.

Вся эта история с pyenv, virtualenv, poetry, setup.py, requariments.txt оказалось для меня архимедовой пятой. Я слишком долго игноривал наличие этих инструментов и предпочитал грузить терабайты данных доступными средствами.

Настало время совсем этим разобраться, благо есть подписка O'Reilly и там можно много найти. Вот кстати хорошие статьи по теме:
A non-magical introduction to Pip and Virtualenv for Python beginners
The Hitchhiker’s Guide to Packaging

Вообще ситуация забавная, все учат питон или учат других питону. Обычно все одинаково - типы данных, функции, классы. И как-то слабо рассказывают про настройку среды.

Поэтому у меня просьба к экспертам, давайте сделаем вебинар про эту тему, чтобы раз и навсегда закрыть этот вопрос с настройкой среды и использования этих мелких, но важных элементов экосистемы питона. Есть желающие?
👍6
😁1
Я не помню шарил презентацию или нет с конференции DevGamm в 2021 про современный стек для гейминга. Видео я так и не дождался от них.
👍2
Forwarded from HelenLoveData
Всем привет! В последнее время у меня создается четкое ощущение, что людей пугает аббревиатура ТЗ, что суть этого документа сильно обесценивается. Воспринимается как что-то бюрократическое и излишнее. Но дело в том, что какие бы мы “открытые к изменениям и гибкие” не были - психология нашей памяти, вовлеченности и когнитивных ошибок восприятия не меняется. Более того, из-за постоянного состояния “онлайн”, навыки фокусировки снижаются. Ниже ссылка на статью, сейчас запишу аудиоверсию с небольшими отклонениями от текста.
ПС. Мне больше нравится читать подобные материалы, я стараюсь чтобы форматирование на сайте упрощало восприятие.
http://inoursky.com/helenlovedata/tz-eto-dialog-kotoryj-nuzhno-zapisat
👍1
Here is top 10 list for successful cloud computing:

10. The seat in front of you is far enough away so you can actually lower the tray and open your laptop

9. The flight attendant doesn’t spill water on your keyboard

8. You remembered to charge your laptop before leaving the office

7. You didn’t forget the new password you set this morning

6. The inflight WiFi connection actually works

5. Your credit card has enough headroom to actually pay for inflight WiFi

4. The person in the seat next to you stops talking long enough for you to do some actual computing

3. The person in the seat next to you isn’t employed by your biggest competitor

2. You don’t get motion sick while trying to focus on your spreadsheet during turbulence

1. You resist the urge to give up and watch a movie instead
👍5
Начал читать книгу Terraform: Up & Running, 2nd Edition. Задача простая научиться использовать terraform, то есть попробовать перевести всю инфраструктуру в код - хранить шаблоны. Аналоги есть у AWS - Cloud Formation, у Azure - ARM.

Вообще это история про DevOps + впервые столкнулся с ситуацией, когда у меня нет админского доступа к ресурсам AWS, и всем заведуют DevOps инженеры. Напоминают истории взаимодействия с сис админами, когда приходишь к дядьке важному, и просишь, почти милостыню, то есть доступ. Не гоже дата инженеру таким заниматься🤠

Кстати, если кому интересен DevOps вот список книг:
🏌️‍♂️Infrastructure as Code: Managing Servers in the Cloud by Kief Morris (O’Reilly)
🏌️‍♂️Site Reliability Engineering: How Google Runs Production Systems by Betsy Beyer, Chris Jones, Jennifer Petoff, and Niall Richard Murphy (O’Reilly)
🏌️‍♂️The DevOps Handbook: How To Create World-Class Agility, Reliability, & Security in Technology Organizations by Gene Kim, Jez Humble, Patrick Debois, and John Willis (IT Revolution Press)
🏌️‍♂️Designing Data-Intensive Applications by Martin Kleppmann (O’Reilly)
🏌️‍♂️Continuous Delivery: Reliable Software Releases through Build, Test, and Deployment Automation by Jez Humble and David Farley (Addison-Wesley Professional)
🏌️‍♂️Release It! Design and Deploy Production-Ready Software by Michael T. Nygard (The Pragmatic Bookshelf)
🏌️‍♂️Kubernetes In Action by Marko Luksa (Manning)
🏌️‍♂️Leading the Transformation: Applying Agile and DevOps Principles at Scale by Gary Gruver and Tommy Mouser (IT Revolution Press)
🏌️‍♂️Visible Ops Handbook by by Kevin Behr, Gene Kim, and George Spafford (Information Technology Process Institute)
🏌️‍♂️Effective DevOps by Jennifer Davis and Katherine Daniels (O’Reilly)
🏌️‍♂️Lean Enterprise by Jez Humble, Joanne Molesky, Barry O’Reilly (O’Reilly)
🏌️‍♂️Hello, Startup: A Programmer’s Guide to Building Products, Technologies, and Teams by Yevgeniy Brikman (O’Reilly)

Top Blogs:
High Scalability
Code as Craft
dev2ops
AWS blog
Kitchen Soap
Paul Hammant’s blog
Martin Fowler’s blog
Gruntwork blog
Yevgeniy Brikman blog

Самые зачетные выступления
“Reusable, composable, battle-tested Terraform modules” by Yevgeniy Brikman
5 Lessons Learned From Writing Over 300,000 Lines of Infrastructure Code” by Yevgeniy Brikman
Infrastructure as code: running microservices on AWS using Docker, Terraform, and ECS” by Yevgeniy Brikman
Agility Requires Safety” by Yevgeniy Brikman
Adopting Continuous Delivery” by Jez Humble
Continuously Deploying Culture” by Michael Rembetsy and Patrick McDonnell
10+ Deploys Per Day: Dev and Ops Cooperation at Flickr” by John Allspaw and Paul Hammond
“Why Google Stores Billions of Lines of Code in a Single Repository”” “The Language of the System” by Rich Hickey
Don’t Build a Distributed Monolith” by Ben Christensen
Real Software Engineering” by Glenn Vanderburg


PS вся непонятная штука пойдет в модуль 12 datalearn=)
👍82
Для общего понимаю будет полезно поместить вместе элементы DevOps продуктов по категориям:
- сonfiguration management tools
- server templating tools
- orchestration tools
- provisioning tools


Chef, Puppet, Ansible, and SaltStack are all configuration management tools, which means that they are designed to install and manage software on existing servers.

An alternative to configuration management that has been growing in popularity recently are server templating tools such as Docker, Packer, and Vagrant. Instead of launching a bunch of servers and configuring them by running the same code on each one, the idea behind server templating tools is to create an image of a server that captures a fully self-contained “snapshot” of the operating system (OS), the software, the files, and all other relevant details.

Server templating tools are great for creating VMs and containers, but how do you actually manage them? Handling these tasks is the realm of orchestration tools such as Kubernetes, Marathon/Mesos, Amazon Elastic Container Service (Amazon ECS), Docker Swarm, and Nomad. For example, Kubernetes allows you to define how to manage your Docker containers as code. You first deploy a Kubernetes cluster, which is a group of servers that Kubernetes will manage and use to run your Docker containers. Most major cloud providers have native support for deploying managed Kubernetes clusters, such as Amazon Elastic Container Service for Kubernetes (Amazon EKS), Google Kubernetes Engine (GKE), and Azure Kubernetes Service (AKS).

Whereas configuration management, server templating, and orchestration tools define the code that runs on each server, provisioning tools such as Terraform, CloudFormation, and OpenStack Heat are responsible for creating the servers themselves. In fact, you can use provisioning tools to not only create servers, but also databases, caches, load balancers, queues, monitoring, subnet configurations, firewall settings, routing rules, Secure Sockets Layer (SSL) certificates, and almost every other aspect of your infrastructure
🤩4
Кратко и понятно про DAG. Вы наверно слышали про DAG в dbt tool, в Airflow и других workflow management tools. А если не слышали, то тем более не зря будет узнать.
6👍3
Есть у кого опыт с Prefect? Нам бы вебинарчик=)

Вот есть небольшое видео про Prefect Prefect as a Data Engineering Project Workflow Tool, with Mary Clair Thompson (Duke) и про сравнение с Airflow. Все чаще слышу, что Airflow устарел и стал слишком сложный для своих задач.
🔥5😁3👍1
🔥27
Закаказал себе такой девайс https://www.kickstarter.com/projects/deepernetworkpico/deeper-connect-pico/description

Deeper Connect Pico is the world’s thinnest, lightest, smallest, and yet the most unique and powerful cybersecurity hardware device, which integrates a 7-layer enterprise-grade firewall and the world’s one and only Decentralized VPN (DPN).

Кто-нибудь понимает разницу между VPN и DPN? И как вам идея устройства?
👍4🤩1
ca_cloud_pov_EN_doc (1).PDF
1019.4 KB
The cloud is here: embrace the transition.
How organizations can stop worrying and learn to “think cloud.

Статья от Deloitte про cloud computing.