Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
В продолжение крупных сделок - оказывается у главного конкурента Boeing - Airbus, инфраструктура на Google Cloud.
Узнал новое выражение - "no over the fence".
Today’s comic is about that age old problem in games dev when we build fences instead of bridges and silos instead of pastures. Throwing things over that fence is something we want to work hard to move away from as a way of working. We want to foster collaboration at every stage of the game, and enable everyone to do their best creative work, as a team.

PS мне кажется я так делаю разработчикам Power BI, типа, вот вам connection string, enjoy
А это про data literacy в картинках
А вы еще не прошли workshop по Python для AWS? Это будет модуль 5.10. Я писал недавно, что Sergii Volodarskyi сделал для вас офигенную инструкцию перевод на русском. Там очень интерсные лабы с использованием сервисов AWS. В другом месте за такой подробный воркшоп по Python с элементами ML (машинный перевод) с вас бы взяли тысяч 15-20 рублей как минимум, а у нас бесплатно. Я сам раньше не использовал облачную IDE Cloud9 и не работал с сервисами AWS Translate. Особенно мне интересно разобраться как работает Logging и есть бонус лаба с DynamoDB (NoSQL).

Вообще интересно получается, по хорошему, до модуля 7 (про Spark) нам вообще не нужен Python, с помощью SQL, баз данных и приложений drag and drop (ETL, BI) + облачных вычислений мы можем решить 90% кейсов для аналитики. Я подумал про аналогию коробки автомат в машине. Можно же на автомете ейздить и не париться, а можно быть hardcore и на механики в пробке стоять. Python конечно дает нам огромное преимущество для data engineering и data science сложно представить, но в целом для DE, BI и хранилищ данных с элементами облачного Hadoop (AWS EMR или HDInsight) мы можем обойтись тем же SQL (hive).
Делаю лабы по Python и очень доволен! А потом запишу модуль 5.10 и можно уже начинать 6 про аналитические DW.
Может показаться, что если Amazon (или любой другой крупный бизнес будет строить склад у вас в городе), то город расцветет, появится куча рабочих мест, локал бизнес пойдет вверх, и все будут счастливы. Каждый городишка мечтает получить склад амазон и предлагает налоговые льготы, скидки и инцентивы.

А вот обратная сторона монеты - When Amazon Comes to Town
Residents of Milford, Mass., didn’t think twice when the internet retail giant opened a warehouse in town. But then trucks carrying Amazon cargo began choking its roads with traffic, making late night rackets and damaging a local cemetery.

Вот так и думали люди в маленьком городе по Бостоном когда в 2016 году Амазон решил у них построить склад. Теперь город наводнем грузовиками доставки "сompete for space on Milford’s aging roads with more than a hundred semitrucks a day hauling Amazon cargo. The trucks regularly cause property damage and noise complaints as they rumble through narrow intersections and down one-way residential streets" (а это не собственность Амазон, а контрактеры, которым вообще пофиг на все и нет никакой ответственности), окрестные улицы засыпаны мусором "left nearby roads littered with trash and bottles of urine" (а как же по другому? Есть аналитики, которые любят посещять Starbuck 3 раза в день и дискутировать на тему, что лучше R или Python, и как лучше проложить маршрут, сколько грузов нужно доставить в день и другие data insights и business recomendations (согласно описанию role guideline). Про время на Starbucks , хотя нет, у водителей нет денег на кофе от русалки, они пьют, что-то подешевле или вообще берут термос с ратсворимым кофе. Так вот аналитики не сильно закладывают время на покушать, попить и другие естественные нужды и как результат улицы наводнили bottles of urine. В общем я не завидую водителям Амазон и маленькому городку. Кстати, место под склад, тоже выбрали аналитики))
Что такое BI? Выпуск 2015 года на примере Lamoda https://youtu.be/xYExt37a9Qg
Из нашего слака от Ruslan Mirzaev - хорошие SQL тренажеры:
- www.hackerrank.com и www.codewars.com
- для совсем маленьких есть https://sqlzoo.net/
Еще давно у нас с Романом появилась гипотеза, что datalearn можно использовать для других целей, например для знакомств...нет, мы не хотим сделать Tinder, но зная специфику индустрии, насколько все занятые и просто не остается время на личную жизнь, а именно на ее организацию.

Вот например, наш общий знакомый Анатолий, который сделал курс по SQL-101 и который максимально помогает всем студентам datalearn - одинок. Он нас не просил, мы сами решили поробовать, и рассказать, что есть Анатолий, которого многие уже знают, и если в кратце, то он познакомился бы с девушкой из нашего сообщества. Анатолий, сейчас живет в Харькове и работает в EPAM в роли Инженера данных, в будущем он планирует перебраться в Европу или Северную Америку, с его опытом и знаниями, а главное мотивацией, это будет легко осуществить. Поэтому, уважаемые девушки, если вам интересно пообщаться с Анатолием, познакомиться, рассказать о себе, то вы можете написать Анатолию напрямую в telegram (@Balakiriev_Anatolii) или facebook.

Анатолию 33 и он обожает парашютный спорт и помогать другим, поэтому нам бы хотелось помочь ему тоже в этом не простом деле😇

PS если мы еще будем помогать людям находить друг друга, то будет вообще шикарно!
Отличный канал по аналитике в excel https://www.youtube.com/channel/UCRhUp6SYaJ7zme4Bjwt28DQ
В слаке появился интересный вопрос - дискуссия. Я решил вынести на общий обзор. Это больше про то как не надо делать аналитику и как не надо организовывать работу аналитического отдела. Мне кажется корень проблемы - отсутствие бюджета на "правильный" подход. Как результат в короткой перспективе можно получить отчетики и ответы на бизнес вопросы, а вот в долгую это не работает, а когда ключевой специалист уйдет на ЗП в 1,5 - 2 раза (непонятно, что его держит, мы можем подсказать как быть🤫) - карточный домик рассыпиться. И чтобы заменить его понадобиться 3-4 человека. Вот сам текст:


🙃 И снова интересный вопрос

Вопрос про обязанности DE, можете поделиться какая у вас должность и что в нее входит, а так же что в это время делает анлитики BI analysts, data analyst, DS?

====
Что происходит у меня - у меня должность DE, в команде есть еще один DE, мы с ним распределили работу таким образом
Я, больше уклон в архитектуру/инженерию/BI, по конкретики:
Работаю с аналитиками у нас их три человека (BI manager (wf), Analyst/DS, J analyst)
Принцип такой, они спрашивают, а если у нас вот такая информация, если есть я им добавлю в их хранилище из нашего озера или у нас появляется какая-то новая программка из которой нужно тянуть данные. Так же частенько просят посмотреть SQL или просто написать им кверю чтобы получился конкретный DF.
Работаю над архитектурой DWH+DataLake всё на AWS, прорабатываю JOB/Crawler контролю структуру будущих таблиц
организовую будущие mart-ы(полки) для аналитиков в RedShift.

Так же работаю с финансами, как я понимаю только из-за того что у меня есть PHD по экономики... С ними мы делаем DashBoard в PowerBI, а так же запустили процесс сверки движения наших денежных потоков с нашими партнерами.
Пытался процесс отдать аналитикам, но в связи с изменениями в структуре данных или изменения логики нужно постоянно, что-то изменять в PowerBI или перепроверять какие ошибки есть в предоставленных данных от партнеров. По-этому, если изменений нет, аналитик может сам обновить PowerBI и всё ок, но уже как полгода, приходиться постоянно внедряться в процесс.

Так же на мне лежит обязанность за PowerBI, все отделы хотят от меня получить супер-пупер дашборд, но у меня физически не хватает времени, плюс в компании до этого всё было в Excel. Analyst/DS помогает с этим, что-то пробует делать для маркетингового департамента, у нее это основное направление маркетинг+прогнозы...

Еще всегда нужно помогать бизнесу, разобраться как должно работать бизнес-логика, этим занимаемся вдвоем со вторым DE, он просит себя называть Data Advocat )
Думаю +/- понятно что да как и вот конфузная ситуация, в которой мне кажется аналитик (Manager BI) не прав

Этот человек вместо аналитики занимается выгрузками, одно и тоже уже год (столько я в компании работаю), на предложение перевести это на PowerBI, желание нет, год прошел, и чтобы автоматизировать процесс, она выклянчила в отдел еще +1 аналитика Junior(J) Analyst - она студент, но смекалистая и теперь сидит занимается этим бредом :face_with_rolling_eyes:

В компании был переезд на другую платформу при которой у нас меняется структура данных, БД практически всё что касается данных, а так же где-то 50% бизнес-логики. И чтобы организовать аналитическую инфраструктуру, было предложено им за два месяца покопашится в сырых данных (5шт*MySQL) выбрать нужны таблицы, сказать мне, а я их сложу в одно место. Получилось это произвести только с одним Analyst/DS, а вот с Manager BI мне говорит, что якобы она должна сказать, что ей нужно Revenue в таких вот разрезах и я сам должен найти все эти таблицы и дать так как она хочет. А я считаю, что аналитик должен понимать сущность возникновения данных и понимать логику их формирования, самому открывать таблицы смотреть на данные и говорит, что мне из вот этой таблицы нужно вот это, а из этой вот это....

Подскажите кто прав и как у вас организовано взаимодействие между бизнесом, аналитиками и вами!
всем любви!
На связи Рома Бунин, отвечаю за BI и Tableau в Яндекс Go. Ищу к нам в команду супер человека — инженера по автоматизации/админа технической части Табло сервера. Мне говорят, что такого человека не существует, но я оптимист. =)

Кого мы ищем
Ищу инженера для нашей BI-платформы, который любит упрощать жизнь пользователей через автоматизацию, готов самостоятельно искать и устранять проблемы и отвечать за техническую часть сервера. Необходимо стать оунером нашего сервера и развивать большую экосистему процессов вокруг него. В основном мы делаем это за счёт написания автоматизаций на Питоне с использованием API Табло и внутренних сервисов Яндекса.

У нас небольшой внутренний продукт и вы будете сразу видеть результат своей работы. Не могу продать вам модные фреймворки и супер сложные задачи, но точно обещаю интересные и важные для бизнеса. А ещё самое продвинутое и крутое решение для BI-системы как продукта в стране. Ближайшие проекты: бот поддержки, автоматизации для онбординга пользователей, оптимизация скорости работы сервера.

Нужно знать Питон, Докер и GIT. В идеале иметь опыт работы с Табло и развитием технической инфраструктуры сервера. Полное описание вакансии на сайте.

Что уже сделано
Чтобы лучше понять о чем речь, можно посмотреть эти видео. В первом видео Максим Воронов рассказывает о том, что он уже успел сделать. Максим же сможет помочь вам на первых порах. Ещё недавно я рассказывал как в целом у нас построена работа с Табло сервером со стороны аналитиков.

Условия
Позиция в Москве, офис в Сити с смешанным графиком. Готовы обсуждать и полностью удалённую работу или помощь с переездом из других городов. В Яндексе классный соц. пакет, приятные коллеги, премии, опционы и просто интересно.

Присылайте мне в личку CV и небольшой рассказ про себя, смогу разместить вас в рекомендательной системе, или откликайтесь на сайте.

Готов ответить на вопросы — @rbunin
#вакансия
Яндекс + Табло Сервер + Питон = ❤️
Ссылки про вакансию Романа (забыл вставить в пост):
- Ближайшие проекты: бот поддержки, автоматизации для онбординга пользователей, оптимизация скорости работы сервера.
- Полное описание вакансии на сайте
- В первом видео Максим Воронов рассказывает о том, что он уже успел сделать. Максим же сможет помочь вам на первых порах. Ещё недавно я рассказывал как в целом у нас построена работа с Табло сервером со стороны аналитиков.
- Присылайте мне в личку CV и небольшой рассказ про себя, смогу разместить вас в рекомендательной системе, или откликайтесь на сайте.

Готов ответить на вопросы — @rbunin
Если вы следили за основными новостями в tech, то возможно помните, как в 2016 году Adam Selipsky ушел из AWS и пришел в Tableau, и сразу там влиять на компанию и продукт, например он принес идею писать narratives вместо Power Point (кстати в Microsoft у нас, именно это и делается - слайды, слайды ...), и перевел продукт на подписку. А потом уже заключил сделку с Salesforce о поглощении Табло.

Его место в AWS занял Andy Jassy, который теперь будет CEO Амазон, а новый CEO AWS будет Adam Selipsky.

Сегодня прочитал интересную статью про состояние AWS на сегодняшний день, согласно которой, главная опасность для AWS - это бюррократия ( а я думал это только в отчественных госах и сбере😛). В AWS уже 75+ тысяч сотрудников и пришлом много продажников из традиционных SAP, Microsoft и тп, и появлись новые правила.

Согласно статье, для Адама будет главной задачей решить проблему с бюррократией.

“Adam is good at balancing different cultures,” McIlwain said. “He brought the value of what he had learned at AWS to Tableau, and now he also has this whole lens into Salesforce too.”


Так же в статья есть отсыл к аналитике в AWS. Несмотря на то, что AWS продает современные сервисы для аналитики, внутри до сих пор используются эксельки для отчетности (Weekly Business Review).

One of those people, a former AWS salesperson, estimated he spent around 70% of his work hours on paperwork, which included writing a business review every week, month and quarter.

Я и сам знаю от бывшых коллег, что работа в AWS на позициях с датой не самое лучшее место. (я имею ввиду аналитиков\инженеров, которые создают внутреннюю отчетность и дата продукты для своих команд). У меня было много знакомых из AWS команд и я им не завидовал, так же как и не завидовал командам из финансов.

“Part of the reason they are making changes and adding new leadership principles is because we have a lot of internal processes that don’t scale,” one current AWS employee said. “A lot of AWS still runs on spreadsheets.”

По опыту очень знакомо, когда есть много всяких запросивков и экселек и это все не масштабируется и не автоматизировано (классика внутри комманд Амазона)
15 июля новый вебинар от Денис Соловьев - Разбор сервисов Google Cloud для построения аналитических решений

📌 Разберём/вспомним Cloud Service Models
📌 Разберём группу сервисов Compute
📌 Разберём группу Storage и Databases
📌 Рассмотрим сервисы для Big Data решений
📌 Рассмотрим сервисы для CI/CD
📌 Рассмотрим другие полезные сервисы Google Cloud
📌 Посмотрим на примеры аналитических архитектур на Google Cloud

🔥 У Дениса есть свой канал, где он рассказывает очень крутые штуки, описывает кейсы и дает крутые материалы по инжнирингу данных...

🔗 Ссылка на его ТГ: https://t.me/smart_data_channel