👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Ну, в целом для многих уже не секрет, все кого следует оповестил, теперь можно и тут сказать.

Я получил и принял оффер в компанию Starship на позицию Data Engineer, в связи с чем покидаю ряды DA/DE в EPAM.

Про Starship — это был самый крутой и адекватный процесс хайринга в Финляндии (за РОВНО ГОД как я пытался найти тут работу я с таким сталкивался только 3 или 4 раза). И самый быстрый.

В отличие от тех же Unity, где интервал между этапами мог составлять 2 недели — в Старшипе были максимум 2-3 дня между этапами. Ну и приняли в офисе, конечно, как родного.

Стек — AWS, Spark, Kafka, Databrics, dbt, Tableau.

Про собесы, работу (из того, что можно сказать, и что не NDA) и, конечно, благодарности (есть как минимум три человека) за развитие, образование и помощь в том или ином виде на пути — напишу позже, в следующих постах.

Пока скажу загадкой. Человек (вы его многие знаете), который часто пишет у себя в канале «ПРИСМОТРИТЕСЬ К DATABRICKS ЕДРИТ ВАС ЭДАК ДА РАЗЭДАК» и «И К dbt !» — оказался прав.
#личное

881 viewsedited 19:34

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Пока я думаю, что б вам такого интересного рассказать (а главное, что полезного), и при этом не нарушить NDA, хочу показать скрин, который меня несказанно радует.

Слева — год в ЕПАМе, четыре крайних столбца справа — 3 недели в Старшипе.
#личное #рабочее

660 viewsedited 13:50

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Насыплю чуток полезного.
dbt model owner alerting
Короч, если используете dbt а также что-то из списка [Snowflake, BigQuery, Redshift, Databricks], рекомендую подключить опен-сорсную штуку Elementary https://www.elementary-data.com .

Она генерит просто божественные алерты, не нужно больше шарахаться по логам, и смотреть, что пошло не так. В случае фейла прилетает алерт в канал в слаке, с меншеном оунера таски\модели.

Нюанс — она исходя из описания на сайте — «легко и нативно интегрируется в dbt cloud».

ХЕР.

На словах, как говорится, Лев Толстой. А на деле пожрала времени будь здоров.
Оказалось, в нашем (Databricks) случае, что облако облаком, а локально надо развернуть ещё одну штуку, и конфиг к ней.

Или я так криво читал их документацию, или документация написана через колено.
Но, зато при такой кривой документации, у них потрясающий саппорт (всё общение в Слаке и отвечают почти 24\7).
[1/3]
#рабочее

727 views17:11

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Мы ловили исключения, и не понимали чем они вызваны.
Их Саппорт взял пару дней на выпуск ПАТЧА, который выпустили ради нас (ну, он давно назревал у них, а мы их смотивировали ускориться), а выяснилось, что дело не в нём. Их «нативная интеграция с облаком» на самом деле завязана на «сделайте конфиг на локалке».

Пока мы это выясняли, они выпустили новую версию, которая была забагована и фейлилась просто по дефолту, и через 12-16 часов они снова выпустили ещё одну😅Мы полдня мозги ломали «почему оно не взлетает», а это просто «не баг, а фича» версии выпущенной вчера ночью.

Ржали в голос — «они выпускают обновления быстрее чем мы её устанавливаем😆».

Связка облако+CLI взлетела. Алерты прекрасны. Отчёты в виде статической хтмл страницы тоже прекрасны.

Дальше развернём всё это в бакете на AWS. И отдельную статичку под хтмл отчёты. Чтобы любой из команды мог обратиться по адресу, и посмотреть отчёт (если ему мало инфы в алерте).

Приблуда ставится, конечно, целым квестом, но точно стоит того.
Обратите внимание, если вам нужно получать инфу о том что «что-то в dbt упало» вовремя, и не хочется по логам шарить в поисках инфы.
[2/3]
#рабочее

901 viewsedited 17:18

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Немножко курьёзов с полей.

Коменты, если чо, в первом посте https://t.me/datasauna/187 . Все вопросы туда.

[3/3]
#рабочее

1.05K views17:20

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Вопрос назрел.
Если знаешь хороший пример консалтинга в Data сфере (большой компанией, малой командой, а лучше вообще «затащил в соло» примеры) — скинь в комменты пожалуйста.

Ищу:
1) и ссылки на сайты компаний\фрилансеров,
2) и видео (конференции, промовидосы, разборы и т.п.),
3) и статьи (примеры, кейсы, советы, промо, учебные и т.п.).

«Области применения» не критичны, хоть агро-сельхоз-дата, хоть финансы, хоть лайфсаенс, хоть маркетинг и продажи — без разницы.
#личное

948 viewsedited 09:31

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

В общем, со Starship у нас не сложились😐 и сейчас я в поисках новой работы.

Почему — вдаваться в детали не буду, там довольно странно и не понятно всё вышло, кому ни расскажу, все в шоке и удивлены потому что «ну так не бывает, камон».

Ну, испытательный срок на то и испытательный, что его не только сотрудник проходит, но и компания.

Спасибо компании и команде за полученный опыт, было прикольно, негатива к ним не держу, просто удивлён, но нет хейта, набрасывать не буду ни пол раза.

Если у вас есть рефералка на Data Analyst, BI Engineer (ну или Data Engineer) — присылайте, буду рад и благодарен.

Зато теперь могу вам скидывать перлы с собесов, задачки, тестовые и т.п.

Жалею только, что недосидел в ЕПАМе две лишних недели, чтоб не увольняться оттуда.
Теперь даже обратно в ЕПАМ хз как вернуться😅долбанные кулдауны.

Заодно наконец сертификацию по DE GCP добью (надеюсь), и пет-проектом новым займусь, буду тут публиковать чо как.
#личное

1.06K viewsedited 09:33

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Маленькая ржомба с недавнего собеседования на BI Engineer:
После детального рассказа про опыт и инструменты с которыми работал, меня спрашивают «что можешь сказать, про схему ЗВЕЗДА (STAR scheme)»

У меня срабатывает какой-то вообще древний триггер на фразу, и я выдаю им про топологию сети, про масштабируемость, про преимущества и отличия от шины или кольца… смотрю на их лица, и понимаю, что «что-то не то говорю».

Зависаю на секунду на полуслове.
Они такие… «кхм… не, ну хорошо, что ты знаешь про локалку, но мы тебя вообще про БД, про модель данных спрашивали…»

Конфуз😅

Ну, в итоге и про БД рассказал, этап прошёл, щас вот техническое домашнее делаю.

P.S. довольно странно спрашивать у чувака, который тебе расписал свой рабочий процесс детально, вопросы из разряда «первый курс CS», не знаю в чём цимес таких вопросов, толи спросить больше нечего, толи ПОДЛОВИТЬ хотели… хз. Но теперь буду знать, что и основы основ надо повторить, и про них спросить тоже могут.
#собеседования #собесы

1.04K views10:11

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

В комментах спросили с чего начать изучение DE с нуля:

1) Найти курсы по DE, посмотреть какие инструменты и технологии указаны там в программе курса. Выписать их себе (инструменты, не курсы) в план на изучение, и искать статьи, видео уроки, курсы по этим инструментам\технологиям.
2) Найти людей, которые работают в этом направлении, и спросить у них, что они чаще всего используют в работе, как вообще выглядят задачи, и что стоит изучить. Выписать тоже в список.
3) Изучать и отрабатывать на практике (искать тестовые задания выложенные в сети, придумать себе пет-проект), на тренажёрах.

Готово, вы великолепны.

Первым шагом — идём на бесплатный курс от Data Learn https://datalearn.ru/ от Дмитрия Аношина https://t.me/rockyourdata (которому лично я очень благодарен за его курс, т.к. я не чистый DE, я всё-таки Data Analyst, в первую очередь (в частности Web Analyst / Marketing Analyst, если говорить про доменную экспертизу). И его курс мне помог освоить дополнительные инструменты, чтобы делать не только DA задачи, но и DE (и потом ещё и офер на работу Data Engineer получить).

Поэтому этот курс, это прям первейшее что надо открыть. И по мере изучения профессии и инструментария — гуглить уже уроки и документацию по каждому отдельному инструменту, изучать их глубже, тренироваться на практике.

Перечень DEшных buzzwords, с чем я сталкивался на практике в работе — python, sql, airflow, dbt, postgresql, clickhouse, google bigquery, tableau, powerbi, google data studio, looker, spark, kafka (было дело пускал руки и в AWS пару раз, но чаще работал с Гугловой экосистемой).

Как можно это всё освоить:
1) Осваиваем SQL — https://stepik.org/course/63054/ (бесплатный тренажёр, очень качественный), https://stepik.org/course/90778/ (это более прикладной ПЛАТНЫЙ, но дешёвый, курс, с SQL именно под Data задачи) и отдельно курс по оконным функциям https://stepik.org/course/95367/ (стоит копейки, но стоит того, окошки на собесах часто спрашивают)
2) Осваиваем Питон — я изучал по https://stepik.org/course/67/ и https://stepik.org/course/512/ (оба бесплатные), но, говорят, что https://stepik.org/course/58852/ и https://stepik.org/course/68343/ гораздо лучше по части донесения информации (оба бесплатные) и https://stepik.org/course/82541/ (третья ступень, платная, про неё ничего не слышал)
3) Осваиваем азы Pandas — https://stepik.org/course/74457/ (бесплатно)
4) Осваиваем азы Airflow — https://stepik.org/a/99527/ (платный)
5) Осваиваем архитектуру и вообще Базы Данных — https://stepik.org/course/551/ (бесплатно) , тут и про архитектуры, и про Нормальные Формы и т.п. https://stepik.org/course/70710/ (бесплатно) — более глубокое погружение в БД и СУБД.
6) Осваиваем Git — полно бесплатных уроков на ютубе, практиковаться можно на своём гитхаб аккаунте.
6) Осваиваем Облака — https://practicum.yandex.ru/ycloud/ (бесплатный курс), я предпочитаю Google Cloud Platform, но для простоты доступности (к Гугл Облаку надо карту привязывать, а с этим щас проблемы могут быть) начать освоение можно с Yandex.Cloud или VK Cloud
7) Осваиваем Spark, Kafka, Hadoop — не могу посоветовать бесплатные курсы, т.к. осваивал их на платных курсах и «в бою» на задачах сразу, гугля «КАК СДЕЛАТЬ ___ в Spark», и с помощью коллег. Но начни с модулей бесплатного Data Learn, а там сориентируешься куда гуглить и как. И, возможно, вот этот курс https://stepik.org/lesson/699607/ (бесплатно) подойдёт для азов и обзорного понимания Спарка
8) Осваиваем dbt — у них свои бесплтаные курсы прям на сайте лежат https://courses.getdbt.com/collections

Когда Data Learn и курсы выше будут пройдены — можно идти к Карпову на https://karpov.courses/dataengineer (за деньги, дорого). И погружаться в более ядрёные штуки под присмотром наставников и кураторов.

🔥9👍2🥰1

17.7K viewsedited 23:08

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Делаю тестовое в компанию, куда пробовался ровно год назад (плюс-минус 1 неделя).

Смотрю на задачу — а она АБСОЛЮТНО ТАКАЯ ЖЕ, как год назад. Т.е. абсолютно идентичное тестовое.
Единственное, что изменилось, датасет. Было 2 файла, стало 3 файла. Данные стали более разнообразные.

Открыл, изучаю. Думаю… хм… «дай-ка гляну, что я там год назад писал в итоговом файлике».
Открыл. Аж всхрюкнул.

Обратите внимание — что я написал год назад (на чёрном скриншоте) и какая колонка появилась в данных в этом году (белый скриншот).

У меня не настолько большое эго, чтобы подумать, что ЭТО Я ПОВЛИЯЛ НА ТЕСТОВОЕ ЗАДАНИЕ, ЧТО ОНИ ЕГО ДОПОЛНИЛНИЛИ.

Нет конечно, скорее всего случайность. Совпадение. Но забавное совпадение.

Улыбнуло.

P.S. самое печальное, что я не знаю, что им понравилось\не понраивлось в этом задании в прошлом году. Я завалился на SQL вайтбординге, а по этому заданию фидбека не дали никакого, просто рассказал чо делал, показал графики, показал ход мысли и всё. И ZERO в ответ.
#техсобесы #тестовое

🔥8

949 views18:05

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Forwarded from Инжиниринг Данных (Dmitry)

Амазон выложил в бесплатный доступ курсы по AWS https://www.amazon.com/s?i=courses&rh=p_27%3AAWS+Training+%26+Certification

🔥11

703 views20:00

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Про бесплатный доступ к курсам по AWS Амазон — короч доступно только для US.
Поэтому, врубайте ВПН на USA, заводите новый аккаунт, укажите в настройках в адресе аккаунта любой рандомный адрес в США и телефон в США.

«Купите» за $0 любой курс, нажмите Start, и потом смело вырубайте ВПН, и с обычного ip «покупайте» остальные нужные курсы за $0.

[апдейт] в комментах подсказали — «Если что новый акк не надо заводить, впн и смены адреса доставки достаточно»
#курсы #учебное

👏2🔥1

13.5K viewsedited 20:59

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Бесит, когда в ТЗ двусмысленное задание.
(обсуждение идей в комментах)

Дано:
Есть у нас вот такие колонки timestamp, country, stream_id, feed_id, content, author
На один stream_id может быть несколько feed_id.

Т.е. один и тот же контент одного и того же автора может транслироваться в один stream_id с нескольких feed_id (в разное время timestamp, и иногда в одно и тоже время timestamp)

Задание:
«consolidate the data so that we do not double count content coming from feeds that belong to the same stream»

И вот самая большая загадка —
1) Можно взять все фиды контента автора на один стрим по стране, и грохнуть все дубли content+author из множества фидов , оставив единственный на стриме. Т.е. получится stream + content + author уникальный ключ.

2) Можно взять все фиды контента автора на один стрим по стране, и грохнуть все которые ДУБЛИРУЮТСЯ ПО ТАЙМСТЕМПУ. И тогда будет timestamp + stream + content + author уникальный ключ.

И вот я не понимаю, что они хотят.
Какой уровень уникальности.
#техсобесы #тестовое

931 views18:30

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Короч, ребус блин. Обнаружил странную штуку в данных.

в 1 таблице
stream_id, feed_id

в 2
conten_id, author, content_param_1, .. content_param_N (стопка параметров контента)

в 3
timestamp, country , feed_id, content_id

При нескольких джойнах я получаю финальную таблицу (полноценно обогащённую данными)
timestamp, country, stream_id, feed_id, content_id, author, content_param_1, .. content_param_N

И вот вопрос. Это ошибка в данных или это «подвох» в задаче?
Потому что джойн трёх таблиц приводит к 115 лишним строкам. Откуда бы?

А КОСЯК С УНИКАЛЬНОСТЬЮ КЛЮЧЕЙ СЛЕВА-СПРАВА В ДЖОЙНАХ, ВОТ ОТКУДА.
Ща объясню.

По условию сказано «multiple feeds can be connected to the same stream»
ОК, это понятно. Один паблик (стрим) может транслировать контент в три разных фида (ленты новостей), хреновый пример, но всё же.

НО! внезапно обнаружиолось 3 фида, которые привязаны каждый к 2 разным стримам.
Т.е. такого не должно быть (по условию), но есть.

И я не понимаю, как зауникалить ключ (а никак), чтобы при джойне не плодились лишние строки.
И HR не подскажет, есть ли подвох в этих данных, т.к. он не причастен к составлению задачи, и не технарь.
И в письме и в файле с ТЗ нет ни строчки про «если возникут вопросы, пишите» (обычно есть такой пункт, как раз, чтобы задавать уточняющие вопросы)

Мда. Делааа.
#техсобесы #тестовое

998 viewsedited 01:01

About

Blog

Apps

Platform