👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮
694 subscribers
226 photos
7 videos
52 links
DA + DE = AE? @ little🇫🇮startup,
Ex Product Data Analyst @ SkyEng,
Ex Data Engineer @ Starship (delivery robots),
Ex Data Analyst @ EPAM,
Я НЕ РАЗМЕЩАЮ РЕКЛАМУ,
Личка открыта https://t.me/jarikor ,
(надо нормальное название каналу придумать)
Download Telegram
Немножко курьёзов с полей.

Коменты, если чо, в первом посте https://t.me/datasauna/187 . Все вопросы туда.

[3/3]
#рабочее
Вопрос назрел.
Если знаешь хороший пример консалтинга в Data сфере (большой компанией, малой командой, а лучше вообще «затащил в соло» примеры) — скинь в комменты пожалуйста.

Ищу:
1) и ссылки на сайты компаний\фрилансеров,
2) и видео (конференции, промовидосы, разборы и т.п.),
3) и статьи (примеры, кейсы, советы, промо, учебные и т.п.).

«Области применения» не критичны, хоть агро-сельхоз-дата, хоть финансы, хоть лайфсаенс, хоть маркетинг и продажи — без разницы.
#личное
This media is not supported in your browser
VIEW IN TELEGRAM
В общем, со Starship у нас не сложились😐 и сейчас я в поисках новой работы.

Почему — вдаваться в детали не буду, там довольно странно и не понятно всё вышло, кому ни расскажу, все в шоке и удивлены потому что «ну так не бывает, камон».

Ну, испытательный срок на то и испытательный, что его не только сотрудник проходит, но и компания.

Спасибо компании и команде за полученный опыт, было прикольно, негатива к ним не держу, просто удивлён, но нет хейта, набрасывать не буду ни пол раза.

Если у вас есть рефералка на Data Analyst, BI Engineer (ну или Data Engineer) — присылайте, буду рад и благодарен.

Зато теперь могу вам скидывать перлы с собесов, задачки, тестовые и т.п.

Жалею только, что недосидел в ЕПАМе две лишних недели, чтоб не увольняться оттуда.
Теперь даже обратно в ЕПАМ хз как вернуться😅долбанные кулдауны.

Заодно наконец сертификацию по DE GCP добью (надеюсь), и пет-проектом новым займусь, буду тут публиковать чо как.
#личное
Маленькая ржомба с недавнего собеседования на BI Engineer:
После детального рассказа про опыт и инструменты с которыми работал, меня спрашивают «что можешь сказать, про схему ЗВЕЗДА (STAR scheme)»

У меня срабатывает какой-то вообще древний триггер на фразу, и я выдаю им про топологию сети, про масштабируемость, про преимущества и отличия от шины или кольца… смотрю на их лица, и понимаю, что «что-то не то говорю».

Зависаю на секунду на полуслове.
Они такие… «кхм… не, ну хорошо, что ты знаешь про локалку, но мы тебя вообще про БД, про модель данных спрашивали…»

Конфуз😅

Ну, в итоге и про БД рассказал, этап прошёл, щас вот техническое домашнее делаю.

P.S. довольно странно спрашивать у чувака, который тебе расписал свой рабочий процесс детально, вопросы из разряда «первый курс CS», не знаю в чём цимес таких вопросов, толи спросить больше нечего, толи ПОДЛОВИТЬ хотели… хз. Но теперь буду знать, что и основы основ надо повторить, и про них спросить тоже могут.
#собеседования #собесы
В комментах спросили с чего начать изучение DE с нуля:

1) Найти курсы по DE, посмотреть какие инструменты и технологии указаны там в программе курса. Выписать их себе (инструменты, не курсы) в план на изучение, и искать статьи, видео уроки, курсы по этим инструментам\технологиям.
2) Найти людей, которые работают в этом направлении, и спросить у них, что они чаще всего используют в работе, как вообще выглядят задачи, и что стоит изучить. Выписать тоже в список.
3) Изучать и отрабатывать на практике (искать тестовые задания выложенные в сети, придумать себе пет-проект), на тренажёрах.

Готово, вы великолепны.

Первым шагом — идём на бесплатный курс от Data Learn https://datalearn.ru/ от Дмитрия Аношина https://t.me/rockyourdata (которому лично я очень благодарен за его курс, т.к. я не чистый DE, я всё-таки Data Analyst, в первую очередь (в частности Web Analyst / Marketing Analyst, если говорить про доменную экспертизу). И его курс мне помог освоить дополнительные инструменты, чтобы делать не только DA задачи, но и DE (и потом ещё и офер на работу Data Engineer получить).

Поэтому этот курс, это прям первейшее что надо открыть. И по мере изучения профессии и инструментария — гуглить уже уроки и документацию по каждому отдельному инструменту, изучать их глубже, тренироваться на практике.

Перечень DEшных buzzwords, с чем я сталкивался на практике в работе — python, sql, airflow, dbt, postgresql, clickhouse, google bigquery, tableau, powerbi, google data studio, looker, spark, kafka (было дело пускал руки и в AWS пару раз, но чаще работал с Гугловой экосистемой).

Как можно это всё освоить:
1) Осваиваем SQL — https://stepik.org/course/63054/ (бесплатный тренажёр, очень качественный), https://stepik.org/course/90778/ (это более прикладной ПЛАТНЫЙ, но дешёвый, курс, с SQL именно под Data задачи) и отдельно курс по оконным функциям https://stepik.org/course/95367/ (стоит копейки, но стоит того, окошки на собесах часто спрашивают)
2) Осваиваем Питон — я изучал по https://stepik.org/course/67/ и https://stepik.org/course/512/ (оба бесплатные), но, говорят, что https://stepik.org/course/58852/ и https://stepik.org/course/68343/ гораздо лучше по части донесения информации (оба бесплатные) и https://stepik.org/course/82541/ (третья ступень, платная, про неё ничего не слышал)
3) Осваиваем азы Pandas — https://stepik.org/course/74457/ (бесплатно)
4) Осваиваем азы Airflow — https://stepik.org/a/99527/ (платный)
5) Осваиваем архитектуру и вообще Базы Данных — https://stepik.org/course/551/ (бесплатно) , тут и про архитектуры, и про Нормальные Формы и т.п. https://stepik.org/course/70710/ (бесплатно) — более глубокое погружение в БД и СУБД.
6) Осваиваем Git — полно бесплатных уроков на ютубе, практиковаться можно на своём гитхаб аккаунте.
6) Осваиваем Облака — https://practicum.yandex.ru/ycloud/ (бесплатный курс), я предпочитаю Google Cloud Platform, но для простоты доступности (к Гугл Облаку надо карту привязывать, а с этим щас проблемы могут быть) начать освоение можно с Yandex.Cloud или VK Cloud
7) Осваиваем Spark, Kafka, Hadoop — не могу посоветовать бесплатные курсы, т.к. осваивал их на платных курсах и «в бою» на задачах сразу, гугля «КАК СДЕЛАТЬ ___ в Spark», и с помощью коллег. Но начни с модулей бесплатного Data Learn, а там сориентируешься куда гуглить и как. И, возможно, вот этот курс https://stepik.org/lesson/699607/ (бесплатно) подойдёт для азов и обзорного понимания Спарка
8) Осваиваем dbt — у них свои бесплтаные курсы прям на сайте лежат https://courses.getdbt.com/collections

Когда Data Learn и курсы выше будут пройдены — можно идти к Карпову на https://karpov.courses/dataengineer (за деньги, дорого). И погружаться в более ядрёные штуки под присмотром наставников и кураторов.
🔥9👍2🥰1
Делаю тестовое в компанию, куда пробовался ровно год назад (плюс-минус 1 неделя).

Смотрю на задачу — а она АБСОЛЮТНО ТАКАЯ ЖЕ, как год назад. Т.е. абсолютно идентичное тестовое.
Единственное, что изменилось, датасет. Было 2 файла, стало 3 файла. Данные стали более разнообразные.

Открыл, изучаю. Думаю… хм… «дай-ка гляну, что я там год назад писал в итоговом файлике».
Открыл. Аж всхрюкнул.

Обратите внимание — что я написал год назад (на чёрном скриншоте) и какая колонка появилась в данных в этом году (белый скриншот).

У меня не настолько большое эго, чтобы подумать, что ЭТО Я ПОВЛИЯЛ НА ТЕСТОВОЕ ЗАДАНИЕ, ЧТО ОНИ ЕГО ДОПОЛНИЛНИЛИ.

Нет конечно, скорее всего случайность. Совпадение. Но забавное совпадение.

Улыбнуло.

P.S. самое печальное, что я не знаю, что им понравилось\не понраивлось в этом задании в прошлом году. Я завалился на SQL вайтбординге, а по этому заданию фидбека не дали никакого, просто рассказал чо делал, показал графики, показал ход мысли и всё. И ZERO в ответ.
#техсобесы #тестовое
🔥8
Forwarded from Инжиниринг Данных (Dmitry)
Амазон выложил в бесплатный доступ курсы по AWS https://www.amazon.com/s?i=courses&rh=p_27%3AAWS+Training+%26+Certification
🔥11
Про бесплатный доступ к курсам по AWS Амазон — короч доступно только для US.
Поэтому, врубайте ВПН на USA, заводите новый аккаунт, укажите в настройках в адресе аккаунта любой рандомный адрес в США и телефон в США.

«Купите» за $0 любой курс, нажмите Start, и потом смело вырубайте ВПН, и с обычного ip «покупайте» остальные нужные курсы за $0.

[апдейт] в комментах подсказали — «Если что новый акк не надо заводить, впн и смены адреса доставки достаточно»
#курсы #учебное
👏2🔥1
Бесит, когда в ТЗ двусмысленное задание.
(обсуждение идей в комментах)

Дано:
Есть у нас вот такие колонки timestamp, country, stream_id, feed_id, content, author
На один stream_id может быть несколько feed_id.

Т.е. один и тот же контент одного и того же автора может транслироваться в один stream_id с нескольких feed_id (в разное время timestamp, и иногда в одно и тоже время timestamp)

Задание:
«consolidate the data so that we do not double count content coming from feeds that belong to the same stream»

И вот самая большая загадка —
1) Можно взять все фиды контента автора на один стрим по стране, и грохнуть все дубли content+author из множества фидов , оставив единственный на стриме. Т.е. получится stream + content + author уникальный ключ.

2) Можно взять все фиды контента автора на один стрим по стране, и грохнуть все которые ДУБЛИРУЮТСЯ ПО ТАЙМСТЕМПУ. И тогда будет timestamp + stream + content + author уникальный ключ.

И вот я не понимаю, что они хотят.
Какой уровень уникальности.
#техсобесы #тестовое
Короч, ребус блин. Обнаружил странную штуку в данных.

в 1 таблице
stream_id, feed_id

в 2
conten_id, author, content_param_1, .. content_param_N (стопка параметров контента)

в 3
timestamp, country , feed_id, content_id

При нескольких джойнах я получаю финальную таблицу (полноценно обогащённую данными)
timestamp, country, stream_id, feed_id, content_id, author, content_param_1, .. content_param_N


И вот вопрос. Это ошибка в данных или это «подвох» в задаче?
Потому что джойн трёх таблиц приводит к 115 лишним строкам. Откуда бы?

А КОСЯК С УНИКАЛЬНОСТЬЮ КЛЮЧЕЙ СЛЕВА-СПРАВА В ДЖОЙНАХ, ВОТ ОТКУДА.
Ща объясню.

По условию сказано «multiple feeds can be connected to the same stream»
ОК, это понятно. Один паблик (стрим) может транслировать контент в три разных фида (ленты новостей), хреновый пример, но всё же.

НО! внезапно обнаружиолось 3 фида, которые привязаны каждый к 2 разным стримам.
Т.е. такого не должно быть (по условию), но есть.

И я не понимаю, как зауникалить ключ (а никак), чтобы при джойне не плодились лишние строки.
И HR не подскажет, есть ли подвох в этих данных, т.к. он не причастен к составлению задачи, и не технарь.
И в письме и в файле с ТЗ нет ни строчки про «если возникут вопросы, пишите» (обычно есть такой пункт, как раз, чтобы задавать уточняющие вопросы)

Мда. Делааа.
#техсобесы #тестовое
Знаете чо бесит прям люто?
ТИШИНА.

Когда отказывают — это огорчает, но зато ты можешь двигаться дальше, не тратя время на ожидание.
Когда вакансий мало — это тоже огорчает, но ты можешь действовать в рамках имеющихся цифр, и прогнозировать какие-то временны́е затраты и план нагрузки (тестовыми задачами) в рамках этих цифр.

А вот когда молчат — вот это прям выбешивает.

Одна из компаний, обозначенная в постах выше, говорит «Нам так срочно нужен человек, прям так срочно, хорошо, что ты можешь выйти хоть завтра, если пройдёшь все этапы, потому что другие кандидаты говорят, что у них аж по 3 месяца notice period, мы так рады так рады, давай скорее проходи этапы, и скорее в работу включайся»

В итоге — по техническому тестовому домашнему заданию = positive feedback, после него — технический собес онлайн = тоже positive feedback и мне о нём прям собеседующий сказал в финале звонка.

И уже третий день — ни ответа ни привета от HR о дальнейших шагах.
До этого, он звонил аж вечером, узнать «могу ли я "завтра" на следующий этап собеседования подключиться».

А как я собрал стопку положительных фидбеков, пропал.

«ТАК СРОЧНО НАДО ТАК СРОЧНО» что аж молчат, и на емейлы и смски не отвечают.

🤬Злюсь. Ну бляха муха, ну если ДА то ДА, херли кота за яйца тянуть, если НЕТ то НЕТ и я пошёл дальше.
Схематозники блин. Перебирают варианты, стопудово.
🔥10👍2🤬2
Поорите вместе со мной.
Собеседовался в Wolt на Analytics Engineer.

Черный скриншот — фидбек на техническое тестовое домашнее заданее.

Белый скриншот — ТЗ этого домашнего задания.

У меня слов нет.
НУ ВОТ КАК ТАК???
«Нам не надо ответы, нам надо датасет» → «а где ответы?»
#собеседования #собесы #техсобесы #тестовое
🤬8😢8🤯7
Лан, от лирики вернёмся к делу:

Зацените курьёзную штуку.
Есть соцсеть ВК. У неё есть открытый API.

Делаем простейший get запрос по API. Настройки запроса — одинаковые. Токен авторизации — один и тот же. Всё идентично.

НО. В одной вкладке юпайтер ноутбука функция отрабатывает. А в другой вкладке крашится ошибкой.

Что, почему, как, какого хрена — не могу понять.

- - - -
А ещё, я не понял, то ли причина в том, что у меня ip светится «заграничный», то ли они обновления выкатывают опять, но даже полученные токены для API отрабатывают через раз авторизацию.

Пока черновик функций набрасывал, часа три убил на получение нормально отрабатывающего токена.

Нда, так Дата Инженерный пет-проект быстро не собрать…

#петпроекты
🔥6
Hiring Freeze. На все вакансии.

ДА ТВОЮ НАЛЕВО🤬

Пройти почти все этапы (остался один — согласование з\п) и поймать Хайринг Фриз, вместо отказа.

В прошлом году так с Unity было — прошёл 9 из 9 этапов (включая технический и гору софскильных). Потратил почти 3 месяца на это. И тоже хайринг фриз.

Скриншот из письма от 18-го ноября. Сегодня прям с утра HR позвонил на мобилу и огорчил.
(Это продолжение вот этого процесса https://t.me/c/1294761024/216 )

Едрит твою налево, Ярослав, нахер ты из ЕПАМа ушёл, а. Сидел бы на своих копейках сильно ниже рынка, зато гарантированных.
#собеседования #собесы
😢19🤬3
- - - - Вернёмся к хорошему и более прикладному для Дата Аналитики и Инженерии - - - -

Поделюсь с вами своей небольшой радостью: моя первая механическая ортогональная сплит-клавиатура))) (читать голосом из рекламы «маленькая фея — моя первая косметика») .

Началось с того, что много лет назад я задумался о прокачке скоропечати. Прошёл известный тренажёр и радовался. Но потом заметил, что у меня во время активной работы начинает ощутимо болеть сустав у кистей. Стал отслеживать причину, и понял, что это от изгиба рук при использовании клавиатуры ноутбука.

Заваливаюсь я с этим делом в чат про кастомные клавиатуры, и такой «ребят, а есть ли клавы, чтоб можно было положить руки справа и слева от компа? Ну эт самое, распополамленные». И меня ткнули в уже древние как мир сплит-клавиатуры.

А клавы бывают — полноразмерные, без-нампада, 60% (без стрелок, F ряда и ещё стопки вспомогательных), 40% (небольшая «планка» миниатюрного размера), раздельные (сплит), и при этом ещё каждая из них может быть «классической» (клавиши смещены, как в печатной машинке), ортогональной (aka COLUMNAR выравнены в ряд по вертикали, по горизонтали есть смещение на длинну пальцев), и ортолинейной (прям ровно по сетке и горизонтально и вертикально).

Стал изучать расположение клавиш, и пришёл к выводу, что для меня будет удобнее ортогональное расположение.

Дальше выбирал формфактор. На это ушло больше всего времени. После долгих поисков нашёл Sofle, а точнее её вторую версию V2 https://josefadamcik.github.io/SofleKeyboard/

Т.к. суфлешка — популярный формфактор, то под неё уже давно продаются комплекты — и просто комплект железа, и комплект железо+платы ( 90% запчастей брал тут https://mechboards.co.uk, но для простого решения лучше сразу взять набор с клавой целиком https://mechboards.co.uk/products/sofle-kit ).

[1 / 2] Продолжение в следующем посте (через пару минут)…
👍5