This media is not supported in your browser
VIEW IN TELEGRAM
Ну, в целом для многих уже не секрет, все кого следует оповестил, теперь можно и тут сказать.
Я получил и принял оффер в компанию Starship на позицию Data Engineer, в связи с чем покидаю ряды DA/DE в EPAM.
Про Starship — это был самый крутой и адекватный процесс хайринга в Финляндии (за РОВНО ГОД как я пытался найти тут работу я с таким сталкивался только 3 или 4 раза). И самый быстрый.
В отличие от тех же Unity, где интервал между этапами мог составлять 2 недели — в Старшипе были максимум 2-3 дня между этапами. Ну и приняли в офисе, конечно, как родного.
Стек — AWS, Spark, Kafka, Databrics, dbt, Tableau.
Про собесы, работу (из того, что можно сказать, и что не NDA) и, конечно, благодарности (есть как минимум три человека) за развитие, образование и помощь в том или ином виде на пути — напишу позже, в следующих постах.
Пока скажу загадкой. Человек (вы его многие знаете), который часто пишет у себя в канале «ПРИСМОТРИТЕСЬ К DATABRICKS ЕДРИТ ВАС ЭДАК ДА РАЗЭДАК» и «И К dbt !» — оказался прав.
#личное
Я получил и принял оффер в компанию Starship на позицию Data Engineer, в связи с чем покидаю ряды DA/DE в EPAM.
Про Starship — это был самый крутой и адекватный процесс хайринга в Финляндии (за РОВНО ГОД как я пытался найти тут работу я с таким сталкивался только 3 или 4 раза). И самый быстрый.
В отличие от тех же Unity, где интервал между этапами мог составлять 2 недели — в Старшипе были максимум 2-3 дня между этапами. Ну и приняли в офисе, конечно, как родного.
Стек — AWS, Spark, Kafka, Databrics, dbt, Tableau.
Про собесы, работу (из того, что можно сказать, и что не NDA) и, конечно, благодарности (есть как минимум три человека) за развитие, образование и помощь в том или ином виде на пути — напишу позже, в следующих постах.
Пока скажу загадкой. Человек (вы его многие знаете), который часто пишет у себя в канале «ПРИСМОТРИТЕСЬ К DATABRICKS ЕДРИТ ВАС ЭДАК ДА РАЗЭДАК» и «И К dbt !» — оказался прав.
#личное
Насыплю чуток полезного.
Короч, если используете dbt а также что-то из списка [Snowflake, BigQuery, Redshift, Databricks], рекомендую подключить опен-сорсную штуку Elementary https://www.elementary-data.com .
Она генерит просто божественные алерты, не нужно больше шарахаться по логам, и смотреть, что пошло не так. В случае фейла прилетает алерт в канал в слаке, с меншеном оунера таски\модели.
Нюанс — она исходя из описания на сайте — «легко и нативно интегрируется в dbt cloud».
ХЕР.
На словах, как говорится, Лев Толстой. А на деле пожрала времени будь здоров.
Оказалось, в нашем (Databricks) случае, что облако облаком, а локально надо развернуть ещё одну штуку, и конфиг к ней.
Или я так криво читал их документацию, или документация написана через колено.
Но, зато при такой кривой документации, у них потрясающий саппорт (всё общение в Слаке и отвечают почти 24\7).
[1/3]
#рабочее
dbt model owner alertingКороч, если используете dbt а также что-то из списка [Snowflake, BigQuery, Redshift, Databricks], рекомендую подключить опен-сорсную штуку Elementary https://www.elementary-data.com .
Она генерит просто божественные алерты, не нужно больше шарахаться по логам, и смотреть, что пошло не так. В случае фейла прилетает алерт в канал в слаке, с меншеном оунера таски\модели.
Нюанс — она исходя из описания на сайте — «легко и нативно интегрируется в dbt cloud».
ХЕР.
На словах, как говорится, Лев Толстой. А на деле пожрала времени будь здоров.
Оказалось, в нашем (Databricks) случае, что облако облаком, а локально надо развернуть ещё одну штуку, и конфиг к ней.
Или я так криво читал их документацию, или документация написана через колено.
Но, зато при такой кривой документации, у них потрясающий саппорт (всё общение в Слаке и отвечают почти 24\7).
[1/3]
#рабочее
Мы ловили исключения, и не понимали чем они вызваны.
Их Саппорт взял пару дней на выпуск ПАТЧА,
Пока мы это выясняли, они выпустили новую версию, которая была забагована и фейлилась просто по дефолту, и через 12-16 часов они снова выпустили ещё одну😅Мы полдня мозги ломали «почему оно не взлетает», а это просто «не баг, а фича» версии выпущенной вчера ночью.
Ржали в голос — «они выпускают обновления быстрее чем мы её устанавливаем😆».
Связка облако+CLI взлетела. Алерты прекрасны. Отчёты в виде статической хтмл страницы тоже прекрасны.
Дальше развернём всё это в бакете на AWS. И отдельную статичку под хтмл отчёты. Чтобы любой из команды мог обратиться по адресу, и посмотреть отчёт (если ему мало инфы в алерте).
Приблуда ставится, конечно, целым квестом, но точно стоит того.
Обратите внимание, если вам нужно получать инфу о том что «что-то в dbt упало» вовремя, и не хочется по логам шарить в поисках инфы.
[2/3]
#рабочее
Их Саппорт взял пару дней на выпуск ПАТЧА,
который выпустили ради нас (ну, он давно назревал у них, а мы их смотивировали ускориться), а выяснилось, что дело не в нём. Их «нативная интеграция с облаком» на самом деле завязана на «сделайте конфиг на локалке».Пока мы это выясняли, они выпустили новую версию, которая была забагована и фейлилась просто по дефолту, и через 12-16 часов они снова выпустили ещё одну😅Мы полдня мозги ломали «почему оно не взлетает», а это просто «не баг, а фича» версии выпущенной вчера ночью.
Ржали в голос — «они выпускают обновления быстрее чем мы её устанавливаем😆».
Связка облако+CLI взлетела. Алерты прекрасны. Отчёты в виде статической хтмл страницы тоже прекрасны.
Дальше развернём всё это в бакете на AWS. И отдельную статичку под хтмл отчёты. Чтобы любой из команды мог обратиться по адресу, и посмотреть отчёт (если ему мало инфы в алерте).
Приблуда ставится, конечно, целым квестом, но точно стоит того.
Обратите внимание, если вам нужно получать инфу о том что «что-то в dbt упало» вовремя, и не хочется по логам шарить в поисках инфы.
[2/3]
#рабочее
Немножко курьёзов с полей.
Коменты, если чо, в первом посте https://t.me/datasauna/187 . Все вопросы туда.
[3/3]
#рабочее
Коменты, если чо, в первом посте https://t.me/datasauna/187 . Все вопросы туда.
[3/3]
#рабочее
Вопрос назрел.
Если знаешь хороший пример консалтинга в Data сфере (большой компанией, малой командой, а лучше вообще «затащил в соло» примеры) — скинь в комменты пожалуйста.
Ищу:
1) и ссылки на сайты компаний\фрилансеров,
2) и видео (конференции, промовидосы, разборы и т.п.),
3) и статьи (примеры, кейсы, советы, промо, учебные и т.п.).
«Области применения» не критичны, хоть агро-сельхоз-дата, хоть финансы, хоть лайфсаенс, хоть маркетинг и продажи — без разницы.
#личное
Если знаешь хороший пример консалтинга в Data сфере (большой компанией, малой командой, а лучше вообще «затащил в соло» примеры) — скинь в комменты пожалуйста.
Ищу:
1) и ссылки на сайты компаний\фрилансеров,
2) и видео (конференции, промовидосы, разборы и т.п.),
3) и статьи (примеры, кейсы, советы, промо, учебные и т.п.).
«Области применения» не критичны, хоть агро-сельхоз-дата, хоть финансы, хоть лайфсаенс, хоть маркетинг и продажи — без разницы.
#личное
This media is not supported in your browser
VIEW IN TELEGRAM
В общем, со Starship у нас не сложились😐 и сейчас я в поисках новой работы.
Почему — вдаваться в детали не буду, там довольно странно и не понятно всё вышло, кому ни расскажу, все в шоке и удивлены потому что «ну так не бывает, камон».
Ну, испытательный срок на то и испытательный, что его не только сотрудник проходит, но и компания.
Спасибо компании и команде за полученный опыт, было прикольно, негатива к ним не держу, просто удивлён, но нет хейта, набрасывать не буду ни пол раза.
Если у вас есть рефералка на Data Analyst, BI Engineer (ну или Data Engineer) — присылайте, буду рад и благодарен.
Зато теперь могу вам скидывать перлы с собесов, задачки, тестовые и т.п.
Жалею только, что недосидел в ЕПАМе две лишних недели, чтоб не увольняться оттуда.
Теперь даже обратно в ЕПАМ хз как вернуться😅долбанные кулдауны.
Заодно наконец сертификацию по DE GCP добью (надеюсь), и пет-проектом новым займусь, буду тут публиковать чо как.
#личное
Почему — вдаваться в детали не буду, там довольно странно и не понятно всё вышло, кому ни расскажу, все в шоке и удивлены потому что «ну так не бывает, камон».
Ну, испытательный срок на то и испытательный, что его не только сотрудник проходит, но и компания.
Спасибо компании и команде за полученный опыт, было прикольно, негатива к ним не держу, просто удивлён, но нет хейта, набрасывать не буду ни пол раза.
Если у вас есть рефералка на Data Analyst, BI Engineer (ну или Data Engineer) — присылайте, буду рад и благодарен.
Зато теперь могу вам скидывать перлы с собесов, задачки, тестовые и т.п.
Жалею только, что недосидел в ЕПАМе две лишних недели, чтоб не увольняться оттуда.
Теперь даже обратно в ЕПАМ хз как вернуться😅долбанные кулдауны.
Заодно наконец сертификацию по DE GCP добью (надеюсь), и пет-проектом новым займусь, буду тут публиковать чо как.
#личное
Маленькая ржомба с недавнего собеседования на BI Engineer:
После детального рассказа про опыт и инструменты с которыми работал, меня спрашивают «что можешь сказать, про схему ЗВЕЗДА (STAR scheme)»
У меня срабатывает какой-то вообще древний триггер на фразу, и я выдаю им про топологию сети, про масштабируемость, про преимущества и отличия от шины или кольца… смотрю на их лица, и понимаю, что «что-то не то говорю».
Зависаю на секунду на полуслове.
Они такие… «кхм… не, ну хорошо, что ты знаешь про локалку, но мы тебя вообще про БД, про модель данных спрашивали…»
Конфуз😅
Ну, в итоге и про БД рассказал, этап прошёл, щас вот техническое домашнее делаю.
P.S. довольно странно спрашивать у чувака, который тебе расписал свой рабочий процесс детально, вопросы из разряда «первый курс CS», не знаю в чём цимес таких вопросов, толи спросить больше нечего, толи ПОДЛОВИТЬ хотели… хз. Но теперь буду знать, что и основы основ надо повторить, и про них спросить тоже могут.
#собеседования #собесы
После детального рассказа про опыт и инструменты с которыми работал, меня спрашивают «что можешь сказать, про схему ЗВЕЗДА (STAR scheme)»
У меня срабатывает какой-то вообще древний триггер на фразу, и я выдаю им про топологию сети, про масштабируемость, про преимущества и отличия от шины или кольца… смотрю на их лица, и понимаю, что «что-то не то говорю».
Зависаю на секунду на полуслове.
Они такие… «кхм… не, ну хорошо, что ты знаешь про локалку, но мы тебя вообще про БД, про модель данных спрашивали…»
Конфуз😅
Ну, в итоге и про БД рассказал, этап прошёл, щас вот техническое домашнее делаю.
P.S. довольно странно спрашивать у чувака, который тебе расписал свой рабочий процесс детально, вопросы из разряда «первый курс CS», не знаю в чём цимес таких вопросов, толи спросить больше нечего, толи ПОДЛОВИТЬ хотели… хз. Но теперь буду знать, что и основы основ надо повторить, и про них спросить тоже могут.
#собеседования #собесы
В комментах спросили с чего начать изучение DE с нуля:
1) Найти курсы по DE, посмотреть какие инструменты и технологии указаны там в программе курса. Выписать их себе (инструменты, не курсы) в план на изучение, и искать статьи, видео уроки, курсы по этим инструментам\технологиям.
2) Найти людей, которые работают в этом направлении, и спросить у них, что они чаще всего используют в работе, как вообще выглядят задачи, и что стоит изучить. Выписать тоже в список.
3) Изучать и отрабатывать на практике (искать тестовые задания выложенные в сети, придумать себе пет-проект), на тренажёрах.
Готово, вы великолепны.
Первым шагом — идём на бесплатный курс от Data Learn https://datalearn.ru/ от Дмитрия Аношина https://t.me/rockyourdata (которому лично я очень благодарен за его курс, т.к. я не чистый DE, я всё-таки Data Analyst, в первую очередь (в частности Web Analyst / Marketing Analyst, если говорить про доменную экспертизу). И его курс мне помог освоить дополнительные инструменты, чтобы делать не только DA задачи, но и DE (и потом ещё и офер на работу Data Engineer получить).
Поэтому этот курс, это прям первейшее что надо открыть. И по мере изучения профессии и инструментария — гуглить уже уроки и документацию по каждому отдельному инструменту, изучать их глубже, тренироваться на практике.
Перечень DEшных buzzwords, с чем я сталкивался на практике в работе — python, sql, airflow, dbt, postgresql, clickhouse, google bigquery, tableau, powerbi, google data studio, looker, spark, kafka (было дело пускал руки и в AWS пару раз, но чаще работал с Гугловой экосистемой).
Как можно это всё освоить:
1) Осваиваем SQL — https://stepik.org/course/63054/ (бесплатный тренажёр, очень качественный), https://stepik.org/course/90778/ (это более прикладной ПЛАТНЫЙ, но дешёвый, курс, с SQL именно под Data задачи) и отдельно курс по оконным функциям https://stepik.org/course/95367/ (стоит копейки, но стоит того, окошки на собесах часто спрашивают)
2) Осваиваем Питон — я изучал по https://stepik.org/course/67/ и https://stepik.org/course/512/ (оба бесплатные), но, говорят, что https://stepik.org/course/58852/ и https://stepik.org/course/68343/ гораздо лучше по части донесения информации (оба бесплатные) и https://stepik.org/course/82541/ (третья ступень, платная, про неё ничего не слышал)
3) Осваиваем азы Pandas — https://stepik.org/course/74457/ (бесплатно)
4) Осваиваем азы Airflow — https://stepik.org/a/99527/ (платный)
5) Осваиваем архитектуру и вообще Базы Данных — https://stepik.org/course/551/ (бесплатно) , тут и про архитектуры, и про Нормальные Формы и т.п. https://stepik.org/course/70710/ (бесплатно) — более глубокое погружение в БД и СУБД.
6) Осваиваем Git — полно бесплатных уроков на ютубе, практиковаться можно на своём гитхаб аккаунте.
6) Осваиваем Облака — https://practicum.yandex.ru/ycloud/ (бесплатный курс), я предпочитаю Google Cloud Platform, но для простоты доступности (к Гугл Облаку надо карту привязывать, а с этим щас проблемы могут быть) начать освоение можно с Yandex.Cloud или VK Cloud
7) Осваиваем Spark, Kafka, Hadoop — не могу посоветовать бесплатные курсы, т.к. осваивал их на платных курсах и «в бою» на задачах сразу, гугля «КАК СДЕЛАТЬ ___ в Spark», и с помощью коллег. Но начни с модулей бесплатного Data Learn, а там сориентируешься куда гуглить и как. И, возможно, вот этот курс https://stepik.org/lesson/699607/ (бесплатно) подойдёт для азов и обзорного понимания Спарка
8) Осваиваем dbt — у них свои бесплтаные курсы прям на сайте лежат https://courses.getdbt.com/collections
Когда Data Learn и курсы выше будут пройдены — можно идти к Карпову на https://karpov.courses/dataengineer (за деньги, дорого). И погружаться в более ядрёные штуки под присмотром наставников и кураторов.
1) Найти курсы по DE, посмотреть какие инструменты и технологии указаны там в программе курса. Выписать их себе (инструменты, не курсы) в план на изучение, и искать статьи, видео уроки, курсы по этим инструментам\технологиям.
2) Найти людей, которые работают в этом направлении, и спросить у них, что они чаще всего используют в работе, как вообще выглядят задачи, и что стоит изучить. Выписать тоже в список.
3) Изучать и отрабатывать на практике (искать тестовые задания выложенные в сети, придумать себе пет-проект), на тренажёрах.
Готово, вы великолепны.
Первым шагом — идём на бесплатный курс от Data Learn https://datalearn.ru/ от Дмитрия Аношина https://t.me/rockyourdata (которому лично я очень благодарен за его курс, т.к. я не чистый DE, я всё-таки Data Analyst, в первую очередь (в частности Web Analyst / Marketing Analyst, если говорить про доменную экспертизу). И его курс мне помог освоить дополнительные инструменты, чтобы делать не только DA задачи, но и DE (и потом ещё и офер на работу Data Engineer получить).
Поэтому этот курс, это прям первейшее что надо открыть. И по мере изучения профессии и инструментария — гуглить уже уроки и документацию по каждому отдельному инструменту, изучать их глубже, тренироваться на практике.
Перечень DEшных buzzwords, с чем я сталкивался на практике в работе — python, sql, airflow, dbt, postgresql, clickhouse, google bigquery, tableau, powerbi, google data studio, looker, spark, kafka (было дело пускал руки и в AWS пару раз, но чаще работал с Гугловой экосистемой).
Как можно это всё освоить:
1) Осваиваем SQL — https://stepik.org/course/63054/ (бесплатный тренажёр, очень качественный), https://stepik.org/course/90778/ (это более прикладной ПЛАТНЫЙ, но дешёвый, курс, с SQL именно под Data задачи) и отдельно курс по оконным функциям https://stepik.org/course/95367/ (стоит копейки, но стоит того, окошки на собесах часто спрашивают)
2) Осваиваем Питон — я изучал по https://stepik.org/course/67/ и https://stepik.org/course/512/ (оба бесплатные), но, говорят, что https://stepik.org/course/58852/ и https://stepik.org/course/68343/ гораздо лучше по части донесения информации (оба бесплатные) и https://stepik.org/course/82541/ (третья ступень, платная, про неё ничего не слышал)
3) Осваиваем азы Pandas — https://stepik.org/course/74457/ (бесплатно)
4) Осваиваем азы Airflow — https://stepik.org/a/99527/ (платный)
5) Осваиваем архитектуру и вообще Базы Данных — https://stepik.org/course/551/ (бесплатно) , тут и про архитектуры, и про Нормальные Формы и т.п. https://stepik.org/course/70710/ (бесплатно) — более глубокое погружение в БД и СУБД.
6) Осваиваем Git — полно бесплатных уроков на ютубе, практиковаться можно на своём гитхаб аккаунте.
6) Осваиваем Облака — https://practicum.yandex.ru/ycloud/ (бесплатный курс), я предпочитаю Google Cloud Platform, но для простоты доступности (к Гугл Облаку надо карту привязывать, а с этим щас проблемы могут быть) начать освоение можно с Yandex.Cloud или VK Cloud
7) Осваиваем Spark, Kafka, Hadoop — не могу посоветовать бесплатные курсы, т.к. осваивал их на платных курсах и «в бою» на задачах сразу, гугля «КАК СДЕЛАТЬ ___ в Spark», и с помощью коллег. Но начни с модулей бесплатного Data Learn, а там сориентируешься куда гуглить и как. И, возможно, вот этот курс https://stepik.org/lesson/699607/ (бесплатно) подойдёт для азов и обзорного понимания Спарка
8) Осваиваем dbt — у них свои бесплтаные курсы прям на сайте лежат https://courses.getdbt.com/collections
Когда Data Learn и курсы выше будут пройдены — можно идти к Карпову на https://karpov.courses/dataengineer (за деньги, дорого). И погружаться в более ядрёные штуки под присмотром наставников и кураторов.
🔥9👍2🥰1
Делаю тестовое в компанию, куда пробовался ровно год назад (плюс-минус 1 неделя).
Смотрю на задачу — а она АБСОЛЮТНО ТАКАЯ ЖЕ, как год назад. Т.е. абсолютно идентичное тестовое.
Единственное, что изменилось, датасет. Было 2 файла, стало 3 файла. Данные стали более разнообразные.
Открыл, изучаю. Думаю… хм… «дай-ка гляну, что я там год назад писал в итоговом файлике».
Открыл. Аж всхрюкнул.
Обратите внимание — что я написал год назад (на чёрном скриншоте) и какая колонка появилась в данных в этом году (белый скриншот).
У меня не настолько большое эго, чтобы подумать, что ЭТО Я ПОВЛИЯЛ НА ТЕСТОВОЕ ЗАДАНИЕ, ЧТО ОНИ ЕГО ДОПОЛНИЛНИЛИ.
Нет конечно, скорее всего случайность. Совпадение. Но забавное совпадение.
Улыбнуло.
P.S. самое печальное, что я не знаю, что им понравилось\не понраивлось в этом задании в прошлом году. Я завалился на SQL вайтбординге, а по этому заданию фидбека не дали никакого, просто рассказал чо делал, показал графики, показал ход мысли и всё. И ZERO в ответ.
#техсобесы #тестовое
Смотрю на задачу — а она АБСОЛЮТНО ТАКАЯ ЖЕ, как год назад. Т.е. абсолютно идентичное тестовое.
Единственное, что изменилось, датасет. Было 2 файла, стало 3 файла. Данные стали более разнообразные.
Открыл, изучаю. Думаю… хм… «дай-ка гляну, что я там год назад писал в итоговом файлике».
Открыл. Аж всхрюкнул.
Обратите внимание — что я написал год назад (на чёрном скриншоте) и какая колонка появилась в данных в этом году (белый скриншот).
У меня не настолько большое эго, чтобы подумать, что ЭТО Я ПОВЛИЯЛ НА ТЕСТОВОЕ ЗАДАНИЕ, ЧТО ОНИ ЕГО ДОПОЛНИЛНИЛИ.
Нет конечно, скорее всего случайность. Совпадение. Но забавное совпадение.
Улыбнуло.
P.S. самое печальное, что я не знаю, что им понравилось\не понраивлось в этом задании в прошлом году. Я завалился на SQL вайтбординге, а по этому заданию фидбека не дали никакого, просто рассказал чо делал, показал графики, показал ход мысли и всё. И ZERO в ответ.
#техсобесы #тестовое
🔥8
Forwarded from Инжиниринг Данных (Dmitry)
Амазон выложил в бесплатный доступ курсы по AWS https://www.amazon.com/s?i=courses&rh=p_27%3AAWS+Training+%26+Certification
🔥11
Про бесплатный доступ к курсам по AWS Амазон — короч доступно только для US.
Поэтому, врубайте ВПН на USA, заводите новый аккаунт, укажите в настройках в адресе аккаунта любой рандомный адрес в США и телефон в США.
«Купите» за $0 любой курс, нажмите Start, и потом смело вырубайте ВПН, и с обычного ip «покупайте» остальные нужные курсы за $0.
[апдейт] в комментах подсказали — «Если что новый акк не надо заводить, впн и смены адреса доставки достаточно»
#курсы #учебное
Поэтому, врубайте ВПН на USA, заводите новый аккаунт, укажите в настройках в адресе аккаунта любой рандомный адрес в США и телефон в США.
«Купите» за $0 любой курс, нажмите Start, и потом смело вырубайте ВПН, и с обычного ip «покупайте» остальные нужные курсы за $0.
[апдейт] в комментах подсказали — «Если что новый акк не надо заводить, впн и смены адреса доставки достаточно»
#курсы #учебное
👏2🔥1
Бесит, когда в ТЗ двусмысленное задание.
(обсуждение идей в комментах)
Дано:
Есть у нас вот такие колонки
На один stream_id может быть несколько feed_id.
Т.е. один и тот же контент одного и того же автора может транслироваться в один stream_id с нескольких feed_id (в разное время timestamp, и иногда в одно и тоже время timestamp)
Задание:
«consolidate the data so that we do not double count content coming from feeds that belong to the same stream»
И вот самая большая загадка —
1) Можно взять все фиды контента автора на один стрим по стране, и грохнуть все дубли content+author из множества фидов , оставив единственный на стриме. Т.е. получится stream + content + author уникальный ключ.
2) Можно взять все фиды контента автора на один стрим по стране, и грохнуть все которые ДУБЛИРУЮТСЯ ПО ТАЙМСТЕМПУ. И тогда будет timestamp + stream + content + author уникальный ключ.
И вот я не понимаю, что они хотят.
Какой уровень уникальности.
#техсобесы #тестовое
(обсуждение идей в комментах)
Дано:
Есть у нас вот такие колонки
timestamp, country, stream_id, feed_id, content, authorНа один stream_id может быть несколько feed_id.
Т.е. один и тот же контент одного и того же автора может транслироваться в один stream_id с нескольких feed_id (в разное время timestamp, и иногда в одно и тоже время timestamp)
Задание:
«consolidate the data so that we do not double count content coming from feeds that belong to the same stream»
И вот самая большая загадка —
1) Можно взять все фиды контента автора на один стрим по стране, и грохнуть все дубли content+author из множества фидов , оставив единственный на стриме. Т.е. получится stream + content + author уникальный ключ.
2) Можно взять все фиды контента автора на один стрим по стране, и грохнуть все которые ДУБЛИРУЮТСЯ ПО ТАЙМСТЕМПУ. И тогда будет timestamp + stream + content + author уникальный ключ.
И вот я не понимаю, что они хотят.
Какой уровень уникальности.
#техсобесы #тестовое
Короч, ребус блин. Обнаружил странную штуку в данных.
в 1 таблице
в 2
в 3
При нескольких джойнах я получаю финальную таблицу (полноценно обогащённую данными)
И вот вопрос. Это ошибка в данных или это «подвох» в задаче?
Потому что джойн трёх таблиц приводит к 115 лишним строкам. Откуда бы?
А КОСЯК С УНИКАЛЬНОСТЬЮ КЛЮЧЕЙ СЛЕВА-СПРАВА В ДЖОЙНАХ, ВОТ ОТКУДА.
Ща объясню.
По условию сказано «multiple feeds can be connected to the same stream»
ОК, это понятно. Один паблик (стрим) может транслировать контент в три разных фида (ленты новостей), хреновый пример, но всё же.
НО! внезапно обнаружиолось 3 фида, которые привязаны каждый к 2 разным стримам.
Т.е. такого не должно быть (по условию), но есть.
И я не понимаю, как зауникалить ключ (а никак), чтобы при джойне не плодились лишние строки.
И HR не подскажет, есть ли подвох в этих данных, т.к. он не причастен к составлению задачи, и не технарь.
И в письме и в файле с ТЗ нет ни строчки про «если возникут вопросы, пишите» (обычно есть такой пункт, как раз, чтобы задавать уточняющие вопросы)
Мда. Делааа.
#техсобесы #тестовое
в 1 таблице
stream_id, feed_idв 2
conten_id, author, content_param_1, .. content_param_N (стопка параметров контента)в 3
timestamp, country , feed_id, content_idПри нескольких джойнах я получаю финальную таблицу (полноценно обогащённую данными)
timestamp, country, stream_id, feed_id, content_id, author, content_param_1, .. content_param_NИ вот вопрос. Это ошибка в данных или это «подвох» в задаче?
Потому что джойн трёх таблиц приводит к 115 лишним строкам. Откуда бы?
А КОСЯК С УНИКАЛЬНОСТЬЮ КЛЮЧЕЙ СЛЕВА-СПРАВА В ДЖОЙНАХ, ВОТ ОТКУДА.
Ща объясню.
По условию сказано «multiple feeds can be connected to the same stream»
ОК, это понятно. Один паблик (стрим) может транслировать контент в три разных фида (ленты новостей), хреновый пример, но всё же.
НО! внезапно обнаружиолось 3 фида, которые привязаны каждый к 2 разным стримам.
Т.е. такого не должно быть (по условию), но есть.
И я не понимаю, как зауникалить ключ (а никак), чтобы при джойне не плодились лишние строки.
И HR не подскажет, есть ли подвох в этих данных, т.к. он не причастен к составлению задачи, и не технарь.
И в письме и в файле с ТЗ нет ни строчки про «если возникут вопросы, пишите» (обычно есть такой пункт, как раз, чтобы задавать уточняющие вопросы)
Мда. Делааа.
#техсобесы #тестовое