Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Как у вас с #mentalhealth? Очень популярно сейчас на Западе...
Databricks Raises $1.6 Billion Series H Investment at $38 Billion Valuation

Всего в Databricks было проинвестировано 3.4В, и он ещ ене на IPO. А в Snowflake - 1.4B и он уже на бирже. Я потерял доверие к Snowflake в этом году, так как цели владельцев стала погоня за доходом и сами создатели продукта ушли на задний план.

Этого пока не случилось с Databricks.
Alexey Kirkorov:
Коллеги, ищу лидера команды Data Science. Порекомендуйте пожалуйста в личку, если у кого-то кто-то есть на примете. Описание позиции ниже. Также нужны финансисты на управленческую отчетность.

Коротко:

сновные задачи - лидерство в развитии процессов с использованием ML&DL и в разработке моделей DS. Команда 4 человека.
Для нас важно умение писать чистый, читаемый код на Python, знание статистики, математического анализа, теории вероятностей, линейной алгебры, глубокое понимание ML алгоритмов (линейная регрессия, бустинг и т.д.), опыт внедрения ML-решений в бизнес-процессы и доведение их до прома, последующий мониторинг, опыт руководства командой.


Основные задачи:
• Выстраивание и развитие процессов с использованием ML&DL в компании:
o Сбор требований бизнеса, обсуждение и формализация бизнес-задач, их декомпозиция, планирование и оценка;
o Определение оптимальной архитектуры реализуемых решений;
• Руководство разработкой моделей (полный цикл: от формализации задачи и подбора внешних/внутренних источников до имплементации решений в бизнес-процессы):
o разработка рекомендательных моделей;
o оценки возможного потенциала клиента;
o максимизации совокупной доходности по клиенту;
o модели с аналитикой поведения клиента, формирующие сигналы необходимости коммуникации.
• Анализ больших объемов данных, выявление скрытых тенденций и закономерностей.
• Руководство командой по направлению анализа данных (4 человека).

Для нас важно:
• Высшее образование (математика/физика/программирование);
• Умение писать чистый, читаемый код на Python;
• Знание статистики, математического анализа, теории вероятностей, линейной алгебры, глубокое понимание ML алгоритмов (линейная регрессия, бустинг и т.д.);
• Опыт использования ML-библиотек и алгоритмов на Python (xgboost/lightgbm/catboost, sklearn, …), понимание особенностей и границ применимости;
• Опыт внедрения ML-решений в бизнес-процессы и доведение их до прома, последующий мониторинг;
• Опыт руководства командой;
• Хорошее понимание методов машинного обучения с точки зрения математики и умение адаптировать их под конкретные задачи;
• Уверенные знание SQL (составление сложных запросов и их оптимизация);
• Отличные навыки презентации результата;
• Понимание и опыт АB-тестирования;
• Плюсом будет:
o опыт работы с Linux, Docker, Airflow, MLflow;
o опыт работы с NLP инструментами NLTK, Pymorphy и пр.;
o опыт работы с BI инструментами Tableau, SSRS, Superset;
o опыт построения DL pipeline с использованием фреймворков TF/Pytorch/Keras;
o опыт использования Git, Jira, Confluence;
o опыт участия в хакатонах/соревнованиях по машинному обучению;
o пройденные курсы по ds/ml/cv.

🪆Сейчас на эту позицию вилка 3.0 - 4.0 млн.рублей годовой доход до вычета НДФЛ (13%). За вычетом этого налога сумма на руки.

Контакты по обеим вакансиям: Киркоров Алексей kirkorov@sberleasing.ru +79166599458 или Кирилин Кирилл Kirilin.KA@sberleasing.ru +7 916-593-76-83.
Курсы вышли на новый уровень расходов по рекламе, ещё не встречал на медузе такого. Значит норм зарабатывают на data science 🤑
А вот и вебинар на подходе (2 сентября 2021 в 20:00 по мск)

Кого, чего:
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную команду в одной из крупнейших ритейл-компаний РФ.

Вы услышите ответы на вопросы:
1. Что нужно изучить чтобы идти на первые собеседования?
2. Где искать вакансии новичкам в DS?
3. Как грамотно подготовить резюме?
4. Как выстроить подготовку, что повторить?
5. Чего ждать на собеседовании?
Даже если не собираетесь в DS, приходите, так как инфа будет полезная :)

Канал спикера: https://t.me/start_ds

Ссылка на вебинар:
https://youtu.be/SKItc7yHnVY
Попалась статья 2020 про Zynga (social games), у них команда из 70 аналитиков и инженеров и они рассказывают как они мигрировали на python решения и какие иснтрументы используют. https://www.gamedeveloper.com/disciplines/the-zynga-analytics-platform-in-2020
Еще один интересный доклад из Game dev с конференции GDC (я про нее ранее писал) - Data-Driven or Data-Blinded? Uses and Abuses of Analytics in Games. Доклад больше про мобильные приложения, чем игры.

Но интересно рассказывают, как смотртят на графики и метрики с применением статистики и базовой математики. Спикер, она же CEO компании, рассказала, что по образованию она историк по теме Восточной Европы 18-19 Века, но ей всегда нравились данные, поэтому она овладела SQL, чтобы не зависить от ИТ, а потом закончила курсы матемитике и алгебры. В докладе она рассказывает как она анлизирует данные. Очень хороший пример, как должен работать BI разработчик или продуктовый аналитик.
Delivery Club образовательный. Аналитики сервиса поделились опытом создания мониторинга и системы “near real-time” оповещений для компаний.

Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.

PS ребята также поддержали фонд.
Очень хорошая статья про Olap куб. Что это такое. Мне они никогда не нравились, так как я очень рано в своей карьере поработал с продуктами Microsoft SSAS, где нужно строить реальный куб поверх хранилища данных на SQL Server. У куба вместо SQL - MDX, и вообще это другой мир для BI разработчика.

Главный + для куба - прямой коннектор для Excel, и бизнес пользователи могут slice and dice данные и строить кросс таблички. Все работает как часы, да ещё практически бесплатно.

Зато если мы захотим подключить Tableau, тогда появляется куча ограничений и неудобств.

Но это лишь одна сторона слова OLAP. В модуле 6.2 я специально упомянул другие значения слов.

В общем автор круто расписал все значения и рассмотрел история вопроса.

По мне кубы (которые molap с MDX) - зло🤬
👍1
Я погугли, что за зверь такой Ментат - A Mentat is a fictional profession or discipline in Frank Herbert's Dune universe. Mentats are humans trained to mimic computers: human minds developed to staggering heights of cognitive and analytical ability.
Tableau (SalesForce купила Lintao). Я знаю Nicolas, так как он согласился выступать на моей Amazon Tableau User Group в 2018году. Он сделал хорошую презентацию про Dashboard best practices и рассказал про свой продукт - Lintao - это был набор шаблонов Табло для индустрий, с метриками и графикими. То есть нам просто надо подключить данные, и почти готовый дашборд. Я даже брал его шаблоны и вставлял в Proposal Rock Your Data. Кто бы мог подумать, что так у него все круто сложится.

В целом все community это очень круто. Всегда помогает расширять кругозор, знакомиться с новыми людьми, и нести пользу людям. Не знаю, почему так мало желающих выступать на datalearn?🙄Это же крутая возможность завявить индустрии о себе и получить опыт.

Кстати, сегодня провел первый Xbox DE Talk, на котором Zenimax (те кто делают Doom и Fallout) рассказывали про их опыт с Databricks и Spark. Из всех студий Xbox было 3 дата инженера + 10 инженеров Zenimax.😣 Пока слабый обмен опытом, это не Амазон с 4000+ человек.
The-Evolving-Role-of-the-Data-Engineer.pdf
1.8 MB
The Evolving Role of the Data Engineer Change and Continuity
in Data Practices

What’s a data engineer?
And how to be (or hire) a really good one
By some estimates, data engineering comprises 80% to 90% of the work organizations do with data. But the role of data engineer, and even the term itself, is pretty new and evolving rapidly. If you are (or want to be) a data engineer—or you’re responsible for building or managing data teams—this report will clearly explain the role and the skills and best practices you need to be a successful data engineer.

And the best part? It’s free, courtesy of O’Reilly.
Forwarded from Reveal the Data
Сегодня вечером собираемся с Димой Аношиным, Анастасией Котовой и Артуром Высоцким поболтать про реалии современного BI: обсудим инструменты и тренды. Митап пройдет в рамках технических дискуссий от проекта Техпора. Не знаю, что из этого получится, но думаю будет интересно услышать разные точки зрения. Если хотите задать вопросы — приходите в 20:30 в трансляцию на Youtube, там же останется и запись.

Описание и программа митапа.
#выстуление
Forwarded from Start Career in DS
Напоминаю про сегодняшний вебинар 🙂
Буду рад рассказать полезные штуки и поотвечать на вопросы онлайн!

Бонусом для пришедших будет инсайдерская информация по крутой образовательно-практической программе (в виде стажировки) в крупной российской компании 🙂
Вчера был очень насыщенный день по ивентам, сразу 2.
1. Как подготовиться в первым собесам в DS и найти вакансии? - идеальная информация для начинающего data scientist, полный FAQ по всем вопросам, очень качественно и по делу. Для парктикующих DS может быть полезным тоже.
2. Современный BI - для начинающих BI разработчиков идеально. Для практикующих можно на 2х и останавливаться на интересные моменты. (им не хватает крутых обложек, как Рома рисует для datalearn😜)
Приготовил презентация по редшифту, опять получился большей контент. Зато будет все и сразу по Редшифту и на русском. Из Википедии узнал что Redshift значит уход (shift) от Oracle (он же красный, red).

А я раньше думал, что это про космос. А так всё верно, сам делал проект rolling stone - миграция всего оракла DW на Redshift.
Свежая статья из 2х частей про ELT инструмент DBT (кто не знает, это тулза, чтобы делать трансформации на SQL и запускать по очереди трансформации и отслеживать зависимости). И он есть open source.

PS Если Сергею @erfolg5862 хватит время, он добавит лабу про ELT на DBT к другим лабам редшифт.

PS посмотрел сезон Локи с детьми, как-то не проникся☺️
Нужна подсказка зала. Как элегантней всего исользовать Window Function, чтобы получить резульятат как в зеленой колонке.

То есть, у меня есть 2 события action и move. Только у move есть координаты. А action, который следует за move (должен наследовать координаты с последнего move, то есть где находился игрок). Может быть сразу много actions вподряд. В иделе я сделаю на PySpark c withColumn, но можно и с SparkSQL или даже SQL начать.

Я использовал пока lag function и смотрел в прошлую строчку для action и брал значения. Но когда у меня много actions вподряд - это не работает. Можно потом еще чего-нибудь нагородить, чтобы закрыть нули, но межт есть более элегантное решение?

А кейс очень простой и популярны в game: нанести точки на карту, чтобы смотреть поведение игроков на карте - где погибают, где блуждают и тп, чтобы дизайнеры могли улучшить игру.