Инжиниринг Данных – Telegram

Инжиниринг Данных

23.4K subscribers

1.98K photos

56 videos

192 files

3.2K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.4K subscribers

Инжиниринг Данных

Сегодня буду выступать на https://devgamm.com/fall2021/. Я первый раз прошел через официальное ревью презентации с двумя директорами и 2 principal инженерами, тот самый случай, когда инициатива 😞 инициатора😳

👍1

5.24K viewsDmitry Anoshin, 07:37

Инжиниринг Данных

Работаете с облачными проектами или только планируете переходить на облачные решения?
Научитесь управлять бюджетами на облачные разработки эффективно с Microsoft Azure!

👉Регистрируйтесь на бесплатный вебинар от экспертов Microsoft (и не только) «Управляем бюджетом в Azure: полезные советы».
30 ноября, 10:00–12:00 (МСК)

За пару часов они расскажут:
- Как правильно считать стоимость облачных ресурсов;
- Как оптимизировать разработку архитектуры;
- Какие наиболее эффективные способы закупки облачных ресурсов и пути экономии бюджета.

Обязательная регистрация уже доступна!
👉ЗАРЕГИСТРИРОВАТЬСЯ ⟶

5.01K viewsDmitry Anoshin, 12:01

Инжиниринг Данных

Классический пример использования AI, мало того, что он совсем не Responsible AI, так он еще похож на классический случай внедрение ML/AI в организациях.

Кратко про AI систему, которая вершит судьбы людей: It is a Microsoft Excel-based system called Chinook.

Chinook - это разновидность лосося, сразу видно Канадские рыбаки придумали красивое название для своей AI системы😏

5.01K viewsDmitry Anoshin, edited 17:13

Инжиниринг Данных

Субботу я посвятил looker. Looker это BI инструмент, который доступен только в облаке. В РФ врятли популярен, но в нем вся ваша аналитика как код, мы создаём семантический слой и описываем все с помощью LookML. Материалы я взял на Pluralsight - есть курс от Гугла с лабами и на самом сайте Looker. Отличная штука в связке вместе с dbt, такой наборчик SQL дата хипстера(ши).🐒

Кто используете поделитесь, как он вам?

4.69K viewsDmitry Anoshin, 21:46

Инжиниринг Данных

Новый для меня инструмент - Apache Ranger - the vision with Ranger is to provide comprehensive security across the Apache Hadoop ecosystem. https://ranger.apache.org/

4.46K viewsDmitry Anoshin, 05:11

Инжиниринг Данных

Парочка современных решений, конечно же в облаке🌩

Building a Data Warehouse on Google Cloud Platform That Scales With the Business

Scentbird Analytics 2.0. Migrate from Redshift to Snowflake. Redesign ETL process.

Статья имеют краткое описание инструментов и архитектуры.

4.5K viewsDmitry Anoshin, 05:14

Инжиниринг Данных

На пересечение Machine Learning и Data Engineering существует Feature Stopre и MLops. Эти 2 ключевых слова, при мысли от которых у инженера данных настоящий восторг, уровень buzz words на пределе. Главное загвоздка, а как это собственно делать🙈

Вот еще несколько новых инструментов по этой теме - Feast and Flyte.

Feast provides the feature registry, an online feature serving system, and Flyte can engineer the features. Flyte can also help ensure incremental development of features and enables us to turn on the sync to online stores only when we are confident about the features.

Flyte provides a way to train models and perform feature engineering as a single pipeline. But it provides no way to serve these features to production when the model matures and is ready to be served in production.

Bring ML Close to Data Using Feast and Flyte

*What is a Feature Store?
**Feature Engineering tutorial with Flyte

Bring ML Close to Data Using Feast and Flyte

And handle feature-engineered data effectively in an ML pipeline

4.73K viewsDmitry Anoshin, 12:03

Инжиниринг Данных

Microsoft Synapse Analytics активно развивает свою платформу и добавляет туда все больше продуктов.

Microsoft Research

SynapseML: A simple, multilingual, and massively parallel machine learning library - Microsoft Research

Today, we’re excited to announce the release of SynapseML (previously MMLSpark), an open-source library that simplifies the creation of massively scalable machine learning (ML) pipelines. Building production-ready distributed ML pipelines can be difficult…

4.38K viewsDmitry Anoshin, 17:35

Инжиниринг Данных

Рады предложить вашему вниманию перевод статьи Тристана Хэнди «The Modern Data Stack: Past, Present, and Future». Она о современном стеке данных, если точнее, о его эволюции: автор рассматривает развитие аналитических решений с 2012 по 2020 год (статья прошлогодняя), даёт свою оценку происходящему и рассуждает о возможном будущем. Автор с более чем 20-летним опытом в области данных старается понять динамику продуктовой экосистемы в этой сфере.

Перевод подготовила Наташа Низамутдинова, стаж в области данных 0 лет, опыт в туризме 11 лет, с аналитикой — на этапе знакомства.

Современный стек данных: прошлое, настоящее и будущее

В этом посте представлен перевод статьи на dbt от Tristan Handy . Перевод подготовлен при поддержке сообщества аналитического курса DataLearn и телеграм-канала Инжиниринг Данных . Мои мысли о том, где...

👍1

4.92K viewsDmitry Anoshin, 03:43

Инжиниринг Данных

Планирование работы, фаз проекта, спринта - это очень важная часть командной работы и достижения результата. Мне, как инженеру данных, все эти митинги по планированию, очень не нравятся, как и любые другие митинги с 3+ человека. Но без правильного планирования невозможно сделать проект вовремя. Очень хорошая статья обзор, как разные команды и компании занимаются планированием.

What planning is like at…
From sprint cadence to success metrics, here’s a snapshot of the planning process at Netflix, Mailchimp, Asana, LaunchDarkly, and more.

PS Можно даже сделать перевод - отличная статья на продуктовую тему. Есть желающие?

What planning is like at… – Increment: Planning

From sprint cadence to success metrics, here’s a snapshot of the planning process at Netflix, Mailchimp, Asana, LaunchDarkly, and more.

👍1

4.64K viewsDmitry Anoshin, edited 17:30

Инжиниринг Данных

Great Expectations это ~~новая~~ (Паша в комментариях настоял) популярная библиотека для дата инжиниринга на питоне, библиотека служит для data quality задач. Новая статья про использование этой библиотеки вместе с Amazon Redshift.

Provide data reliability in Amazon Redshift at scale using Great Expectations library | Amazon Web Services

Ensuring data reliability is one of the key objectives of maintaining data integrity and is crucial for building data trust across an organization. Data reliability means that the data is complete and accurate. It’s the catalyst for delivering trusted data…

5.02K viewsDmitry Anoshin, edited 18:02

Инжиниринг Данных

https://youtu.be/LmW4JjR2-_8

4.51K viewsDmitry Anoshin, 23:49

Инжиниринг Данных

🆎 Proba — новый сервис для проверки продуктовых гипотез в мобильных приложениях.

Развитие мобильного приложения невозможно без постоянной проверки новых гипотез. Это конвейер — протестировали, измерили, приняли/отклонили. Любому product-менеджеру, разработчику, аналитику, маркетологу хочется ускорить этот процесс. На проверку каждой гипотезы уходит несколько дней (часто и недель), плюс нужно позаботиться о статзначимости результата.

Мы запускаем сервис, который помогает мобильным продуктам автоматизировать этот процесс и проводить A/B-тесты быстрее и дешевле. Для этого мы реализовали алгоритмы автоматического распределения пользователей и оптимизации под выбранную целевую метрику. Помимо простой конверсии алгоритм может оптимизироваться на ARPU и количество совершённых событий. Уже в ходе эксперимента побеждающий вариант будет получать больше пользователей. Автоматическое распределение трафика работает на основе байесовской статистики.

🚀 Мы приглашаем вас попробовать наш сервис бесплатно и будем рады любой обратной связи — регистрируйтесь на proba.ai

📆 Также приглашаем на бесплатный вебинар «А/B-тесты в мобайле: как проверять гипотезы быстро и дёшево», который пройдёт 1 декабря в 16:00 МСК. Регистрация доступна здесь.

По всем вопросам: @annatch66

5.46K viewsDmitry Anoshin, 09:02

Инжиниринг Данных

Бесплатный курс на 10 часов по анализу данных в Python - How to Analyze Data with Python, Pandas & Numpy

freeCodeCamp.org

How to Analyze Data with Python, Pandas & Numpy - 10 Hour Course

Data Analysis is an in-demand field but it can be hard to get into as a beginner. We've just released a 10-hour beginner-friendly video course to teach people how to analyze data with Python, Pandas, and Numpy. This course offers a coding-first intro...

5.25K viewsDmitry Anoshin, 16:21

Инжиниринг Данных

Термин Data Observability становится все популярней.

Data Observability, an organization’s ability to fully understand the health of the data in their system, eliminates data downtime by applying best practices of DevOps Observability to data pipelines. Like its DevOps counterpart, Data Observability uses automated monitoring, alerting, and triaging to identify and evaluate data quality and discoverability issues, leading to healthier pipelines, more productive teams, and happier customers. (Из этой статьи
What is Data Observability?)

В facebook прошлел Data Observability Learning Summit 2021

И совсем недавно увидел продукт Datafold, компания созданная нашими основателями. И недавно они получили раунд инвестиций в 20 млн. Насколько я понял, у них была цель выйти на российский рынок, так как их сотрудник спамил дата народ на хабре и предлагал писать статьи на русском за денюшку. А может быть у них были другие цели. С одной стороны это круто, что есть еще один новый продукт с русскими корнями, а с другой стороны, зная сколько там дата всяких продуктов(The 2021 Machine Learning, AI and Data (MAD) Landscape), понимаешь какая высокая конкуренция.

What is Data Observability?

Hint: it’s not just data for DevOps.

5.21K viewsDmitry Anoshin, edited 16:36

Инжиниринг Данных

Forwarded from Data1984

https://youtu.be/KgdWvtppH50

Why You Should Become A Data Engineer And Not A Data Scientist - Picking The Right Data Career

There are a lot of data career choices.

You can become a data scientist, a data engineer or a data analyst to name a few.

But which one is right?

In this video I will talk about why you might want to become a data engineer instead of a data scientist.…

5.07K viewsDmitry Anoshin, 19:33

Инжиниринг Данных

25 Ноября в 7 вечера новый крутой вебинар! https://youtu.be/CAdkL9vM6Do

Не пропустите!

5.5K viewsDmitry Anoshin, 20:21

Инжиниринг Данных

через 5 мин начинаем:
https://youtu.be/CAdkL9vM6Do

ADX(KUSTO): INTERACTIVE BIG DATA ANALYTICS / GOR HAYRAPETYAN

📌 Описание:
Мы рассмотрим как устроен Кусто и где его можно применить. Поговорим о том к какой категории баз данный относиться Кусто и как он отличается от других решений в своей категории. Также за счет каких решений Кусто эффективнее и быстрее. Напишем…

4.93K viewsRoman Ponomarev, 15:53

Инжиниринг Данных

люблю читать про онлайн обучение. https://vc.ru/marketing/324935-nas-prodolzhayut-obmanyvat-servisy-onlayn-obrazovaniya-na-chernuyu-pyatnicu-v-2021

Нас продолжают обманывать сервисы онлайн-образования на «Чёрную пятницу» в 2021? — Маркетинг на vc.ru

В 2020 я сделал обзор Чёрной пятницы в популярных EdTech проектах: Skillbox, GeekBrains, Нетология, HTML Academy, SkillFactory, Hexlet, Я.Практикум. Мне стало интересно, как изменилась стоимость курсов и профессий за год, а также какие скидки дают нам образовательные…

4.96K viewsDmitry Anoshin, edited 16:50

Инжиниринг Данных

Использование Slow Change Dimension Type 1, 2 в dbt.

Modelling Type 1 + 2 Slowly Changing Dimensions with dbt

If you ever had the trouble of trying to model different types of Slowly Changing Dimensions on a single dimension with dbt, continue reading on. If not, check out these resources to get an idea on…

5.03K viewsDmitry Anoshin, 17:09

Инжиниринг Данных

Теперь как пользователь dbt, обязательно послушаю доклады на их конференции https://coalesce.getdbt.com/

4.9K viewsDmitry Anoshin, 19:02