Инжиниринг Данных

Forwarded from Datalytics

Нашёл на Kaggle микрокурс по изучению Pandas, оформленный в виде ноутбуков. Включает в себя разбор всех базовых функций, так что для ознакомления с возможностями библиотеки отлично подходит

https://www.kaggle.com/learn/pandas

Kaggle

Learn Pandas Tutorials

Solve short hands-on challenges to perfect your data manipulation skills.

1.8K viewsDmitry Anoshin, 15:08

Инжиниринг Данных

Forwarded from World Speaks English (IELTS Prep)

💫 БЕСПЛАТНЫЙ ВЕБИНАР ОБ IELTS

То, чего никогда не было - бесплатный и всеобъемлющий вебинар про IELTS с моими друзьями из школы аналитиков данных DataLearn!

2 сентября, в 20:00 (время московское) буду вещать про самостоятельную подготовку к тесту. Затрону темы:
1. Зачем нужен IELTS
2. Требуемые баллы
3. Структура теста
4. Где и за сколько сдавать
5. Как готовиться самостоятельно
6. Лучшие учебники
7. Сложности самоподготовки
8. Как я могу вам помочь

Трансляция будет здесь, присоединяйтесь!

Придете? 😍

2.4K viewsDmitry Anoshin, 17:58

Инжиниринг Данных

2.5K viewsDmitry Anoshin, 19:10

Add a comment

Инжиниринг Данных

Так как я сейчас в Amazon Retail, и текущий руководитель Jeff Wilke уходит на пенсию после 20 лет, назначают нового руководителя, если интересно, тут подробности.

Fortune

Who is Dave Clark, the new chief of Amazon's giant retail business?

Early in his career, he was known as "the sniper."

2.3K viewsDmitry Anoshin, 16:07

Add a comment

Инжиниринг Данных

Еще один новый канал по AI/ML и по развитию персонального бренда. Allie работает в AWS в роли sales для стартапов. Насколько я понял, она закончила MBA связанную с AI/ML и активно рассказывает в linkedin про свой опыт за что и получила популярность. Рассказывает очень позитивно.

2.4K viewsDmitry Anoshin, 16:28

Add a comment

Инжиниринг Данных

Как вы понимаете, без английского языка в нашей профессии никуда. Для вас мы нашли интересного спикера, которые занимается обучение языка уже много лет. Сам вебинар про IELTS, это своего рода продолжение темы про Иммиграцию в Канаду, чтобы полностью осветить этот вопрос. Но даже если вы не планируете сдавать IELTS, вам будет полезно узнать про структуру экзамены, про материалы для изучения языка и много другого. Через 10 минут начало! https://youtu.be/qV89JpCshaI

YouTube

Зачем нужен IELTS и как подготовиться / Darian Sandmartin

🔔 Darian Sandmartin (IELTS Academic 8.0) - создательница международного сообщества World Speaks English для тех, кто изучает английский и готовится к IELTS - рассказывает о том, зачем нужен IELTS, как к нему подготовиться самостоятельно, какие учебники использовать…

2.4K viewsDmitry Anoshin, 16:51

1 comment

Инжиниринг Данных

Я часто ссылался на облачный ETL - Matillion. Я начал работать с ними с 2017 и теперь они попали в квадрант гартнера. Кто смотрел мои уроки по BI на datalearn, уже знает, что такое квадрант и кто туда попадает. На модуле 4 будем как раз с ETL/ELT разбираться. Я думаю ещё недели 2-3 и смогу продолжить.

Matillion

Matillion Named in the 2020 Gartner Magic Quadrant for Data Integration Tools

At a growing company like Matillion, you get to experience a lot of great firsts. Of course, there was our first sale of Matillion ETL. We also remember our first round of funding. LastThe post...

2.4K viewsDmitry Anoshin, 22:43

Add a comment

Инжиниринг Данных

Forwarded from Интернет-аналитика (Алексей Никушин)

Это что-то невероятное

Анатолий Карпов @data_karpov берет интервью у Алексея Никушина @a_nikushin

Говорим про образование, курсы, настроения в @analysts_hunter, Матемаркетинг @MateMarketing_official и нелегкую жизнь аналитиков

https://www.youtube.com/watch?v=mome3DWQqg0

YouTube

Алексей Никушин: аналитика, маркетинг, МатеМаркетинг | Интервью | karpov.courses

Курс «Аналитик данных»: http://bit.ly/429Aj4i

В этот раз к нам в гости пришёл Алексей Никушин, основатель конференции МатеМаркетинг. Нам удалось поговорить о настоящем и будущем аналитики, в частности:

● Аналитик и маркетолог — это одно и тоже. Правда…

2.2K viewsDmitry Anoshin, 18:21

Инжиниринг Данных

https://zen.yandex.ru/media/id/5c20640793f5e900aa166d58/kak-ia-stal-programmistom-5f4a9d33163f9559a8aad690

Яндекс Дзен

Как я стал программистом

Здравствуйте, уважаемые подписчики и гости канала! А дело было в далеком 1998. У нас в школе были дополнительные занятия в ЦВР (центр внеклассного или внешкольного развития) - это что-то типа школы, где только кружки. Отказаться ты особо не можешь, так как…

2.3K viewsDmitry Anoshin, 21:32

Add a comment

Инжиниринг Данных

Интересная статья про Data-Driven подход. В ней автор делится историями про подход Амазон. Сейчас у меня тоже интересные проекты. Я уже месяц с новой командой, но пока не доконца разобрался как все работает. С точки зрения бизнеса у нас 2 основных проекта - это feature attribution model (то есть все кампании на главной странице амазон) и customer perception. Science команда использует AWS Elastic Map Reduce (Hadoop) + Spark + Zeppelin для heavy liftin трансформаций - этот процесс называется feature engineering. Используется Hadoop потому что, объем кликстрима это сотни терабайтов. Дальше, используют GPU виртульную машину для моделей deep learning. Помимо этого есть еще много A/B тестов. В ближайше перспективе мне нужно будет найти и устранить причину в существующих data pipelines, которые берут начала из центрального озера данных и мы используем еще один EMR+Spark, чтобы копировать к себе нужные данные в формате parquet.
Другая моя инциатива заменить существующие подход EMR + GPU виртуальную машину, на Amazon Sage Maker. Как я понял с 2021 года Amazon планирует повсеместно использовать этот сервис для ML/AI.

Пока не очень понял как все это работает, но технические уже более менее понятно откуда данные приходят и куда уходят.

Entrepreneur

Data Driven: What Amazon's Jeff Bezos Taught Me About Running a Company

A former employee of the retailer reflects on the lessons learned from the boss of the web giant.

2.4K viewsDmitry Anoshin, 00:29

4 comments

Инжиниринг Данных

“There are no solutions. There are only trade-offs.” by Thomas Sowell. Что значит не бывает решений, а есть только компромиссы. При построении аналитических решений и продуктов это фраза очень кстати. Всегда мы слышим - "Мы можем это сделать, но...". Или " у нас вот есть 2 варианта, у каждого свои +/-".

2.2K viewsDmitry Anoshin, 04:38

Add a comment

Инжиниринг Данных

22 сентября расскажут про Databricks + Lakehouse. Я очень хотел бы поработать на databrics и создать lakehouse. То есть это полная альтернатива традиционному хранилищу данных. Так же Spark даст возможность использовать библиотеки для ML, ноутбуки для визуализации и дашбордов, и библиотеки для стриминга. Кто-то делал проект на databricks? https://databricks.com/p/webinar/cloud-data-platform-virtual-event-lakehouse

Databricks

Cloud Data Platform Series – The Dawn of Lakehouse | Databricks

Join the virtual event to learn about the Lakehouse architecture, combining the best of data lakes and data warehouses for modern data needs.

2.8K viewsDmitry Anoshin, 04:48

Add a comment

Инжиниринг Данных

А вот еще интересное мероприятия - DBT проводит онлайн конференцию в декабре. Интересное решения, для тех кто любит хранить все тбизнес дата трансформации в SQL (может и pyhton поддерживает). https://www.getdbt.com/coalesce/

2.8K viewsDmitry Anoshin, edited 04:52

Add a comment

Инжиниринг Данных

Forwarded from настенька и графики

2.4K viewsDmitry Anoshin, 16:35

Инжиниринг Данных

Сегодня опытный человек лет 40 поделился со мной интересной идеей. В современной корпоративной культуре, человек подобен виртуальной машине. Так как мы с ним в амазоне, соответственно это EC2 instance, который работает, а когда что-то не так, его просто отключают и удаляют на всегда, или он сам сдувается и отваливается. Мне понравилось такое сравнение. Другой комментарий про отсутствие empathy (эмпатия - осознанное сопереживание текущему эмоциональному состоянию другого человека без потери ощущения происхождения этого переживания). Люди настолько заняты и перегружены работой, что не остается места эмпатии. Как у вас с эмпатией на рабочем месте?

Кстати в библиографической книге про Стив Джобса, говориться что Бил Гейтс совершенно не обладает эмпатией, а вот его предшественние новый CEO наоборот. Сейчас большой тренд на эмпатия в западных компаниях, новые CEO Uber и ряда других крупных компаний.

2.5K viewsDmitry Anoshin, edited 22:17

13 comments

Инжиниринг Данных

Forwarded from LEFT JOIN

Altinity выпустили обзор сравнения перфоманса Clickhouse и Redshift, несколько ключевых выводов:
+ В Clickhouse появилась возможность загружать данные из S3 табличной функцией s3()
+ Clickhouse на одной ноде несколько проигрывает Redshift по скорости выполнения запросов, но выигрывает на сопоставивом количестве нод
+ Стоимость операционного использования Clickhouse ощутимо ниже, чем Redshift (однако в статье не указан необходимый ресурс на поддержку того и иного решения)
+ В Clickhouse по-прежнему остаются ряд особенностей, которые следует учитывать при построении запроса.
Например, использование конструкции с JOIN до сих пор неэффективно, а замена JOIN на подзапросы дает значительный прирост в скорости.

Altinity | Run open source ClickHouse® better

ClickHouse Software And Services | Altinity

Deploy and operate ClickHouse, a lightning fast, open source SQL data warehouse for real-time analytics, time series, and log analysis.

2.3K viewsDmitry Anoshin, 14:53

Инжиниринг Данных

2.8K viewsDmitry Anoshin, 14:54

1 comment

Инжиниринг Данных

Forwarded from Reveal the Data

Написал заметку о том как быть, когда заказчик просит «таблицу как в Эксель» и никаких графиков. Показал для каких задач и как работают таблицы. Описал семь кейсов, которые обычно прячутся за такими запросами, и какие решения я использую.

https://revealthedata.com/blog/all/tablica-ili-grafik-kak-ubedit-zakazchika/

#статья

Revealthedata

Таблица или график? Как убедить заказчика

Подскажи плз, стоит ли бороться, забить или еще какой-то вариант?)»

2.1K viewsDmitry Anoshin, 15:09

Инжиниринг Данных

2.3K viewsDmitry Anoshin, 05:08

Add a comment

Инжиниринг Данных

Будем считать, что на канале и на datalearn мы сажаем семена знаний😜

2.3K viewsDmitry Anoshin, 05:10

2 comments

Инжиниринг Данных

Forwarded from data будни

нужны ли алгоритмы программистам?

холиварный выпуск Moscow Python подкаста: Григорий Петров и Злата Обуховская накидывали на вентилятор, направленный на Асю Воронцову из Яндекса.

Тезис №1: знание алгоритмов нужны только тем, кто работает с высоконагруженными сервисами, где важна эффективности. Типа ядра Линукса или поисковика Яндекса. (важно отметить: даже в самом Яндексе не все работают с хайлоадом)

Тезис №2: внедрение алгоритмов в код ухудшает его читаемость. Это важно, т.к. код больше читается, чем пишется.

Тезис №3: времязатраты на написание эффективного кода не всегда окупается. Можно потратить две недели на код, который даёт всего 5% в сравнении с уже готовой библиотекой.

Тезис №4: профилировщик — лучший друг программиста. Это снимает большинство вопросов с эффективностью. Например, он подскажет, если вдруг код зайдёт в цикл.

Тезис №5: в больших компаниях спрашивают знание алгоритмов (и умение их писать на бумажке) не только ради самого знания, но и просто как ещё один фильтр, чтобы отсеять людей, которые уже приложили усилия и вызубрили редко используемую информацию.

Подкаст в iTunes и overcast

Apple Podcasts

‎«Moscow Python: подкаст о Python на русском»: «Moscow Python Podcast. Алгоритмы vs Профилировщик (level: All)» в Apple Podcasts

‎Шоу «Moscow Python: подкаст о Python на русском», выпуск «Moscow Python Podcast. Алгоритмы vs Профилировщик (level: All)» от 12 авг. 2020 г.

2.3K viewsDmitry Anoshin, 16:12

About

Blog

Apps

Platform