Инжиниринг Данных – Telegram

Инжиниринг Данных

22.4K subscribers

1.68K photos

49 videos

177 files

2.98K links

Делюсь новостями из мира аналитики и карьерными советами;)

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG

🛠️ dataengineer.ru

🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

22.4K subscribers

Инжиниринг Данных

Сегодня увидел, что один из топовых инженеров Амазона - VP Amazon Robotics/Distinguished Engineer присоединился в роли CTO компании Scale AI, которую создал студент MIT 3 года назад в возрасте 21-22, в итоге он бросил MIT ( в лучших традициях фаундеров). Сейчас они закрыли раунд инвестиций C +100млн$. Насколько я понял, компания создала платформу, которая занимается разметкой данных (видео, аудио, текст). Чтобы создать крутой AI ему часто надо помочь тренироваться на реальных данных, для этого их надо размечать. То есть по сути, Scale AI это как call center на аутсорсу, но только они не на звонки отвечают, а размечают данные - The startup has nearly 30,000 contractors aiding in the labeling process. “The humans are pretty critical to what we’re doing because they’re there to make sure that all the data we provide is really high quality,”

Все мы знаем, насколько критично качество данных в аналитики, в принятии решений и ML/AI. Вот они решают конкретную задачу, повышают качество входных данных, а на выходе повышают качество AI моделей, например для автономных автомобилей.

2.4K viewsDmitry Anoshin, edited 18:23

Инжиниринг Данных

Forwarded from Datalytics

Нашёл на Kaggle микрокурс по изучению Pandas, оформленный в виде ноутбуков. Включает в себя разбор всех базовых функций, так что для ознакомления с возможностями библиотеки отлично подходит

https://www.kaggle.com/learn/pandas

Learn Pandas Tutorials

Solve short hands-on challenges to perfect your data manipulation skills.

1.8K viewsDmitry Anoshin, 15:08

Инжиниринг Данных

Forwarded from World Speaks English (IELTS Prep)

💫 БЕСПЛАТНЫЙ ВЕБИНАР ОБ IELTS

То, чего никогда не было - бесплатный и всеобъемлющий вебинар про IELTS с моими друзьями из школы аналитиков данных DataLearn!

2 сентября, в 20:00 (время московское) буду вещать про самостоятельную подготовку к тесту. Затрону темы:
1. Зачем нужен IELTS
2. Требуемые баллы
3. Структура теста
4. Где и за сколько сдавать
5. Как готовиться самостоятельно
6. Лучшие учебники
7. Сложности самоподготовки
8. Как я могу вам помочь

Трансляция будет здесь, присоединяйтесь!

Придете? 😍

2.4K viewsDmitry Anoshin, 17:58

Инжиниринг Данных

2.5K viewsDmitry Anoshin, 19:10

Инжиниринг Данных

Так как я сейчас в Amazon Retail, и текущий руководитель Jeff Wilke уходит на пенсию после 20 лет, назначают нового руководителя, если интересно, тут подробности.

Who is Dave Clark, the new chief of Amazon's giant retail business?

Early in his career, he was known as "the sniper."

2.3K viewsDmitry Anoshin, 16:07

Инжиниринг Данных

Еще один новый канал по AI/ML и по развитию персонального бренда. Allie работает в AWS в роли sales для стартапов. Насколько я понял, она закончила MBA связанную с AI/ML и активно рассказывает в linkedin про свой опыт за что и получила популярность. Рассказывает очень позитивно.

2.4K viewsDmitry Anoshin, 16:28

Инжиниринг Данных

Как вы понимаете, без английского языка в нашей профессии никуда. Для вас мы нашли интересного спикера, которые занимается обучение языка уже много лет. Сам вебинар про IELTS, это своего рода продолжение темы про Иммиграцию в Канаду, чтобы полностью осветить этот вопрос. Но даже если вы не планируете сдавать IELTS, вам будет полезно узнать про структуру экзамены, про материалы для изучения языка и много другого. Через 10 минут начало! https://youtu.be/qV89JpCshaI

Зачем нужен IELTS и как подготовиться / Darian Sandmartin

🔔 Darian Sandmartin (IELTS Academic 8.0) - создательница международного сообщества World Speaks English для тех, кто изучает английский и готовится к IELTS - рассказывает о том, зачем нужен IELTS, как к нему подготовиться самостоятельно, какие учебники использовать…

2.4K viewsDmitry Anoshin, 16:51

Инжиниринг Данных

Я часто ссылался на облачный ETL - Matillion. Я начал работать с ними с 2017 и теперь они попали в квадрант гартнера. Кто смотрел мои уроки по BI на datalearn, уже знает, что такое квадрант и кто туда попадает. На модуле 4 будем как раз с ETL/ELT разбираться. Я думаю ещё недели 2-3 и смогу продолжить.

Matillion Named in the 2020 Gartner Magic Quadrant for Data Integration Tools

At a growing company like Matillion, you get to experience a lot of great firsts. Of course, there was our first sale of Matillion ETL. We also remember our first round of funding. LastThe post...

2.4K viewsDmitry Anoshin, 22:43

Инжиниринг Данных

Forwarded from Интернет-аналитика (Алексей Никушин)

Это что-то невероятное

Анатолий Карпов @data_karpov берет интервью у Алексея Никушина @a_nikushin

Говорим про образование, курсы, настроения в @analysts_hunter, Матемаркетинг @MateMarketing_official и нелегкую жизнь аналитиков

https://www.youtube.com/watch?v=mome3DWQqg0

Алексей Никушин: аналитика, маркетинг, МатеМаркетинг | Интервью | karpov.courses

Курс «Аналитик данных»: http://bit.ly/429Aj4i

В этот раз к нам в гости пришёл Алексей Никушин, основатель конференции МатеМаркетинг. Нам удалось поговорить о настоящем и будущем аналитики, в частности:

● Аналитик и маркетолог — это одно и тоже. Правда…

2.2K viewsDmitry Anoshin, 18:21

Инжиниринг Данных

https://zen.yandex.ru/media/id/5c20640793f5e900aa166d58/kak-ia-stal-programmistom-5f4a9d33163f9559a8aad690

Яндекс Дзен

Как я стал программистом

Здравствуйте, уважаемые подписчики и гости канала! А дело было в далеком 1998. У нас в школе были дополнительные занятия в ЦВР (центр внеклассного или внешкольного развития) - это что-то типа школы, где только кружки. Отказаться ты особо не можешь, так как…

2.3K viewsDmitry Anoshin, 21:32

Инжиниринг Данных

Интересная статья про Data-Driven подход. В ней автор делится историями про подход Амазон. Сейчас у меня тоже интересные проекты. Я уже месяц с новой командой, но пока не доконца разобрался как все работает. С точки зрения бизнеса у нас 2 основных проекта - это feature attribution model (то есть все кампании на главной странице амазон) и customer perception. Science команда использует AWS Elastic Map Reduce (Hadoop) + Spark + Zeppelin для heavy liftin трансформаций - этот процесс называется feature engineering. Используется Hadoop потому что, объем кликстрима это сотни терабайтов. Дальше, используют GPU виртульную машину для моделей deep learning. Помимо этого есть еще много A/B тестов. В ближайше перспективе мне нужно будет найти и устранить причину в существующих data pipelines, которые берут начала из центрального озера данных и мы используем еще один EMR+Spark, чтобы копировать к себе нужные данные в формате parquet.
Другая моя инциатива заменить существующие подход EMR + GPU виртуальную машину, на Amazon Sage Maker. Как я понял с 2021 года Amazon планирует повсеместно использовать этот сервис для ML/AI.

Пока не очень понял как все это работает, но технические уже более менее понятно откуда данные приходят и куда уходят.

Data Driven: What Amazon's Jeff Bezos Taught Me About Running a Company

A former employee of the retailer reflects on the lessons learned from the boss of the web giant.

2.4K viewsDmitry Anoshin, 00:29

Инжиниринг Данных

“There are no solutions. There are only trade-offs.” by Thomas Sowell. Что значит не бывает решений, а есть только компромиссы. При построении аналитических решений и продуктов это фраза очень кстати. Всегда мы слышим - "Мы можем это сделать, но...". Или " у нас вот есть 2 варианта, у каждого свои +/-".

2.2K viewsDmitry Anoshin, 04:38

Инжиниринг Данных

22 сентября расскажут про Databricks + Lakehouse. Я очень хотел бы поработать на databrics и создать lakehouse. То есть это полная альтернатива традиционному хранилищу данных. Так же Spark даст возможность использовать библиотеки для ML, ноутбуки для визуализации и дашбордов, и библиотеки для стриминга. Кто-то делал проект на databricks? https://databricks.com/p/webinar/cloud-data-platform-virtual-event-lakehouse

Cloud Data Platform Series – The Dawn of Lakehouse | Databricks

Join the virtual event to learn about the Lakehouse architecture, combining the best of data lakes and data warehouses for modern data needs.

2.8K viewsDmitry Anoshin, 04:48

Инжиниринг Данных

А вот еще интересное мероприятия - DBT проводит онлайн конференцию в декабре. Интересное решения, для тех кто любит хранить все тбизнес дата трансформации в SQL (может и pyhton поддерживает). https://www.getdbt.com/coalesce/

2.8K viewsDmitry Anoshin, edited 04:52

Инжиниринг Данных

Forwarded from настенька и графики

2.4K viewsDmitry Anoshin, 16:35

Инжиниринг Данных

Сегодня опытный человек лет 40 поделился со мной интересной идеей. В современной корпоративной культуре, человек подобен виртуальной машине. Так как мы с ним в амазоне, соответственно это EC2 instance, который работает, а когда что-то не так, его просто отключают и удаляют на всегда, или он сам сдувается и отваливается. Мне понравилось такое сравнение. Другой комментарий про отсутствие empathy (эмпатия - осознанное сопереживание текущему эмоциональному состоянию другого человека без потери ощущения происхождения этого переживания). Люди настолько заняты и перегружены работой, что не остается места эмпатии. Как у вас с эмпатией на рабочем месте?

Кстати в библиографической книге про Стив Джобса, говориться что Бил Гейтс совершенно не обладает эмпатией, а вот его предшественние новый CEO наоборот. Сейчас большой тренд на эмпатия в западных компаниях, новые CEO Uber и ряда других крупных компаний.

2.5K viewsDmitry Anoshin, edited 22:17

Инжиниринг Данных

Forwarded from LEFT JOIN

Altinity выпустили обзор сравнения перфоманса Clickhouse и Redshift, несколько ключевых выводов:
+ В Clickhouse появилась возможность загружать данные из S3 табличной функцией s3()
+ Clickhouse на одной ноде несколько проигрывает Redshift по скорости выполнения запросов, но выигрывает на сопоставивом количестве нод
+ Стоимость операционного использования Clickhouse ощутимо ниже, чем Redshift (однако в статье не указан необходимый ресурс на поддержку того и иного решения)
+ В Clickhouse по-прежнему остаются ряд особенностей, которые следует учитывать при построении запроса.
Например, использование конструкции с JOIN до сих пор неэффективно, а замена JOIN на подзапросы дает значительный прирост в скорости.

Altinity | Run open source ClickHouse® better

ClickHouse Software And Services | Altinity

Deploy and operate ClickHouse, a lightning fast, open source SQL data warehouse for real-time analytics, time series, and log analysis.

2.3K viewsDmitry Anoshin, 14:53

Инжиниринг Данных

2.8K viewsDmitry Anoshin, 14:54

Инжиниринг Данных

Forwarded from Reveal the Data

Написал заметку о том как быть, когда заказчик просит «таблицу как в Эксель» и никаких графиков. Показал для каких задач и как работают таблицы. Описал семь кейсов, которые обычно прячутся за такими запросами, и какие решения я использую.

https://revealthedata.com/blog/all/tablica-ili-grafik-kak-ubedit-zakazchika/

#статья

Таблица или график? Как убедить заказчика

Подскажи плз, стоит ли бороться, забить или еще какой-то вариант?)»

2.1K viewsDmitry Anoshin, 15:09

Инжиниринг Данных

2.3K viewsDmitry Anoshin, 05:08

Инжиниринг Данных

Будем считать, что на канале и на datalearn мы сажаем семена знаний😜

2.3K viewsDmitry Anoshin, 05:10