Инжиниринг Данных
21.4K subscribers
1.6K photos
38 videos
177 files
2.91K links
Делюсь новостями из мира аналитики и карьерными советами;)

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG, solo entrepreneur🏄‍♂️

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Интересный язык для запросов данных и визуализации https://www.malloydata.dev/
Оказывается кто-то в Мак припрятал Bitcoin whitepaper

Попробуйте команду open /System/Library/Image\ Capture/Devices/VirtualScanner.app/Contents/Resources/simpledoc.pdf

У меня вот есть=)

https://appleinsider.com/articles/23/04/05/bitcoin-whitepaper-found-hidden-in-macos-with-unknown-virtual-scanner-ii-app
Я про SQL еще понял в 2010. С тех пор он стал еще более популярный. Если вы работаете с данными и не знаете SQL, то как говорил мой учитель Английского в Лицее 1501 🥚- «тьфу на вас» (с)

А если хотите начать, и еще не учите, то «тьфу на вас» (с)
Отличный пример как надо красиво свои успехи расписывать про инжиниринг данных, упор на бизнес impact.
Друзья всем привет!
Завтра (12 апреля) в 19:00 по МСК вебинар.
Спикер - Рустам Агамалиев.
Ссылка на вебинар:
https://youtube.com/live/c7ry9G3o5rw?feature=share

Поговорим о развитие ИИ от идеи до нейронных сетей.
В том числе затронем тему Chat GPT и влияние его на образование.
Отмечу что Рустам не эксперт в ИИ, а исследователь, что немало важно и надеюсь выступление поможет не экспертам в ИИ взглянуть в эту область.

Рустам уже не первый раз у нас выступает и его доклады очень полезны для развития.
Так что приходите будет интересно :)
Статья из-за которой я попросил выступить Рустама:
https://zttl.space/t/razvitie-ii-ot-idei-do-nejronnyh-setej-evolyucziya-pedagogicheskoj-i-uchenicheskoj-deyatelnosti/1903

📕 Ссылки на ресурсы спикера:
🔗 Канал в телеге: https://t.me/Zettelkasten_ru (https://www.youtube.com/redirect?even...)
🔗 Цифровой сад: rustamagamaliev.ru
🔗 Форум: zttl.space

#datalearn #вебинар
Миграция в Yandex DataLens за 3 месяца: 36 дашбордов для 400 пользователей

Перед «Ренессанс Страхованием» стояла амбициозная задача — найти альтернативу зарубежной BI-системе и переехать в кратчайшие сроки. Благодаря cервису анализа и визуализации данных Yandex DataLens компании удалось сократить расходы на аналитику и ускорить работу с данными.

Читайте подробнее на сайте ➡️

#реклама
Хороший наглядный пример, как простой документ имеет больше пользы чем красивый PDF. Не надо соревноваться в красоте ваших резюме, сделайте простой и понятный google doc/ word doc.

А если хотите красоты и креатива - сделайте github, tableau public, blog, personal website.
Всем привет!
Сегодня в 20:00 по мск вебинар!
Тема: Гринкарта
Спикер: Roman Gailit
Ссылка: https://youtube.com/live/KGx2Ldn_lRI?feature=share

О чем поговорим:
Роман расскажет как получал гринкарту, даст советы, тем кто получил, расскажет про US.
Бонусом обсудим GPT в целом и вскользь, технический опыт работы с ним (пролог к следующему вебинару)

Канал Ромы:
https://t.me/roma_reporting

#datalearn #вебинар
Очень понятное и простое объяснение про Биткоин. Я так же могу вам про дата инжиниринг или машинное обучение рассказать. Кратко и по делу😎
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Теперь дни быстрого найма будут проходить регулярно. Чтобы вам было удобно следить за расписанием, собрали его на отдельной странице.

Ближайшее мероприятие:

• 24-28 апреля — Fast Track для аналитиков и разработчиков метрик. Офер за 5 дней в отдел аналитики и метрик Поиска.

Зарегистрироваться

#реклама
Почему бы и нет!
Скоро будет интересное событие - Starship Flight Test. Для меня оно втройне интересное, потому что:
1. В школе, я ездил 2 года на кружок ракетомоделирования в настоящий Дворец Пионеров (он еще существует), даже участвовал в соревнованиях по запуску ракет.
2. Я 3 года проработал на ГКНПЦ им Хруничева, который строит отечественные ракеты Протон.
3. Недавно был забавный случай, которые был мне на руку. В компании, в которой я staff data engineer, я уже достаточно известный персонаж, потому что это первая компания, когда при знакомстве со мной коллеги начинают с того, что я авто 7 книг по аналитике. Но они решили пойти дальше. Когда у нас был offsite, то была организована Data Jeopardy (в России это аналог Своя Игра, это где дядя Вассерман в жилетке знает все ответы). Организаторы добавили секцию people и задолго до события нужно было каждому желающему заполнить анкету о себе. Я как обычно указал на факт работы на космическом заводе. В итоге в одном вопросе на "people 300" был вопрос "Who was rocket scientist in the past?" Никто не угадал, но ответ был Dmitry Anoshin. Теперь я не просто автор 7 "бестселлеров", но и настоящий Rocket Scientist. Все люди потом подходили ко мне познакомиться, ну пришлось говорить им, что я был Rocket Engineer.

И тут я заметил насколько важно, как вас представят в новой компании. Я уже привык, что всем все равно на книги, на мой опыт. А тут получилось наоборот. В общем очень важно какой вам introduction сделают в компании. Получается - "Как корабль назовешь, так он и поплывет"😊

Ну вы теперь поняли как ко мне обращаться - Дмитрий, кандидат технических наук, автор 7 бестселлеров, rocket scientist, создатель успешного консалтинга Rock Your Data и далее по списку😂
Традиционная рубрика для меня начиная с 2011 года - магический квадрат Хартнера для БиАй .

Power BI конечно непобедим. Но я так и не смог его полюбить🥴 Толи еще будет, ждем анонсов от Microsoft уже в мае о новом продукте (бете).🤐

Табло внедрах SalesForce как-то ушло в тень. Печаль. 😭

Вместо Looker, теперь Google.

А где же data lens от яндекса!? вы там денег занесите кому следует🙃
Вот такие вот дела. AI пока не может помогать по дому, мыть посуду и сортировать носки (может кончено подсказать как это делать и даже различать носки, но это еще не то пока что). Зато можно уже менеджеру писать ответы, мониторить зум встречи и помогать по работе.

PS вернул комменты, но только решил себя отключить от них и сделал Романа админом комментариев, а себя заблокировал, чтобы не повторять ошибок молодости, когда в день мог зависать по 4 часа в телеге.
Вы можете посмотреть запись моего доклада про Инжиниринг данных в «Майкрософт»
Среди тем доклада:
собеседование и начало работы;
создание Delta Lake с нуля и модернизация аналитического решения;
software engineering в работе инженера данных;
специфика «Майкрософт»;
плюсы и минусы работы в «Майкрософт»;
отличие культур Amazon и «Майкрософт» по мнению спикера;
типовые аналитические решения «Майкрософт».

Насколько я понял при регистрации на сайт, доклад доступен к просмотру бесплатно.

Если вам интересно как работает Майкрософт или посмотреть на типовое аналитическое решение в западной компании (кстати для собеседований норм контент), то вам подойдет.
Мы уже в прошлом говорили о GitHub Copilot (1-2 поста) и ChatGPT(много постов) и как они могут помогают в работе. А вот еще один продукт от AWS Amazon CodeWhisprerer. Сейчас на одном большом проекте для телекома я работаю с AWS Serverless Data Lake, в котором много сервисов типа AWS Lambda, CloudWatch Events, и для каждой job запускается свой EMR кластер. А так же для каждой job есть огромный конфигурационный файл YAML.

В качестве репозитория используется продукт Confluence - Bitbucket и он подключен к AWS CodeDeploy/Commit/Build. И недавно подключили CodeWhisprerer. Каждый раз когда вы делать git push, CodeWhisprerer сканирует ваш код и выдает очень хорошие комментарии по улучшению кода, в моем случае Python. Так же от товарищей слышал, что помогает писать код.

Задача инженера данных очень узкоспециализированная, использовать существующий framework, чтобы клепать jobы (data pipelines):
- мигрировать Teradata в Snowflake
- Забирать данные с публичных API
- Мигрировать старые Hive jobs на EMR Spark

EMR это главный ETL движок для всего. А вся документация, которая устарела еще в 2020 году создана на Sphinx - что выглядит неплохо и можно сразу интегрировать операционные дашборды туда. Но как и любая "ручная" документация устаревает очень быстро.

После 2х лет на Databricks такой setup для меня конечно ахтунг. Но что есть, то есть. Это я еще только про Batch часть проекта упомянул, а есть еще Streaming. Теперь я чувствую себя классическим Big Data Developer, хотя моя позиция называется ETL Developer🙈