Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Мы тут обсуждали новый продукт хранилищ данных, который уже наделал шуму - Firebolt. Можете посмотреть интересный доклад с конференции Coalesce - Firebolt Deep Dive - Next generation performance with dbt (Premier Sponsor)
Инжиниринг Данных pinned «Про канал: Я (Дмитрий Аношин LinkedIn telegram) уже больше 15 лет занимаюсь аналитикой, из них 5 лет был в Амазоне, работал в нескольких командах, включая Alexa AI (в Бостоне) и Customer Behaviour Analytics (в Сиэтле). Поучаствовал в действительно инновационных…»
Так как я в gaming, то стоит упомянуть про демо игры The Matrix Awakens, которая создана на Unreal Engine 5 совместно с Epic и The Coalition (как раз где я собирают телеметрию от игр на Unreal Engine). Если вы еще не видели ролик, то можете посмотреть насколько графика ушла вперед и насколько крут UE5.

https://news.xbox.com/en-us/2021/12/10/how-the-coalition-worked-with-epic-to-bring-the-matrix-awakens-to-life-on-xbox-series-xs/
Всем привет!
Завтра (15 декабря) в 21:00 по мск вебинар.
Тема: Введение в докер контейнер, как его создать и где использовать.
Спикер: Дмитрий Браженко.
Дима уже выступал у нас с вебинаром про Airflow и вы просили рассказать его про Docker, так что добро пожаловать:)
ссылка: https://youtu.be/JQCTjz_PzSM
SAP BusinessOjects - это классика BI, они выпустили прошлый патч спустя 7 лет. И вот выпустили еще один, возможно прошло год или два. А вы испульзуете SAP BO? Для меня это идеальный BI инструмент, я на нем вырос в буквальном и переносном смысле🥰


Если вы в банке, то с большой вероятностью у вас еще SAP BO и возможно даже версии 3=)

PS мне кажется мужчина на фото уже давно на пенсии🤣
Самая лучшая карьерная консультация https://youtu.be/OS8lt3zC9HM
Погнали работать в такой хороший день🙈
💡Узнайте ответы на часто задаваемые вопросы об аналитике в 5-минутном ролике о платформе Vertica — унифицированном аналитическом хранилище данных:
📍Почему привычные СУБД не годятся для анализа данных?
📍В чем заключается инновационность Vertica?
📍Какую пользу приносит объединение корпоративного хранилища данных и озера данных в одной системе?
📍Подойдет ли #Vertica небольшим предприятиям?
🎤 Рассказывают Евгений Степанов, руководитель направления Vertica в России и СНГ, и Александр Скоробогатов, архитектор решений Vertica в России и СНГ.
Смотрите видео: https://t.me/microfocusrussia/506
Всегда полезный контент, в том числе регулярные анонсы бесплатных вебинаров — на канале Micro Focus Russia & CIS Присоединяйтесь!

PS Пост поддержал приют для собак в Ногинске.
⚡️ Какие навыки должен иметь аналитик для работы с ведущими банками?

Международная консалтинговая компания Accenture выделила ТОП-5 навыков аналитика, которого «оторвут с руками» все ведущие IT-компании 🔥

Сверься с чек-листами в статье, чтобы определить свои сильные стороны и понять, какие качества стоит прокачать, если есть желание развиваться как IT-аналитик в финансовом секторе.

Читай статью по ссылке: https://vk.cc/c91usu

PS пост поддержал приют для собак в Ногинске.
Всем привет завтра (20 декабря) в 21:00 по мск вебинар!
Продолжение (2-я часть) про Data Vault Anchor modeling от Николая Голова.
Ссылка: https://youtu.be/IZw1cB1uDts
Часто, когда мы делаем систему или платформу данных в среде разработки, у нас нет еще реального объема данных для тестирования.

Например в геймдеве это частое явление, когда у нас просто нет продакшн данных до релиза игра и нам нужно сделать нагрузочное тестирование.

Самый популярный вариант - это нагенерить dummy/fake данных и прогнать через data pipelines/transformation/storage/BI access и тп.

И теперь вопрос для знатоков, как вы это делаете? Например, у меня есть Spark и на входе JSON файлы, которые разложены по часам.

Допустим я хочу нагенерить файлов на сотни млн событий и загрузить их в мое озеро и посмотреть как пойдет.

Я нашел пару библиотек на питоне:
- https://github.com/Zac-HD/hypothesis-jsonschema
- https://pythonrepo.com/repo/ghandic-jsf-python-josn

Они вроде умеют брать на вход простую схему JSON и создавать fake данные, но не понятно как контролировать объем. Может есть еще вариантыы
23 декабря в 16:00 (мск) Nedra.Digital приглашает на свой открытый онлайн митап «Данные в разведке и добыче».

Мы IT компания, которая помогает в цифровой трансформации нефтегазовой индустрии в России и мире. Вместе с нашими коллегами из «Газпром нефти» расскажем о ключевых направлениях работы с данными в нефтегазовой отрасли, таких как развитие централизованного хранилища данных, работа с качеством потоковых данных и их верификации, международный open-source стандарт и платформа интеграции данных разведки и добычи OSDU, DataOps, промышленный стандарт WITSML, и многое другое.

Ссылка на регистрацию

https://nedra-event.timepad.ru/event/1876513/

PS Пост поддержал приют для собак.
👍1
Новый (для меня) термин - “metrics store”
Now the metrics store is gaining traction as its own category in the modern data stack. This technology provides some key benefits:

->Metrics become the language of data: You can build metric logic and support various data models all in one place. Metrics are already the language of the business, so why not use this as a model for how you interact with and surface insights?
->Eliminate secondary sources of truth: Consolidate all of your metrics so that all of your metrics are consistent across all upstream and downstream tools.
->Build a knowledge hub around metrics: Add context to your metrics so that the data team isn’t stuck answering the same questions over and over.
->All of the questions and the context is already ready and accessible for data teams and business users.


Статья обсуждает вопрос эволюции аналитики и примеры из индустрии от ведущих компаний.

https://towardsdatascience.com/a-brief-history-of-the-metrics-store-28208ec8f6f1