Аналитик в 1988 году
Модели или не модели в хранилище данных?

Inmon vs Kimball vs Data Vault? Personally I prefer wide, nested and denormalized tables as data warehouse architecture. Why?

Cloud Data warehouses are designed as distributed systems with columnar storage that is separated from compute. Hence, you can efficiently query specific fields over a huge amount of records but you want to avoid joins as it introduces overhead when shuffling data between compute instances. Also, I prefer to keep my data immutable and if something is wrong I rather replay the data with the new logic than performing mutations on existing data.

Another aspect that rarely is mentioned is that wide, nested and denormalized tables better reflect the operational data structures produced by micro-services that are exchanged over API:s (think JSON but with a schema) but more frequently stored in key/value-stores or document DB:s. That is different from the relational tables that have been the default choice of monoliths and perhaps reflected by traditional data warehouse architectures.

It is often claimed that the star schema is easier for end-users to navigate, but my experience is actually the opposite once end-users understand UNNEST() and the fields contain proper descriptions.

Also, wide & nested models makes it easier to use the same structure and logic for batch SQL as streaming SQL (you really want to avoid joins in streaming mode if possible).

I must say that BigQuery really shines when applying this architecture and I'm puzzled that this data warehouse architecture isn't more popular. But I guess the analytical layer will often reflect the operational layer used (similar to Conways law).
CEO Microsoft твитнул, что на новом Xbox вышла - For nearly 40 years, Microsoft Flight Simulator has been one of our most beloved franchises, and it’s now available for the first time on Xbox Series X and S using the power of Azure, Bing Maps, and Xbox Game Pass.

По мне это самая крутая игра с технологической точки зрения, там задействованно куча ML, данных и других инновационных вещей. Да и на джойстике удобно играть (у меня Xbox Series S), дети могут изучать мир с высоты птичьего полета.
North Star любого аналитического подразделения - это Self Service. У нас ни одна встреча с BI не обходится без слов - нам нужно сделать self-service. За 10 лет работы в разных компаниях, так и не удалось реально сделать self-service BI, есть ощущения, но нет конкретики. Обычно self-service ограничивается несколько крутыми аналитиками из бизнес подразделений, которых мы показываем как success stories в качестве примера другим 95% процентам пользователям - будьте как они и будет вам дата счастья.

Такие мысли навеяла очередная встреча с нашим BI и вот это статья - Self-serve is a feeling

Most definitions of self-serve analytics are both vague and vaguely tautological. TDWI offers a definition without a subject, describing it as “typically involving users throughout an organization to directly access data for self-directed discovery and analysis;” Tableau says it “empowers teams” to “to be more involved in their own data analysis;” and on a page titled “What is self serve analytics?,” Snowflake doesn’t even attempt to define it, gestures at some idea about “finessing data,” and describes its pros and cons.
Быть Principal Software Engineer в Amazon - это очень круто! А если при этом еще при этом создавать флагманский BI продукт в AWS - Amazon Quicksight, поработать в Microsoft с Power BI и в Tableau, создавая лучшие BI решения, то это вообще фантастика. Но это все реально, хотите узнать как это? Послушайте новое интервью от Яны Одинцов и Яны Конн:

Интервью c Principal Engineer Amazon QuickSight Татьяной Якушевой каналу DataLearn. Беседа об аналитике, жизненном пути, необходимых компетенциях и многом другом.

Интервью провела куратор сообщества “Women In Data Analytics” Яна Одинцова. Если у вас остались вопросы, есть идеи или вы хотели бы узнать больше о сообществе, обращайтесь к Яне.
Недавно, все компании опубликовали свои результаты доходов за прошлый квартал. Давайте посмотрим на тех, кто действительно вырос:
• Revenue +62% to $61.9 billion
• Net income + 166% to $18.5 billion
• Google Cloud revenue +53% and losses shrank 58% to $591 million

• Revenue + 21% to $46.2 billion
• Net income +47% to $16.5 billion
• Azure +51%, without adjusting for forex shifts

Вот про AWS нашел так пока:
For Q2 analysts estimate AWS revenue growth of 30%, reaching $14.7 billion. In the first quarter, AWS revenue reached $13.5 billion, rising 32% year over year, besting the 22.5% growth rate expected.

Все это показывает насколько облачные вычисления популярны и теперь можно сказать что в западных странах компании реально оценили преимущества облаков и максимально хотят ими пользоваться. Конечно не без проблем и косяков (outages часто бывает). Если вы еще не в теме - может быстро ознакомиться на 5м модуле курса DE-101.

Еще из интересного - давненько аналитические компании не получали больших инвестиций - Artificial intelligence startup DataRobot has raised $300 million in Series G funding at a valuation of $6.3 billion, led by existing investors Altimeter Capital and Tiger Global.

Я кстати к ним окликался когда работал в Бостоне, думал быть на пике AI кейсов - AI solution architect, но потом они уволили много людей и закрыли набор.
В продолжение облаков. Мы видим космические прибыли облачных провайдеров. Инновации и масштаб делают дешевле стоимость железа, а вот цены на облака не меняются.

Что еще прикольного, в блоге CEO Cloudflare (компания по безопасности интеренет решений - provides content delivery network and DDoS mitigation services) написал, что клиенты плататя на 80% больше за передачу данных:

"Amazon Web Services is dramatically marking up the price of networking bandwidth for moving data out of its cloud, with customers in the U.S., Canada and Europe paying 80 times more than what AWS pays" https://blog.cloudflare.com/aws-egregious-egress/

Отличная работа Product Managers и хорошая стратегия по удержанию клиентов - "several top AWS customers, including Apple, Pinterest and Netflix, were seeing hefty bills for moving data out of AWS." https://www.theinformation.com/articles/aws-customers-rack-up-hefty-bills-for-moving-data

Ну а что? Безос честно сказал - ребята спасибо, вы за все это заплатили!
Очень хороший пример про 2 типа метрик - хорошие и плохие, хотя могу измерять одну и туже цель
The other half of our jobs are doing analysis directly. This work is most commonly referred to as ad hoc analysis, though some people call it advanced analytics, or decision science, or just “answering questions.” This is, presumably, what want to do rather than build the dashboards we complain about; we build self-serve tools, we say, so that we can focus on this type of work. Looker sells this promise directly: “Looker helps to streamline processes to save valuable time, freeing up data scientists to focus on the more rewarding aspects of their job.”

We prefer this work in part because it’s less tedious than adding the 1,000th filter to a dashboard, and in part because this is the work that actually matters. Ad hoc analysis is meant to support ad hoc decisions. These decisions are, almost by definition, the most important decisions companies make—they’re the ones you only get to make once. Jeff Bezos’ famous one-way doors are the stuff of ad hoc analysis, not a BI report or self-serve dashboard.

Про devops. Это легко делать с ETL/ELT когда у нас есть code, но сложно или не возможно в BI. Кто-нибудь заморачивался?
Analytics isn’t a technical field. Our job as analysts is to help companies make good decisions, and that requires curiosity and critical thinking, not an advanced degree in computer science. https://benn.substack.com/p/analytics-is-at-a-crossroads

Тут как раз можно смело говорить, что задача BI помогать бизнесу принимать правильные решения, им не нужно техническое образование для этого, но понадобятся как минимум технические навыки работы в BI, Excel или SQL. А вот DE наоборот, тут в основном только технические навыки, и computer science degree это большой плюс. Но если его нет (как у меня), это не проблема, путем проб и ошибок, изучения доп материалов можно максимально закрыть проблемы (но это займет время, я до сих пор в процессе)
Венчурные компании активно изучают рынок data и инвестируют в компании. Иногда они публикуют отчеты (возможно, чтобы подтвердить свои гипотезы):

Roadmap: Data Infrastructure https://www.bvp.com/atlas/roadmap-data-infrastructure
"The modern cloud data stack is undergoing massive construction and the future of software will be defined by the accessibility and use of data."