Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics
Интересная статья от сотрудников компании Databricks, которые предлагаю новую концепцию организации хранения и обработки данных, которую называют Likehouse.
Идея вот в чем: доминирующая на рынке концепция DataLake (для хранения) + DHW (для обработки) несмотря на свой шаг вперед относительно концепции чистого DWH все еще обладает рядом недостатков и требует компромисса между надежность, стоимостью и возможностями аналитики (что начинает быть довольно важным фактором). Поэтому вместо того, что бы разнести хранение и обработку данных в разные системы и организовать перемещение данных между ними (все равно сохраняется элемент ETL), Databricks предлагает совместить все функции в виде:
1. Слоя хранения данных на базе S3/HDFS, но хранить данные в структурированном формате Parquet
2. Слоя мета данных, описывающим данные, отвечающем за индексирование, кэш и тд
3. Слоя доступа к данным в виде API в системам BI и фреймворка обработки данных таким как Tensorflow/Pandas и тд
За счет такой комбинации предлагается не только обеспечить оптимальное TCO, но и сохранить основные качества ACID системы и SQL-like скорость работы (через метаданные, кэш и тд)
Исходная статья ниже
Интересная статья от сотрудников компании Databricks, которые предлагаю новую концепцию организации хранения и обработки данных, которую называют Likehouse.
Идея вот в чем: доминирующая на рынке концепция DataLake (для хранения) + DHW (для обработки) несмотря на свой шаг вперед относительно концепции чистого DWH все еще обладает рядом недостатков и требует компромисса между надежность, стоимостью и возможностями аналитики (что начинает быть довольно важным фактором). Поэтому вместо того, что бы разнести хранение и обработку данных в разные системы и организовать перемещение данных между ними (все равно сохраняется элемент ETL), Databricks предлагает совместить все функции в виде:
1. Слоя хранения данных на базе S3/HDFS, но хранить данные в структурированном формате Parquet
2. Слоя мета данных, описывающим данные, отвечающем за индексирование, кэш и тд
3. Слоя доступа к данным в виде API в системам BI и фреймворка обработки данных таким как Tensorflow/Pandas и тд
За счет такой комбинации предлагается не только обеспечить оптимальное TCO, но и сохранить основные качества ACID системы и SQL-like скорость работы (через метаданные, кэш и тд)
Исходная статья ниже
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Блог Ксении Денисовой
Графики McKinsey: как оформляют данные в консалтинге
Данная заметка посвящена исследованиям McKinsey, где числовая информация представлена в виде различных типов графиков. Цель – показать основные правила оформления цифровых данных на примере аналитических отчётов лучшей консалтинговой компании мира.
Я взяла…
Я взяла…
Интресная статья про организацию data mesh архитектуры в Intuit
https://medium.com/intuit-engineering/intuits-data-mesh-strategy-778e3edaa017
https://medium.com/intuit-engineering/intuits-data-mesh-strategy-778e3edaa017
Medium
Intuit’s Data Mesh Strategy
Intuit’s mission is ‘Power Prosperity Around the World’. And Intuit’s strategy for delivering on that mission is to be an ‘AI Driven…
Близится наступление знакового события в области управления данными - вручение премии CDO Awards 21. Уже сформирован полный перечень номинанотов и подготовлены обзоры/интерью про заявленные проекты.
Часть из них я отмечал в постах выше, а полный перечень и все интервью представленны тут: https://www.osp.ru/lp/cdoaward2021#nominees
Часть из них я отмечал в постах выше, а полный перечень и все интервью представленны тут: https://www.osp.ru/lp/cdoaward2021#nominees
www.osp.ru
Премия CDO Award 2021
CDO Award 2021 − это отраслевая награда для директоров по данным (Chief Data Officer) и руководителей аналогичных должностей, продемонстрировавших профессионализм и мастерство в своей области.
Forwarded from Архитектура ИТ-решений
Я давно слежу за выступлениями Жамак Дегани, но не знал что есть переводы её текстов на русский https://habr.com/ru/post/495670/
Хабр
Переход от монолитного Data Lake к распределённой Data Mesh
Привет, Хабр! Представляю вашему вниманию перевод статьи «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh» автора Zhamak Dehghani (Жамак Дегани)(все изображения взяты из этой же...
2021-AI-Index-Report_Master.pdf
13.8 MB
Вышел свежий отчет от Stanford - 2021 AI INDEX REPORT
Внимание, 222 страницы!
Внимание, 222 страницы!
Forwarded from AI Meetups (Николай Крупий)
19 марта, 19:00 — 21:30 МСК
Дзен-митап: алгоритмы и рекомендации. Онлайн
Зарегистрироваться
Будет #трансляция
При внедрении рекомендательных систем зачастую приходится учитывать особенности продукта. Например, гарантировать конкретной публикации определенное число показов, ограничить число показов сверху, совместить разные подборки с рекомендациями. В этих случаях для решения оптимизационных задач применяются и стандартные рекомендательные методы, и алгоритмы.
В пятницу, 19 марта, мы обсудим конкретные кейсы: как в ivi персонализируют главную страницу с помощью многоруких бандитов или как в Дзене создали систему для динамического распределения трафика. А также погрузимся в актуальные стратегии ценообразования.
После докладов повторим предновогодний опыт и разыграем десяток подарков в квесте про рекомендации.
Дзен-митап: алгоритмы и рекомендации. Онлайн
Зарегистрироваться
Будет #трансляция
При внедрении рекомендательных систем зачастую приходится учитывать особенности продукта. Например, гарантировать конкретной публикации определенное число показов, ограничить число показов сверху, совместить разные подборки с рекомендациями. В этих случаях для решения оптимизационных задач применяются и стандартные рекомендательные методы, и алгоритмы.
В пятницу, 19 марта, мы обсудим конкретные кейсы: как в ivi персонализируют главную страницу с помощью многоруких бандитов или как в Дзене создали систему для динамического распределения трафика. А также погрузимся в актуальные стратегии ценообразования.
После докладов повторим предновогодний опыт и разыграем десяток подарков в квесте про рекомендации.
Yandex Forms
Регистрация на Дзен-митап, 19 марта
Всем привет! Появилась запись ранее анонсированной лекции.
IT для бизнеса в постиндустриальную эпоху https://youtu.be/IkUvEk6GXOs
IT для бизнеса в постиндустриальную эпоху https://youtu.be/IkUvEk6GXOs
YouTube
IT для бизнеса в постиндустриальную эпоху
Forwarded from CDO2Day
2021-AI-Index-Report.pdf
13.8 MB
Индекс развития искусственного интеллекта 2021 от Стэнфордского университета
OFFTOP: закончил читать книгу "Идеальный программист. Как стать профессионалом разработки ПО" Роберта Мартина.
Отличная книга не только для тех, что непосредственно занимается программированием, но для тех, кто связан с проектами разработки ПО. Дает отличное представление о лучших практиках и о том, как должны работать настоящие профессоналы.
Сделал небольшое саммари и фото наиболее понравившихся моментов, выкладываю их в следующем сообщении.
https://www.goodreads.com/book/show/28690116
Отличная книга не только для тех, что непосредственно занимается программированием, но для тех, кто связан с проектами разработки ПО. Дает отличное представление о лучших практиках и о том, как должны работать настоящие профессоналы.
Сделал небольшое саммари и фото наиболее понравившихся моментов, выкладываю их в следующем сообщении.
https://www.goodreads.com/book/show/28690116
Goodreads
Идеальный программист. Как стать профессионалом разрабо…
Всех программистов, которые добиваются успеха в мире ра…
Forwarded from AGIRussia Анонсы
Cеминар 25 марта
Эксклюзивно для "живых" участников - ретрансляция позиций по AGI Сергея
Шумского и Игоря Пивоварова c прошедшей OpenTalks.AI с последующим
обсуждением:
https://aigents.timepad.ru/event/1412596/
Только "живое" участие, без записи и трансляции! Регистрация по ссылке
внизу события или следите за анонсами в https://t.me/agirussia
Эксклюзивно для "живых" участников - ретрансляция позиций по AGI Сергея
Шумского и Игоря Пивоварова c прошедшей OpenTalks.AI с последующим
обсуждением:
https://aigents.timepad.ru/event/1412596/
Только "живое" участие, без записи и трансляции! Регистрация по ссылке
внизу события или следите за анонсами в https://t.me/agirussia
aigents.timepad.ru
Семинар русскоязычного сообщества AGI / События на TimePad.ru
Современное понимание принципов работы психики и подходы к созданию зооморфного искусственного интеллекта — Сычёв Василий Алексеевич
О важности MLOps
https://www.datasciencecentral.com/profiles/blogs/how-to-use-mlops-for-an-effective-ai-strategy
https://www.datasciencecentral.com/profiles/blogs/how-to-use-mlops-for-an-effective-ai-strategy
Data Science Central
How to use MLOps for an effective AI strategy - DataScienceCentral.com
The Machine Learning Lifecycle (Adapted from Microsoft’s – Data Science Lifecycle) 87% of machine learning projects fail to make it into production. Deploying ML models in business use cases involves working around several data and engineering bottlenecks…