И еще один юридический обзор на тему данных: компания CleverDATA подготовила и опубликовала документ с обзором того, что в сфере данных произошло за год в законодательной области.
https://rppa.ru/_media/analitika/big_data_2020.pdf
https://rppa.ru/_media/analitika/big_data_2020.pdf
Data Mesh в «Леруа Мерлен»: DIY в работе с данными
В журнале Computerworld опубликована очередная статья из серий интервью в рамках премии CDO Award 2021. В статье Дмитрий Шостко, CDO компании Леруа Мерлен, описывает подход компании к работе с данными. Основной особенностью является полная децентрализация не только организационной структуры функции DS, но и реализация технологической платформы работы с данными по принципу Data Mesh.
Так же хочу отметить актине использование компанией облачных технологий. Главное требование к платформе было горизонтальное масштабирование платформы. Поэтому ориентировались на работу в облаке (быть cloud ready), проектировали платформу с учетом этого (быть cloud native) и даже предусмотрели возможность платформы работать в нескольких облаках одновременно (быть cloud agnostic).
Аналитическое хранилище начали строить на платформе Greenplum, и результаты подтвердили правильность этого выбора. Но данные, которые туда загружаются, должны быть доступны в реальном времени. Так платформа была дополнена решениями Apache Kafka, а также NiFi, AirFlow и Debezium, отвечающие за процесс загрузки.
Полный текст интервью по ссылке:
https://www.computerworld.ru/cio/articles/251220-Data-Mesh-v-Lerua-Merlen-DIY-v-rabote-s-dannymi?fbclid=IwAR1K1kle_vlcjJsDU0sooRAprv3dNW1Cfk39torfX6HGPoI2i80Pu6G9rz0
В журнале Computerworld опубликована очередная статья из серий интервью в рамках премии CDO Award 2021. В статье Дмитрий Шостко, CDO компании Леруа Мерлен, описывает подход компании к работе с данными. Основной особенностью является полная децентрализация не только организационной структуры функции DS, но и реализация технологической платформы работы с данными по принципу Data Mesh.
Так же хочу отметить актине использование компанией облачных технологий. Главное требование к платформе было горизонтальное масштабирование платформы. Поэтому ориентировались на работу в облаке (быть cloud ready), проектировали платформу с учетом этого (быть cloud native) и даже предусмотрели возможность платформы работать в нескольких облаках одновременно (быть cloud agnostic).
Аналитическое хранилище начали строить на платформе Greenplum, и результаты подтвердили правильность этого выбора. Но данные, которые туда загружаются, должны быть доступны в реальном времени. Так платформа была дополнена решениями Apache Kafka, а также NiFi, AirFlow и Debezium, отвечающие за процесс загрузки.
Полный текст интервью по ссылке:
https://www.computerworld.ru/cio/articles/251220-Data-Mesh-v-Lerua-Merlen-DIY-v-rabote-s-dannymi?fbclid=IwAR1K1kle_vlcjJsDU0sooRAprv3dNW1Cfk39torfX6HGPoI2i80Pu6G9rz0
Миру нужна новая операционная система для обмена данными
Интересное предложение высказано в статье Мурата Сонмез, главы Центра четвертой промышленной революции и управляющего директора Всемирного экономического форума.
Идея относиться к организации защиты данных, а точнее даже знаний, которые мы из них получаем. Проблема связана с тем, что данные очень тяжело защитить от переиспользования. Как только мы какими-то данными/знаниями с кем то поделились - мы утрачиваем возможность дальнейшего контроля и это является большим барьером для развития тем совместного использования данных. На этой проблеме пытаются взлететь криптомерии-энтузиасты с блокчейном, а так же разные провайдеры, предлагают всегда-защитные “анклавы данных” (что бы это не значило. Почему я тут использую термин псевдо? Потому что природу не обманешь и использование таких решений ограничивается периметром самих этих решений. Короче, как только данные оказываются в периметре какой то другой системы - контроль теряется. То есть вся экосистема связанных систем, обеспечивающих цепочку сырые данные - обработанные- информация-знания-действие-обратная связь-сырые данные - должны быть в одном периметре контроля. Что на практике нереально если мы говорим о том, что в цепочке используется решения разных компаний.
Так вот в статье делается фундаментальное предложение, что нужно делать отдельную операционную системы, в которой реализовать специальные функции контроля доступа к данным и на базе которой уже делать разработку прикладных решений. Собственно, общая операционная система и будет обеспечивать идею, что все прикладные решения будут находиться в едином “виртуальном” контуре контроля.
Такая операционная система должны иметь:
⁃ механизмы уведомления и запроса согласия, с помощью которых владельцы данных смогут устанавливать способы и сроки использования информации, а также возможность ее платного или бесплатного применения.
⁃ механизм сертификации приложений, использующих различные пакеты данных
⁃ прозрачный механизм для оценки данных
Полный текст стаьи:
https://cdo2day.ru/mir-dannyh/miru-nuzhna-novaja-operacionnaja-sistema-dlja-obmena-dannymi/
Интересное предложение высказано в статье Мурата Сонмез, главы Центра четвертой промышленной революции и управляющего директора Всемирного экономического форума.
Идея относиться к организации защиты данных, а точнее даже знаний, которые мы из них получаем. Проблема связана с тем, что данные очень тяжело защитить от переиспользования. Как только мы какими-то данными/знаниями с кем то поделились - мы утрачиваем возможность дальнейшего контроля и это является большим барьером для развития тем совместного использования данных. На этой проблеме пытаются взлететь криптомерии-энтузиасты с блокчейном, а так же разные провайдеры, предлагают всегда-защитные “анклавы данных” (что бы это не значило. Почему я тут использую термин псевдо? Потому что природу не обманешь и использование таких решений ограничивается периметром самих этих решений. Короче, как только данные оказываются в периметре какой то другой системы - контроль теряется. То есть вся экосистема связанных систем, обеспечивающих цепочку сырые данные - обработанные- информация-знания-действие-обратная связь-сырые данные - должны быть в одном периметре контроля. Что на практике нереально если мы говорим о том, что в цепочке используется решения разных компаний.
Так вот в статье делается фундаментальное предложение, что нужно делать отдельную операционную системы, в которой реализовать специальные функции контроля доступа к данным и на базе которой уже делать разработку прикладных решений. Собственно, общая операционная система и будет обеспечивать идею, что все прикладные решения будут находиться в едином “виртуальном” контуре контроля.
Такая операционная система должны иметь:
⁃ механизмы уведомления и запроса согласия, с помощью которых владельцы данных смогут устанавливать способы и сроки использования информации, а также возможность ее платного или бесплатного применения.
⁃ механизм сертификации приложений, использующих различные пакеты данных
⁃ прозрачный механизм для оценки данных
Полный текст стаьи:
https://cdo2day.ru/mir-dannyh/miru-nuzhna-novaja-operacionnaja-sistema-dlja-obmena-dannymi/
cdo2day.ru
Миру нужна новая операционная система для обмена данными — CDO2DAY
О ценности данных в современном мире свидетельствует хотя бы стоимость технологических компаний, которая превышает ВВП многих стран мира. Как разработать прозрачный и честный механизм, который позволит людям и компаниям использовать экономический потенциал…
Небольшой оффтоп, но может быть кому-то окажется полезным
Мой список "лучших книг года" 🙂
Итак, в номинации "Книга года" побеждает: роман "Дорога" Маккарти Кормака!
Несмотря свой небольшой объем именно она вызвала наибольший эмоциональный отклик и оставила отпечаток в душе.
Из оставшихся 99 книг, прочитанных в этом году, однозначно повторного прочтения заслуживают:
Номинация "Библия программиста":
- Чистый код: создание, анализ и рефакторинг by Robert C. Martin
Номинация "Художественная литература":
- Вспоминая моих грустных шлюх by Gabriel García Márquez
- Нейромант by William Gibson
- Видоизмененный углерод by Richard K. Morgan
Номинация "Научно-популярная литература":
- Человек и компьютер: Взгляд в будущее by Гарри Каспаров
- Структура реальности by David Deutsch
- Рождение машин. Неизвестная история кибернетики by Thomas Rid
- Искусственный Интеллект by Роман Душкин
- Язык как инстинкт by Steven Pinker
Номинация "Бизнес литература":
- Scrum на практике. Высокая продуктивность и результаты — прямо сейчас by Джей Джей Сазерленд
- Зона победы. Управление в эпоху цифровой трансформации by Джеффри Мур
- Бесконечная игра. В бизнесе побеждает тот, кто не участвует в гонке by Саймон Синек
- Principle-Centered Leadership by Stephen R. Covey
- Между клизмой и харизмой by Самвел Аветисян
- 45 Татуировок личности by Максим Батырев
- Ген директора. 17 правил позитивного менеджмента по-русски by Владимир Моженков
Номинация "Саморазвитие":
- Выбор: О свободе и внутренней силе человека by Edith Eger
- Просто делай! Делай просто! by Oskar Hartmann
- Как быть стоиком: Античная философия и современная жизнь by Massimo Pigliucci
- Наедине с собой. Максимы by Marcus Aurelius
- 12 Rules for Life: An Antidote to Chaos by Jordan B. Peterson
Мой список "лучших книг года" 🙂
Итак, в номинации "Книга года" побеждает: роман "Дорога" Маккарти Кормака!
Несмотря свой небольшой объем именно она вызвала наибольший эмоциональный отклик и оставила отпечаток в душе.
Из оставшихся 99 книг, прочитанных в этом году, однозначно повторного прочтения заслуживают:
Номинация "Библия программиста":
- Чистый код: создание, анализ и рефакторинг by Robert C. Martin
Номинация "Художественная литература":
- Вспоминая моих грустных шлюх by Gabriel García Márquez
- Нейромант by William Gibson
- Видоизмененный углерод by Richard K. Morgan
Номинация "Научно-популярная литература":
- Человек и компьютер: Взгляд в будущее by Гарри Каспаров
- Структура реальности by David Deutsch
- Рождение машин. Неизвестная история кибернетики by Thomas Rid
- Искусственный Интеллект by Роман Душкин
- Язык как инстинкт by Steven Pinker
Номинация "Бизнес литература":
- Scrum на практике. Высокая продуктивность и результаты — прямо сейчас by Джей Джей Сазерленд
- Зона победы. Управление в эпоху цифровой трансформации by Джеффри Мур
- Бесконечная игра. В бизнесе побеждает тот, кто не участвует в гонке by Саймон Синек
- Principle-Centered Leadership by Stephen R. Covey
- Между клизмой и харизмой by Самвел Аветисян
- 45 Татуировок личности by Максим Батырев
- Ген директора. 17 правил позитивного менеджмента по-русски by Владимир Моженков
Номинация "Саморазвитие":
- Выбор: О свободе и внутренней силе человека by Edith Eger
- Просто делай! Делай просто! by Oskar Hartmann
- Как быть стоиком: Античная философия и современная жизнь by Massimo Pigliucci
- Наедине с собой. Максимы by Marcus Aurelius
- 12 Rules for Life: An Antidote to Chaos by Jordan B. Peterson
Обратите внимание, что прямо перед новым годом вышел очередной аналитический сборник "Альманах искусственный интеллект". Очередной выпуск посвящен теме обучению с подкреплением. Самые громкие результаты последнего времени связаны именно с ней: AlphaGo, AlphaZero, Dota2 и Starcraft. И, хотя сейчас в этой области в России очень мало работ, авторы считают, что это самая перспективная область для исследования.
https://aireport.ru/rl
https://aireport.ru/rl
aireport.ru
AI Report - Обучение с подкреплением
Альманах Искусственный Интеллект №7. Обучение с подкреплением
State of AI 2020 - краткие выводы (часть 1)
Раннее публиковал новость о выходе отчета State of AI от 01/10/20 - ниже краткие тезисы по результатам прочтения:
⁃ NLP - самая горячая тема этого года, чему способствовали появление новых языковых моделей (GPT-3) и то, что крупные компании тратят свои ресурсы на обучение таких больших моделей
⁃ AI начинает трансформировать область биологии. Уже после выхода отчета появился AlphaFold - алгоритм моделирования структуры белка, который может существенно помочь в разработке новых лекарств. И COVID-19 был тут не последним катализатором.
⁃ Область AI продолжает “закрываться”. Только 15% опубликованных научных работ раскрывают программный код.
⁃ США продолжают доминировать в научной среде, открываются новые, специализированные под AI институты
⁃ Квантовые вычисления пока еще развиваются, за 20 год сильных прорывов не было
⁃ Проблемы AI Governance оказались не так сильны, как прогнозировалось
⁃ PyTorch побеждает Tensoflow в исследованиях, но Tensoflow остается силен в продакшене
⁃ Стоимость обучения GPT-3 - около $10М
⁃ Большим нейронным сетям надо меньше данных, чем маленьким, для достижения того же уровня качества обучения
⁃ Объяснимость выводов аналитических моделей является очень важным фактором для распространения AI, особенно в медицине
⁃ Механизмы внимания активно внедряются в задачи компьютерного зрения
⁃ Китай старается в области AI, но 54% ученых, которые после окончания университета в Китае публикуются на NeurIPS, переезжают в США
⁃ Сильно возрастает важность MLOps, что является сигналом того, что индустрия переходит от стадии RnD к стадии промышленной эксплуатации
⁃ RPA является самой востребованной технологией в Enterprise среде
Раннее публиковал новость о выходе отчета State of AI от 01/10/20 - ниже краткие тезисы по результатам прочтения:
⁃ NLP - самая горячая тема этого года, чему способствовали появление новых языковых моделей (GPT-3) и то, что крупные компании тратят свои ресурсы на обучение таких больших моделей
⁃ AI начинает трансформировать область биологии. Уже после выхода отчета появился AlphaFold - алгоритм моделирования структуры белка, который может существенно помочь в разработке новых лекарств. И COVID-19 был тут не последним катализатором.
⁃ Область AI продолжает “закрываться”. Только 15% опубликованных научных работ раскрывают программный код.
⁃ США продолжают доминировать в научной среде, открываются новые, специализированные под AI институты
⁃ Квантовые вычисления пока еще развиваются, за 20 год сильных прорывов не было
⁃ Проблемы AI Governance оказались не так сильны, как прогнозировалось
⁃ PyTorch побеждает Tensoflow в исследованиях, но Tensoflow остается силен в продакшене
⁃ Стоимость обучения GPT-3 - около $10М
⁃ Большим нейронным сетям надо меньше данных, чем маленьким, для достижения того же уровня качества обучения
⁃ Объяснимость выводов аналитических моделей является очень важным фактором для распространения AI, особенно в медицине
⁃ Механизмы внимания активно внедряются в задачи компьютерного зрения
⁃ Китай старается в области AI, но 54% ученых, которые после окончания университета в Китае публикуются на NeurIPS, переезжают в США
⁃ Сильно возрастает важность MLOps, что является сигналом того, что индустрия переходит от стадии RnD к стадии промышленной эксплуатации
⁃ RPA является самой востребованной технологией в Enterprise среде
State of AI 2020 - краткие выводы (часть 2)
Основные предсказания на следующие 8-12 месяцев:
⁃ Продолжение появления новых, еще более сложных языковых моделей
⁃ Новые достижения в области компьютерного зрения за счет применения методов внимания
⁃ Усиление инвестиций в AI со стороны военных
⁃ Закрытие корпоративных AI лабораторий за счет изменения стратегий компаний
⁃ Nvidia все таки купит ARM
Основные предсказания на следующие 8-12 месяцев:
⁃ Продолжение появления новых, еще более сложных языковых моделей
⁃ Новые достижения в области компьютерного зрения за счет применения методов внимания
⁃ Усиление инвестиций в AI со стороны военных
⁃ Закрытие корпоративных AI лабораторий за счет изменения стратегий компаний
⁃ Nvidia все таки купит ARM
Хорошее саммари самых основных вещей на тему Datawarehouse. Основные тезисы что это, зачем, как и тд.
Автор все довольно четко раскладывает по полочкам. Полезно освежить знания :)
https://link.medium.com/1awxDAR8Rcb
Автор все довольно четко раскладывает по полочкам. Полезно освежить знания :)
https://link.medium.com/1awxDAR8Rcb
Стратегия совершенства_summary.pdf
8.4 MB
OFFTOP: хочу порекомендовать всем отличную книгу "Стратегия совершенства" Тома Питерса в ее последней, адаптированной редакции. Это по сути сборник бизнес-мудростей, который автор собирал годами. ИМХО отличный заменитель десятка совеременных бизнес-книг.
Для тех, кому лень читать самим - делюсь моими заметками.
https://www.litres.ru/tom-piters/strategiya-sovershenstva/?utm_source=google&utm_medium=cpc&utm_campaign=search_dsa_ohvat_f%7C2087774395&utm_term=&utm_content=375733693663%7Bphrase_id%7D_%7Bsource%7D_%7Bsource_type%7D_%7Bregion_name%7D_9047030¶m_2=987239&gclid=EAIaIQobChMI5P6Stv2Q7gIVEdayCh3iWwRxEAAYASAAEgJ-m_D_BwE
Для тех, кому лень читать самим - делюсь моими заметками.
https://www.litres.ru/tom-piters/strategiya-sovershenstva/?utm_source=google&utm_medium=cpc&utm_campaign=search_dsa_ohvat_f%7C2087774395&utm_term=&utm_content=375733693663%7Bphrase_id%7D_%7Bsource%7D_%7Bsource_type%7D_%7Bregion_name%7D_9047030¶m_2=987239&gclid=EAIaIQobChMI5P6Stv2Q7gIVEdayCh3iWwRxEAAYASAAEgJ-m_D_BwE
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
Привет Switch Transformers от Google Brain, пока GPT-3 от OpenAi
Ресерчеры из Google Brain предложили метод, благодаря которому можно обучать языковые модели с более чем триллионом обучаемых параметров. Что на порядок превосходит вышедшую в 2020, и наделавшую много шума, модель GPT-3 от OpenAI.
Основное новшество — Switch Transformer, базирование на котором снижает вычислительную сложность языковой модели (ускорение в ~7х раз) в сравнении с предыдущим подходом: T5-Base.
📄 Paper
💻 Код Switch Transformer
Ресерчеры из Google Brain предложили метод, благодаря которому можно обучать языковые модели с более чем триллионом обучаемых параметров. Что на порядок превосходит вышедшую в 2020, и наделавшую много шума, модель GPT-3 от OpenAI.
Основное новшество — Switch Transformer, базирование на котором снижает вычислительную сложность языковой модели (ускорение в ~7х раз) в сравнении с предыдущим подходом: T5-Base.
📄 Paper
💻 Код Switch Transformer
Metadata management
Я тут все планирую сделать обзоры ряда решений типа “Data Portal” от ряда крупных компаний, поскольку мне тема управления мета-данными кажется очень важной и актуальной для текущей повестки. Тема новая для рынка, хороших и проверенных решений мало, лидеры квадранта Gartner стоят много денег и очень много компаний (Uber) просто начинают писать такие решения “под себя”. При этом эти платформы предлагаются в режиме OpenSource, что делает их особенно привлекательными.
Но тут возник вопрос ко всем: может быть кто-то, кто уже внедрил у себя в компании что то подобное, хочет поделиться своим опытом со всеми? Дайте знать, если готовы поделиться материалами или хотя-бы напиши в комментариях, что используете (всем будет интересно)?
Что планируется к обзору:
А вообще количество решений довольно уже большое: https://awesomeopensource.com/projects/metadata
Я тут все планирую сделать обзоры ряда решений типа “Data Portal” от ряда крупных компаний, поскольку мне тема управления мета-данными кажется очень важной и актуальной для текущей повестки. Тема новая для рынка, хороших и проверенных решений мало, лидеры квадранта Gartner стоят много денег и очень много компаний (Uber) просто начинают писать такие решения “под себя”. При этом эти платформы предлагаются в режиме OpenSource, что делает их особенно привлекательными.
Но тут возник вопрос ко всем: может быть кто-то, кто уже внедрил у себя в компании что то подобное, хочет поделиться своим опытом со всеми? Дайте знать, если готовы поделиться материалами или хотя-бы напиши в комментариях, что используете (всем будет интересно)?
Что планируется к обзору:
•
Uber: https://eng.uber.com/databook/ •
Lyft: https://eng.lyft.com/amundsen-lyfts-data-discovery-metadata-engine-62d27254fbb9 •
LinkedIn: https://engineering.linkedin.com/blog/2019/data-hub •
Apache Atlas: https://atlas.apache.org/#/А вообще количество решений довольно уже большое: https://awesomeopensource.com/projects/metadata
Хочу обратить ваше внимание на статью подписчика этого канала Алексея Артемова о его опыте развертывания и настройки портала управления данными Atlas.
https://medium.com/@lexaneon/apache-atlas-quick-start-part-i-rest-ui-9084e46fa5db
https://medium.com/@lexaneon/apache-atlas-quick-start-part-i-rest-ui-9084e46fa5db
Medium
Apache Atlas- Quick start (part I — REST & UI)
The article aims to show base steps to work with Apache Atlas
не в рамках рекламы - обратите внимание на концеренцию "Качество данных 2021"
https://www.osp.ru/lp/dataquality2021?utm_source=osp&utm_medium=email&utm_campaign=dataquality
https://www.osp.ru/lp/dataquality2021?utm_source=osp&utm_medium=email&utm_campaign=dataquality
www.osp.ru
Качество данных 2021
Конференция о том, как обеспечить качество данных в соответствии с целями использования, гарантировав их полноту, точность, корректность и актуальность.
обнаружил тут в списках "посмотреть позже" записи с конференции Ростелекома DataTalks 2.0, которая прошла в ноябре прошлого года. в 2019 эта конференция очень понравилась, была сфокусирована максимально на темах управления качеством данных и максимально практичных вещах. Надеюсь, что и в этом году повестка осталась соответствующей. К сожалению записи не "нарезаны" на отдельные выступления, поэтому придется смотреть целиком 🙂
День первый: https://www.youtube.com/watch?v=MmG2W8u7mUU
День второй: https://www.youtube.com/watch?v=YHWPyKnZs_k&t=8524s
День первый: https://www.youtube.com/watch?v=MmG2W8u7mUU
День второй: https://www.youtube.com/watch?v=YHWPyKnZs_k&t=8524s
YouTube
Онлайн конференция Ростелекома DataTalks 2.0. День 1
DataTalks 2.0 – это два дня в течение которых мы поговорим обо всех аспектах управления данными в современном мире. Вы узнаете, как эффективно управлять данными, какие есть подходы к работе с большими данными, поймете, как строят хранилища данных и какие…
DataRobot_MLOps_101_Guide.pdf
8.9 MB
MLOps
Еще одна тема, которая становиться супер важной в области работы с данными - MLOps. Это набирающий популярность термин обозначает организацию процесса взаимодействия людей, практик и базовых технологий, которые автоматизируют развертывание, мониторинг и управление моделями машинного обучения (ML) в промышленном режиме работы масштабируемым и полностью управляемым способом, чтобы обеспечить измеримую ценность для бизнеса от машинного обучения. Важность и необходимость заниматься этой дисциплиной диктуются тем, что все больше ML экспериментов переходят в стадию коммерческой эксплуатации. Как всегда, при этом выявляется, что затраты непосредственно на разработку ML модели это, условно, те же 20% от всех затрат, связанных с промышленной реализацией.
Компания DataRobot выпустила хороший обзор MLOps 101: The Foundation for Your AI Strategy в котором описывает основные аспекты этой тематики: зачем нужен MlOps, что такое мониторинг и развертывание ML моделей, что какое Product Model Governance и тд
Еще одна тема, которая становиться супер важной в области работы с данными - MLOps. Это набирающий популярность термин обозначает организацию процесса взаимодействия людей, практик и базовых технологий, которые автоматизируют развертывание, мониторинг и управление моделями машинного обучения (ML) в промышленном режиме работы масштабируемым и полностью управляемым способом, чтобы обеспечить измеримую ценность для бизнеса от машинного обучения. Важность и необходимость заниматься этой дисциплиной диктуются тем, что все больше ML экспериментов переходят в стадию коммерческой эксплуатации. Как всегда, при этом выявляется, что затраты непосредственно на разработку ML модели это, условно, те же 20% от всех затрат, связанных с промышленной реализацией.
Компания DataRobot выпустила хороший обзор MLOps 101: The Foundation for Your AI Strategy в котором описывает основные аспекты этой тематики: зачем нужен MlOps, что такое мониторинг и развертывание ML моделей, что какое Product Model Governance и тд
попался на глаза интересный список блогов/каналов по теме анализа данных, BI и тд. рекомендую посмотреть, могут быть интересные.
http://datalytics.ru/all/kogo-chitat-po-teme-analitiki-dannyh/?fbclid=IwAR03gW5KoWKaNqqN1jhYgqputU1-EsEoHAsDSgpPKgLsONf1xPk05GjX9xk
http://datalytics.ru/all/kogo-chitat-po-teme-analitiki-dannyh/?fbclid=IwAR03gW5KoWKaNqqN1jhYgqputU1-EsEoHAsDSgpPKgLsONf1xPk05GjX9xk
www.datalytics.ru
Кого читать по теме аналитики данных
«Мы видим больше и дальше, чем они, не потому, что взгляд у нас острее и сами мы выше...
Интресная статья на Хабре об аналитической инфраструктуре Wheely.
Что особенного:
- используют эластичные сервисы Amazon Redshift, за счет чего могут легко масштабировать хранилище
- Concurrency Scaling позволит поднять временный кластер для того чтобы справиться с пиковой нагрузкой (автоматически добавляет вычислительные мощности в виде временных compute nodes, которые "гасятся" после спада нагрузки)
- Redshift имеет встроенные (но расширяемые) механизмы сжатия данных и автоматическое управление параллелизмом запросов и выделением ресурсов
Вместе с расширением Redshift Spectrum кластер приобритает возможности полноценного Data Lake и Wheely использует это для:
- Data Quality Pipeline
- Архивирование холодных данных в S3
Есть крутые фичи Amazon Redshift, которые уже находятся в статусе preview (пока доступны для тестовых кластеров):
- Using machine learning in Amazon Redshift
- Ingesting and querying semistructured data in Amazon Redshift
https://m.habr.com/ru/company/wheely/blog/539154/
Что особенного:
- используют эластичные сервисы Amazon Redshift, за счет чего могут легко масштабировать хранилище
- Concurrency Scaling позволит поднять временный кластер для того чтобы справиться с пиковой нагрузкой (автоматически добавляет вычислительные мощности в виде временных compute nodes, которые "гасятся" после спада нагрузки)
- Redshift имеет встроенные (но расширяемые) механизмы сжатия данных и автоматическое управление параллелизмом запросов и выделением ресурсов
Вместе с расширением Redshift Spectrum кластер приобритает возможности полноценного Data Lake и Wheely использует это для:
- Data Quality Pipeline
- Архивирование холодных данных в S3
Есть крутые фичи Amazon Redshift, которые уже находятся в статусе preview (пока доступны для тестовых кластеров):
- Using machine learning in Amazon Redshift
- Ingesting and querying semistructured data in Amazon Redshift
https://m.habr.com/ru/company/wheely/blog/539154/
Хабр
Аналитический движок Amazon Redshift + преимущества Облака
Привет, Хабр!
На связи Артемий Козырь из команды Аналитики, и я продолжаю знакомить вас с Wheely. В этом выпуске:
Основы гибких кластерных вычислений
Колоночное хранение и компрессия...
На связи Артемий Козырь из команды Аналитики, и я продолжаю знакомить вас с Wheely. В этом выпуске:
Основы гибких кластерных вычислений
Колоночное хранение и компрессия...