SberProfi DWH/BigData

Дорогие коллеги! ☀️🌸🐝

Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3.
Для формирования повестки просим оставлять свои вопросы здесь.

Мероприятие состоится 28 июля 2022 г. Начало в 16:00.

Повестка:

• Орлов С.: “Восстановление данных в Hbase после disaster инцидентов”
• Матыцин С.: “Анонс воркшопа по фреймворку автотестов, использующемуся для SDP Hadoop”
• Орлов С.: “Архитектура и детали реализации интеграции кластеров SDP Hadoop с ППРБ Аудит”

Платформа проведения встречи – СберМитап.
📺 Ссылка для подключения.

Во время выступления спикеров вопросы можно будет задавать в чате.

Спасибо и до встречи!

С уважением,
команда DWH/BigData 💚

767 views12:10

#втренде #Выпуск2

🌀 Data-diff - command-line tool и библиотека Python позволяет сравнивать таблицы в разных базах данных (миллиарды строк за несколько минут), даже не гоняя данные по сети. Как он это делает - см. github

🌀 Exo - низкоуровневый язык разработки - дает возможность полноценно использовать железные ускорители (GPU, ASIC, FPGA, нестандартные). Сам разработчик явно определяет хинты, что для определенных задач намного эффективнее компилятора. Пример реализации интерфейса - железо-код в ускорителе ML Gemmini. Exo существенно снижает порог входа → большой потенциал для SberDevice и ЛД: exo-lang.dev

🌀 PRQL - новый язык запросов, похожий на SQL, работает со всеми текущими БД! Основное преимущество - лучшая читаемость. Поддерживает абстракции, переменные и функции. Детали на prql-lang.org

🌀 CloudNativePG - оператор k8s для отказоустойчивого кластера PostgreSQL базы с primary/standby архитектурой с поддержкой стриминговой репликации. сайт

🌀 CeresDB - крайне интересная high-performance, distributed, schema-less, cloud-native timeseries database, написанная на Rust, вдохновленная InfluxDB IOx и TiKV. Совмещает технологии Apache Arrow и DataFusion. github

🌀 DAT Linux - сборка линукс, основанная на Ubuntu со множеством предустановленных инструментов по работе с данными, - ссылка. Обзор в следующем выпуске.

Обсуждаем в комментариях, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях.

GitHub

GitHub - datafold/data-diff: Compare tables within or across databases

Compare tables within or across databases. Contribute to datafold/data-diff development by creating an account on GitHub.

767 viewsedited 10:10

SberProfi DWH/BigData

Дорогие друзья! ☀️

Нашему сообществу исполняется целых 3 года, отметить которые мы хотим большим митапом 🥳.

Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 2 августа 2022 года.
Начало в 14:00.

👉 Подключиться 👈

Повестка:

1. Кузнецов А., Стрекаловский Р.: «Описание данных в Базах данных АС»

2. Радионов М.: «Немного ревирс-инжиниринга, декомпиляции, устройства плагинов PXF, QueryGrid. Или рассказ о способе "нативно" получить данные Teradata в GreenPlum»
(подробнее – в Confluence)

3. Ключко П., Постнова М.: «Платформа ML360: основа для разработки и вывода ML-моделей в ПРОМ» (подробнее – в Confluence)

4. Жукова Т.: «Сервис Ввода и корректировки данных КАП для загрузки пользовательских данных в ПРОМ» (подробнее – в Confluence)

Вопросы можно будет задать в чате во время выступления докладчиков.

До встречи на митапе!

С уважением,
DWH/BigData 💚

729 viewsedited 12:25

SberProfi DWH/BigData

Коллеги, напоминаем о регулярной площадке по миграции на Hadoop 3, которая начнется через 15 минут 🌪🏃🏻‍♀️🏃

697 views12:45

SberProfi DWH/BigData

Ссылка на запись встречи.

684 views07:40

SberProfi DWH/BigData

#втренде #Выпуск3

Apache Attic - за июль ушли 3 проекта "на чердак". Причина у всех одна - отсутствие активности разработки. Один из них - Apache REEF - библиотека для ресурсных менеджеров типа YARN и Mesos. Означает ли это, что они следующие?!

🔥 Hex.tech - решение претендует на роль “UI для современного дата-стека”. На первый взгляд напоминает смесь Jupyter, Zeppelin с элементами Datawrangling. Другими словами - горячая тема. link

🔥 Apache ShardingSphere делает любую базу данных распределенной. Киллер SberDataFusion и SDP Hetero? 💪 link

🔥 Apache InLong - это стриминговая платформа, доступная пользователям в виде SaaS-продукта. Real-time ETL и т.д. Ранее ее инициировал китайский гигант Tencent. Сейчас активно развивается. link

🍭 Apache SystemDS - новая версия 3.0. Это масштабируемая система для машинного обучения. Поддерживает Spark MLContext, Spark Batch, Standalone, и Java Machine Learning Connector (JMLC). Авто-оптимизация основанная на характеристиках кластера и данных. link

Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях.

Hex

Bring the magic of AI to data, for everyone | Hex

Finally — anyone can explore data using natural language, with or without code, on trusted context, in one integrated platform.

798 views09:25

SberProfi DWH/BigData

Коллеги, привет!
Через 10 минут ждем вас на нашем митапе! 🏃🏻‍♂️

806 views10:50

SberProfi DWH/BigData

#втренде #Выпуск4

💫 InfoQ Data Engineering Trends Report ⎋ - инновационные компании адаптируют Cloud agnostic computing for AI, Knowledge Graphs, AI pair programmer (like Github Copilot) and Synthetic Data Generation. Сбер в очередной раз #втренде 😎 Не хватает только сделать систему по дописыванию кода.

📰 Stack Overflow Developer Survey ⎋ - SQL вернул себе 3 место в топе и скинул Python на 4 место; Julia обгоняет Python (а R уж тем более) в списке языков, которые люди больше любят, чем боятся.

🔥 wgpu-native ⎋ выглядит как отличная возможность делать multi-tenant serverless сервисы с GPU on-demand на WGSL. Лаборатория данных 5.0 ?

☁︎ SecretFlow ⎋ - представляет уровень абстракции таких технологий, как Secure Multiparty Computing, Homomorphic Encryption и поэтому упрощает анализ и ML на чувствительных данных.

Обсуждаем в комментариях, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях.

InfoQ

AI, ML, and Data Engineering InfoQ Trends Report—August 2022

In this annual report, the InfoQ editors discuss the current state of AI, ML, and data engineering and what emerging trends you as a software engineer, architect, or data scientist should watch. We curate our discussions into a technology adoption curve with…

873 views08:56

SberProfi DWH/BigData

#втренде #Выпуск5

Matano ⎋ - Serverless Security Data Lake Platform, написанный на Rust для анализа логов. Для трансформации использует VRL, сохраняет в S3 в формате Iceberg и позволяет написать алерты на Python.

VRL ⎋ - Vector Remap Language, созданный Datadog для парсинга и трансформации логов и метрик для мониторинга. Играет все большую роль в "Data Observability".

Osmos Data ⎋ - пример нового поколения бессерверных low-code сервисов по захвату внешних данных. Здесь фишка в автоматизации процесса с помощью AI: не нужно больше мэпить колонки руками, встроены правила проверки качества данных.

ClickHouse SuperSet connector ⎋ - обратите внимание, кто работает с этими продуктами - теперь появился поддерживаемый Opensource коннектор.

Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях ⬇️⬇️⬇️.

687 viewsedited 05:41

SberProfi DWH/BigData

#втренде #Выпуск6

⇶ Arrows.app ⎋ Вообще Arrows используется для визуализации labeled property graphs из домена графовых баз данных. Но выяснилось, что для визуализации моделей данных в терминах анкеров/атрибутов/линков тоже отлично подходит.

🆀 Debezium + Quarkus = решение распределенного CDC в k8s ⎋ Статья описывает как это сделать и с помощью каких паттернов избежать проблему Dual-Writes

👯‍♀️ Ballerina ⎋ - язык для "Data-oriented programming" на тему недавно вышла книга ⎋. Интересно рассмотреть этот подход для преобразования данных на лету, напр в NRT или промышленных ML решениях.

🔀 Remote Shuffle Service для Spark ⎋- Uber сделали внешний шафл менеджер сами и ускорили Spark в 2-5 раз. Месяц назад похожее решение 🔀 Uniffle ⎋ было внесено коллегами из Китая в Apache инкубатор, но информации пока мало. Нащупали тренд )

👩‍🔬 Google Research на Youtube ⎋ - на днях запустили конент про последние тренды в AI/ML/Robotics/Algo/Quantum computing/... ждем контент дополняющий их отличный ресурс research.google

Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях ⬇️⬇️⬇️.

InfoQ

Debezium and Quarkus: Change Data Capture Patterns to Avoid Dual-Writes Problems

It’s common in microservices to write data in two places, a database and then send the content to another microservice. One approach to tackle this problem is dual writes, but you may lose data because of concurrent writes. Debezium is an open-source project…

775 views14:23

SberProfi DWH/BigData

Дорогие коллеги! ☀️

Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3.
Для формирования повестки просим оставлять свои вопросы здесь.

Мероприятие состоится 30 августа 2022 г. Начало в 15:00.

Повестка:

• Зленко И. (SberData): “Перфоманс фикс timestamp из Hive 4 в Hive 3”
• Орлов С. (SberData): “Релиз 3.5.3: состав, план тиража”
• Тутринов В. (SberData): “YARN Watchdog: демо и функциональность”

👉 Ссылка для подключения 👈

Во время выступления спикеров вопросы можно будет задавать в чате.

Обращаем ваше внимание, что мероприятие проводится только для сотрудников Банка, просьба не пересылать информацию внешним участникам.

Спасибо и до встречи!

С уважением,
команда DWH/BigData 💚

808 views10:28

SberProfi DWH/BigData

Друзья!
10 минут остается до начала нашей регулярной площадки по миграции на Hadoop 3 ⏳.
Присоединяйтесь!

594 views11:50

SberProfi DWH/BigData

Друзья! 10 минут остается до начала нашей регулярной площадки по миграции на Hadoop 3 ⏳. Присоединяйтесь!

Ссылка на запись встречи.

603 views13:25

SberProfi DWH/BigData

Дорогие друзья! 🌦

Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 6 сентября 2022 года.
Начало в 14:30.

👉 Подключиться 👈

Повестка:

1. Матыцин С.: «Фреймворк AT SDP Hadoop: пример использования при тестировании прикладных приложений» (подробнее – в Confluence)
2. Бирзнек М., Савин О.: «Cервис автоматизации XOps: полезный инструментарий для витрин и ML-моделей» (подробнее – в Confluence)
3. Радионов М.: «Тестирования HDFS на нескольких ДЦ» (подробнее – в Confluence)

Вопросы можно будет задать в чате во время выступления докладчиков.

До встречи на митапе!

С уважением,
DWH/BigData 💚

622 views09:43

SberProfi DWH/BigData

#втренде #Выпуск7

Apache TVM ⎋ повышает эффективность работы ML засчет компилирования под CPU, GPU, FPGA и другие ML-акселераторы, в т.ч. внутри баузеров (edge computing!). Поддерживает random forests/classical ML, memory planning, MISRA-C, Python, ... напоминает TensorFlowXLA ⎋

Apache StreamPark ⎋ - новый фреймворк, позволяющий отделить бизнес-логику от конфигурации Spark и Flink и таким образом увеличить скорость разработки и вывода в ПРОМ.

Visual Data Preparation ⎋ - ETL для неструктурированных данных (картинки, видео), позволяет привести их в анализируемые AI/ML-данные. Под капотом - микросервисная архитектура, Triton Inference Server, Temporal (workflow engine) и Airbyte (коннекторы).

SurrealDB ⎋ - опенсорс-бессерверная база под OLTP-нагрузки с поддержкой аналитических нагрузок. Интересно, как работает их движок.

Data Mesh в Netflix ⎋ в своем тех.блоге описывают платформу данных и то, как подход дата-меш помог прийти к лучшему качеству, создать каталог данных и трэчить линедж.

PS: 3-6 октября проходит ApacheCon ⎋. Доклады - топ!

OpenXLA Project

644 viewsedited 13:27

SberProfi DWH/BigData

Коллеги, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях?

Anonymous Poll

Visual Data Preparation

46 voters506 views07:33

SberProfi DWH/BigData

Коллеги, добрый день! 🐝

В продолжение рубрики #втренде просим вас пройти краткий опрос ⬆️⬆️⬆️.

Спасибо!

513 views07:34

SberProfi DWH/BigData

Дорогие друзья! 🌦 Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 6 сентября 2022 года. Начало в 14:30. 👉 Подключиться 👈 …

Коллеги!
Ровно через 10 минут встречаемся на нашем 29-м митапе ⌛️🏃🏻‍♂️🏃🏻‍♀️.

Очень ждем! 🙌🏻

495 views11:20

SberProfi DWH/BigData

Коллеги! Ровно через 10 минут встречаемся на нашем 29-м митапе ⌛️🏃🏻‍♂️🏃🏻‍♀️. Очень ждем! 🙌🏻

Ссылка на новость на Confluence (материалы + запись встречи).

482 views11:21

SberProfi DWH/BigData

Дорогие коллеги! 🍁🍂

Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на SDP Hadoop.
Для формирования повестки просим оставлять свои вопросы здесь.

Мероприятие состоится 9 сентября 2022 г. Начало в 15:00.

Повестка:

• Орлов С. (SberData): “Дополнительная коммуникация по смещениям для дат до 1900 года при работе с Hive и Spark”

👉 Ссылка для подключения 👈

Во время выступления спикеров вопросы можно будет задавать в чате.

Обращаем ваше внимание, что мероприятие проводится только для сотрудников Банка, просьба не пересылать информацию внешним участникам.

Спасибо и до встречи!

С уважением,
команда DWH/BigData 💚

648 views11:30

SberProfi DWH/BigData

Дорогие друзья!

Спешим представить вам подкаст, который команда нашего сообщества выпустила в последний день лета.
Это уже 3-й выпуск комьюнити; его посвятили теме Графовой платформы Сбера.

👉 СЛУШАТЬ ПОДКАСТ 👈

В записи приняли участие: Поздняков Илья (руководитель управления по AI-технологиям, одной из которых является графовая платформа, лидер SberProfi DWH/BigData), Булавин Алексей (владелец продукта), Абрашкина Анна и Козлова Мария (клиенты со стороны УВА и БР, соответственно).

Во время встречи коллеги поговорили об истории создания сервиса, первых клиентах и основной бизнес-задаче.
Сложности и правильные решения в начале пути, высокий CSI сегодня, планы развития, патенты – все это и многое другое спикеры обсудили во время почти часовой беседы.
По традиции модератором подкаста выступил Коньков Иван.

Коллеги, просим оставлять заявки на интересные для вас темы будущих подкастов в комментариях под новостью.

like, share, repost 🙏

С уважением,
команда DWH/BigData 💚

518 viewsedited 06:43

About

Blog

Apps

Platform