SberProfi DWH/BigData
1.06K subscribers
320 photos
9 videos
361 links
Telegram-канал SberProfi DWH/BigData 💚
Наш чат: https://t.me/+6Vc_rNMJl8MzYzcy
Наша миссия: развивать компетенции по технологиям работы с данными, например, такими, как экосистема Hadoop, Teradata, Oracle DB, GreenPlum и др.
Download Telegram
Дорогие коллеги! ☀️🌸🐝

Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3.
Для формирования повестки просим оставлять свои вопросы здесь.

Мероприятие состоится 28 июля 2022 г. Начало в 16:00.

Повестка:

• Орлов С.: “Восстановление данных в Hbase после disaster инцидентов”
• Матыцин С.: “Анонс воркшопа по фреймворку автотестов, использующемуся для SDP Hadoop”
• Орлов С.: “Архитектура и детали реализации интеграции кластеров SDP Hadoop с ППРБ Аудит”


Платформа проведения встречи – СберМитап.
📺 Ссылка для подключения.

Во время выступления спикеров вопросы можно будет задавать в чате.


Спасибо и до встречи!


С уважением,
команда DWH/BigData 💚
#втренде #Выпуск2

🌀 Data-diff - command-line tool и библиотека Python позволяет сравнивать таблицы в разных базах данных (миллиарды строк за несколько минут), даже не гоняя данные по сети. Как он это делает - см. github

🌀 Exo - низкоуровневый язык разработки - дает возможность полноценно использовать железные ускорители (GPU, ASIC, FPGA, нестандартные). Сам разработчик явно определяет хинты, что для определенных задач намного эффективнее компилятора. Пример реализации интерфейса - железо-код в ускорителе ML Gemmini. Exo существенно снижает порог входа → большой потенциал для SberDevice и ЛД: exo-lang.dev

🌀 PRQL - новый язык запросов, похожий на SQL, работает со всеми текущими БД! Основное преимущество - лучшая читаемость. Поддерживает абстракции, переменные и функции. Детали на prql-lang.org

🌀 CloudNativePG - оператор k8s для отказоустойчивого кластера PostgreSQL базы с primary/standby архитектурой с поддержкой стриминговой репликации. сайт

🌀 CeresDB - крайне интересная high-performance, distributed, schema-less, cloud-native timeseries database, написанная на Rust, вдохновленная InfluxDB IOx и TiKV. Совмещает технологии Apache Arrow и DataFusion. github

🌀 DAT Linux - сборка линукс, основанная на Ubuntu со множеством предустановленных инструментов по работе с данными, - ссылка. Обзор в следующем выпуске.

Обсуждаем в комментариях, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях.
Дорогие друзья! ☀️

Нашему сообществу исполняется целых 3 года, отметить которые мы хотим большим митапом 🥳.

Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 2 августа 2022 года.
Начало в 14:00.

👉 Подключиться 👈


Повестка:

1. Кузнецов А., Стрекаловский Р.: «Описание данных в Базах данных АС»

2. Радионов М.: «Немного ревирс-инжиниринга, декомпиляции, устройства плагинов PXF, QueryGrid. Или рассказ о способе "нативно" получить данные Teradata в GreenPlum»
(подробнее – в Confluence)

3. Ключко П., Постнова М.: «Платформа ML360: основа для разработки и вывода ML-моделей в ПРОМ» (подробнее – в Confluence)

4. Жукова Т.: «Сервис Ввода и корректировки данных КАП для загрузки пользовательских данных в ПРОМ» (подробнее – в Confluence)




Вопросы можно будет задать в чате во время выступления докладчиков.

До встречи на митапе!


С уважением,
DWH/BigData 💚
#втренде #Выпуск3

Apache Attic
- за июль ушли 3 проекта "на чердак". Причина у всех одна - отсутствие активности разработки. Один из них - Apache REEF - библиотека для ресурсных менеджеров типа YARN и Mesos. Означает ли это, что они следующие?!

🔥 Hex.tech - решение претендует на роль “UI для современного дата-стека”. На первый взгляд напоминает смесь Jupyter, Zeppelin с элементами Datawrangling. Другими словами - горячая тема. link

🔥 Apache ShardingSphere делает любую базу данных распределенной. Киллер SberDataFusion и SDP Hetero? 💪 link

🔥 Apache InLong - это стриминговая платформа, доступная пользователям в виде SaaS-продукта. Real-time ETL и т.д. Ранее ее инициировал китайский гигант Tencent. Сейчас активно развивается. link

🍭 Apache SystemDS - новая версия 3.0. Это масштабируемая система для машинного обучения. Поддерживает Spark MLContext, Spark Batch, Standalone, и Java Machine Learning Connector (JMLC). Авто-оптимизация основанная на характеристиках кластера и данных. link

Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях.
#втренде #Выпуск4

💫 InfoQ Data Engineering Trends Report - инновационные компании адаптируют Cloud agnostic computing for AI, Knowledge Graphs, AI pair programmer (like Github Copilot) and Synthetic Data Generation. Сбер в очередной раз #втренде 😎 Не хватает только сделать систему по дописыванию кода.

📰 Stack Overflow Developer Survey - SQL вернул себе 3 место в топе и скинул Python на 4 место; Julia обгоняет Python (а R уж тем более) в списке языков, которые люди больше любят, чем боятся.

🔥 wgpu-native выглядит как отличная возможность делать multi-tenant serverless сервисы с GPU on-demand на WGSL. Лаборатория данных 5.0 ?

︎ SecretFlow - представляет уровень абстракции таких технологий, как Secure Multiparty Computing, Homomorphic Encryption и поэтому упрощает анализ и ML на чувствительных данных.

Обсуждаем в комментариях, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях.
#втренде #Выпуск5

Matano - Serverless Security Data Lake Platform, написанный на Rust для анализа логов. Для трансформации использует VRL, сохраняет в S3 в формате Iceberg и позволяет написать алерты на Python.

VRL - Vector Remap Language, созданный Datadog  для парсинга и трансформации логов и метрик для мониторинга. Играет все большую роль в "Data Observability".

Osmos Data - пример нового поколения бессерверных low-code сервисов по захвату внешних данных. Здесь фишка в автоматизации процесса с помощью AI: не нужно больше мэпить колонки руками, встроены правила проверки качества данных.

ClickHouse SuperSet connector - обратите внимание, кто работает с этими продуктами - теперь появился поддерживаемый Opensource коннектор.

Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях ⬇️⬇️⬇️.
#втренде #Выпуск6

Arrows.app Вообще Arrows используется для визуализации labeled property graphs из домена графовых баз данных. Но выяснилось, что для визуализации моделей данных в терминах анкеров/атрибутов/линков тоже отлично подходит.

🆀 Debezium + Quarkus = решение распределенного CDC в k8s Статья описывает как это сделать и с помощью каких паттернов избежать проблему Dual-Writes

👯‍♀️  Ballerina - язык для "Data-oriented programming" на тему недавно вышла книга . Интересно рассмотреть этот подход для преобразования данных на лету, напр в NRT или промышленных ML решениях.

🔀  Remote Shuffle Service для Spark - Uber сделали внешний шафл менеджер сами и ускорили Spark в 2-5 раз. Месяц назад похожее решение 🔀 Uniffle было внесено коллегами из Китая в Apache инкубатор, но информации пока мало. Нащупали тренд )

👩‍🔬 Google Research на Youtube - на днях запустили конент про последние тренды в AI/ML/Robotics/Algo/Quantum computing/... ждем контент дополняющий их отличный ресурс research.google

Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях ⬇️⬇️⬇️.
Дорогие коллеги! ☀️

Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3.
Для формирования повестки просим оставлять свои вопросы здесь.

Мероприятие состоится 30 августа 2022 г. Начало в 15:00.

Повестка:

• Зленко И. (SberData): “Перфоманс фикс timestamp из Hive 4 в Hive 3”
• Орлов С. (SberData): “Релиз 3.5.3: состав, план тиража”
• Тутринов В. (SberData): “YARN Watchdog: демо и функциональность”


👉 Ссылка для подключения 👈

Во время выступления спикеров вопросы можно будет задавать в чате.


Обращаем ваше внимание, что мероприятие проводится только для сотрудников Банка, просьба не пересылать информацию внешним участникам.

Спасибо и до встречи!


С уважением,
команда DWH/BigData 💚
Дорогие друзья! 🌦

Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 6 сентября 2022 года.
Начало в 14:30.

👉 Подключиться 👈


Повестка:

1. Матыцин С.: «Фреймворк AT SDP Hadoop: пример использования при тестировании прикладных приложений» (подробнее – в Confluence)
2. Бирзнек М., Савин О.: «Cервис автоматизации XOps: полезный инструментарий для витрин и ML-моделей» (подробнее – в Confluence)
3. Радионов М.: «Тестирования HDFS на нескольких ДЦ» (подробнее – в Confluence)



Вопросы можно будет задать в чате во время выступления докладчиков.

До встречи на митапе!


С уважением,
DWH/BigData 💚
#втренде #Выпуск7

Apache TVM
повышает эффективность работы ML засчет компилирования под CPU, GPU, FPGA и другие ML-акселераторы, в т.ч. внутри баузеров (edge computing!). Поддерживает random forests/classical ML, memory planning, MISRA-C, Python, ... напоминает TensorFlowXLA

Apache StreamPark - новый фреймворк, позволяющий отделить бизнес-логику от конфигурации Spark и Flink и таким образом увеличить скорость разработки и вывода в ПРОМ.

Visual Data Preparation - ETL для неструктурированных данных (картинки, видео), позволяет привести их в анализируемые AI/ML-данные. Под капотом - микросервисная архитектура, Triton Inference Server, Temporal (workflow engine) и Airbyte (коннекторы).

SurrealDB - опенсорс-бессерверная база под OLTP-нагрузки с поддержкой аналитических нагрузок. Интересно, как работает их движок.

Data Mesh в Netflix в своем тех.блоге описывают  платформу данных и то, как подход дата-меш помог прийти к лучшему качеству, создать каталог данных и трэчить линедж.

PS: 3-6 октября проходит ApacheCon . Доклады - топ!
Коллеги, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях?
Anonymous Poll
9%
Apache TVM
30%
Apache StreamPark
17%
Visual Data Preparation
13%
SurrealDB
67%
Data Mesh
Коллеги, добрый день! 🐝

В продолжение рубрики #втренде просим вас пройти краткий опрос ⬆️⬆️⬆️.

Спасибо!
Дорогие коллеги! 🍁🍂

Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на SDP Hadoop.
Для формирования повестки просим оставлять свои вопросы здесь.

Мероприятие состоится 9 сентября 2022 г. Начало в 15:00.

Повестка:

• Орлов С. (SberData): “Дополнительная коммуникация по смещениям для дат до 1900 года при работе с Hive и Spark”



👉 Ссылка для подключения 👈

Во время выступления спикеров вопросы можно будет задавать в чате.


Обращаем ваше внимание, что мероприятие проводится только для сотрудников Банка, просьба не пересылать информацию внешним участникам.

Спасибо и до встречи!


С уважением,
команда DWH/BigData 💚
Дорогие друзья!

Спешим представить вам подкаст, который команда нашего сообщества выпустила в последний день лета.
Это уже 3-й выпуск комьюнити; его посвятили теме Графовой платформы Сбера.

👉 СЛУШАТЬ ПОДКАСТ 👈

В записи приняли участие: Поздняков Илья (руководитель управления по AI-технологиям, одной из которых является графовая платформа, лидер SberProfi DWH/BigData), Булавин Алексей (владелец продукта), Абрашкина Анна и Козлова Мария (клиенты со стороны УВА и БР, соответственно).

Во время встречи коллеги поговорили об истории создания сервиса, первых клиентах и основной бизнес-задаче.
Сложности и правильные решения в начале пути, высокий CSI сегодня, планы развития, патенты – все это и многое другое спикеры обсудили во время почти часовой беседы.
По традиции модератором подкаста выступил Коньков Иван.

Коллеги, просим оставлять заявки на интересные для вас темы будущих подкастов в комментариях под новостью.

like, share, repost 🙏


С уважением,
команда DWH/BigData 💚