SberProfi DWH/BigData – Telegram

SberProfi DWH/BigData

1.06K subscribers

320 photos

9 videos

361 links

Telegram-канал SberProfi DWH/BigData 💚
Наш чат: https://t.me/+6Vc_rNMJl8MzYzcy
Наша миссия: развивать компетенции по технологиям работы с данными, например, такими, как экосистема Hadoop, Teradata, Oracle DB, GreenPlum и др.

Download Telegram

About

Blog

Apps

Platform

SberProfi DWH/BigData

1.06K subscribers

SberProfi DWH/BigData

Коллеги, еще раз привет! ☀️

В связи с тем, что СберЧат день за днем набирает все большую популярность, мы не смогли пойти мимо и тоже завели канал на корпоративной площадке ✅.

Пока мы никуда не уходим из Telegram, но не знаем, что будет дальше, поэтому на всякий случай очень советуем подписаться на нас в СберЧате, чтобы потом (вдруг) не потеряться.

До встречи тут и там 🤝.

С уважением,
команда DWH/BigData 💚

694 views12:36

SberProfi DWH/BigData

Друзья, добрый день! 🌦

В первый день недели спешим поделиться с вами инересной новостью - теперь каждый понедельник (конечно, если вы поддержите нас проявленным интересом) эксперт нашего сообщества Андрей Баллес будет вести колонку в ТГ-канале DWH/BigData.
Админ канала - всего лишь его руки в этом увлекательном жанре ✍️.

Итак, встречайте новую рубрику нашего ТГ от Андрея Баллеса - #втренде 🔥!

(1 выпуск ищите через минуту, комментарии приветствуются)

548 views13:07

SberProfi DWH/BigData

#втренде #Выпуск1(ч.1)

📰 Новости команды RND
Рассказали на митапе про тренды в работе с данными. Записали подкаст про RND. Создали чат для тех, кто хочет вместе с нами активно мониторить и разбирать тренды и технологии. Работаем над Kylin как замена MS SSAS.

📰 Реанимировали Apache Ambari
Attic - это репозиторий неактивных проектов Apache Software Foundation. Буквально в июне Роман Шапошник возглавил проект Apache Ambari и запустил процедуру его возвращения в живые из Apache Attic. Напомню, что только в январе этого года проект был закрыт. Это первый случай за всю историю существования Apache. Детальнее про Attic: https://attic.apache.org/tracking.html

📰 Apache Doris - свежая MPP база стала Top-Level проектом
Высокопроизводительная, рил-тайм аналитическая база данных на MPP архитектуре, которая работает на MySQL протоколе. Детальнее о базе данных здесь (Продолжение следует)

❤1

603 viewsedited 13:12

SberProfi DWH/BigData

#втренде #Выпуск1(ч.2)

Кто возьмется сделать one-pager по этой технологии, который критически проанализирует, что она на самом деле из себя представляет и как отличается от знакомых нам технологий?

📰 The Modern Data Stack
Под этим заголовком множество аналитиков пытаются определить современные технологии и подходы по хранению, обработке и анализу данных. Например,
The Modern Data Stack: Past, Present, and Future от dbt, Emerging Architectures for Modern Data Infrastructure от a16z или куда же без Thoughtworks Meet the Modern Data Stack, Data Maturity Journey.
Недавняя статья The Modern Data Stack for Embedded Analytics натолкнула на идею: вместо абсолютизма формулировать область применения стека. Например, ... for Enterprise BI или ... for BigTech Data Scientist ...for ДЗО. Кажется, что этот подход даст возможность охватить и всю широту Сбера.

📰 Мечта аналитика: Serverless
Путь клиента в новую эпоху cloud native и serverless технологий описан в статье Databricks Serverless SQL + Python. Это не только удобно и быстро с точки зрения аналитика. Цена ошибки (т.е. эксперимента) существенно снижается и позволяет выйти на совершенно новый уровень data driven решений в Банке. Команда RND SberData разработала прототип бессерверной базы данных. Задавайте вопросы в чате (ссылка).

The Modern Data Stack: Past, Present, and Future | dbt Labs

My thoughts on where our space has been and where it might be going.

739 viewsedited 13:13

SberProfi DWH/BigData

Дорогие коллеги! ☀️🌸🐝

Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3.
Для формирования повестки просим оставлять свои вопросы здесь.

Мероприятие состоится 28 июля 2022 г. Начало в 16:00.

Повестка:

• Орлов С.: “Восстановление данных в Hbase после disaster инцидентов”
• Матыцин С.: “Анонс воркшопа по фреймворку автотестов, использующемуся для SDP Hadoop”
• Орлов С.: “Архитектура и детали реализации интеграции кластеров SDP Hadoop с ППРБ Аудит”

Платформа проведения встречи – СберМитап.
📺 Ссылка для подключения.

Во время выступления спикеров вопросы можно будет задавать в чате.

Спасибо и до встречи!

С уважением,
команда DWH/BigData 💚

767 views12:10

SberProfi DWH/BigData

#втренде #Выпуск2

🌀 Data-diff - command-line tool и библиотека Python позволяет сравнивать таблицы в разных базах данных (миллиарды строк за несколько минут), даже не гоняя данные по сети. Как он это делает - см. github

🌀 Exo - низкоуровневый язык разработки - дает возможность полноценно использовать железные ускорители (GPU, ASIC, FPGA, нестандартные). Сам разработчик явно определяет хинты, что для определенных задач намного эффективнее компилятора. Пример реализации интерфейса - железо-код в ускорителе ML Gemmini. Exo существенно снижает порог входа → большой потенциал для SberDevice и ЛД: exo-lang.dev

🌀 PRQL - новый язык запросов, похожий на SQL, работает со всеми текущими БД! Основное преимущество - лучшая читаемость. Поддерживает абстракции, переменные и функции. Детали на prql-lang.org

🌀 CloudNativePG - оператор k8s для отказоустойчивого кластера PostgreSQL базы с primary/standby архитектурой с поддержкой стриминговой репликации. сайт

🌀 CeresDB - крайне интересная high-performance, distributed, schema-less, cloud-native timeseries database, написанная на Rust, вдохновленная InfluxDB IOx и TiKV. Совмещает технологии Apache Arrow и DataFusion. github

🌀 DAT Linux - сборка линукс, основанная на Ubuntu со множеством предустановленных инструментов по работе с данными, - ссылка. Обзор в следующем выпуске.

Обсуждаем в комментариях, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях.

GitHub - datafold/data-diff: Compare tables within or across databases

Compare tables within or across databases. Contribute to datafold/data-diff development by creating an account on GitHub.

767 viewsedited 10:10

SberProfi DWH/BigData

Дорогие друзья! ☀️

Нашему сообществу исполняется целых 3 года, отметить которые мы хотим большим митапом 🥳.

Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 2 августа 2022 года.
Начало в 14:00.

👉 Подключиться 👈

Повестка:

1. Кузнецов А., Стрекаловский Р.: «Описание данных в Базах данных АС»

2. Радионов М.: «Немного ревирс-инжиниринга, декомпиляции, устройства плагинов PXF, QueryGrid. Или рассказ о способе "нативно" получить данные Teradata в GreenPlum»
(подробнее – в Confluence)

3. Ключко П., Постнова М.: «Платформа ML360: основа для разработки и вывода ML-моделей в ПРОМ» (подробнее – в Confluence)

4. Жукова Т.: «Сервис Ввода и корректировки данных КАП для загрузки пользовательских данных в ПРОМ» (подробнее – в Confluence)

Вопросы можно будет задать в чате во время выступления докладчиков.

До встречи на митапе!

С уважением,
DWH/BigData 💚

729 viewsedited 12:25

SberProfi DWH/BigData

SberProfi DWH/BigData

Дорогие коллеги! ☀️🌸🐝 Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3. Для формирования повестки просим оставлять свои вопросы здесь. Мероприятие состоится 28 июля 2022 г. Начало в 16:00. Повестка: • Орлов С.: “Восстановление…

Коллеги, напоминаем о регулярной площадке по миграции на Hadoop 3, которая начнется через 15 минут 🌪🏃🏻‍♀️🏃

697 views12:45

SberProfi DWH/BigData

SberProfi DWH/BigData

Коллеги, напоминаем о регулярной площадке по миграции на Hadoop 3, которая начнется через 15 минут 🌪🏃🏻‍♀️🏃

Ссылка на запись встречи.

684 views07:40

SberProfi DWH/BigData

#втренде #Выпуск3

Apache Attic - за июль ушли 3 проекта "на чердак". Причина у всех одна - отсутствие активности разработки. Один из них - Apache REEF - библиотека для ресурсных менеджеров типа YARN и Mesos. Означает ли это, что они следующие?!

🔥 Hex.tech - решение претендует на роль “UI для современного дата-стека”. На первый взгляд напоминает смесь Jupyter, Zeppelin с элементами Datawrangling. Другими словами - горячая тема. link

🔥 Apache ShardingSphere делает любую базу данных распределенной. Киллер SberDataFusion и SDP Hetero? 💪 link

🔥 Apache InLong - это стриминговая платформа, доступная пользователям в виде SaaS-продукта. Real-time ETL и т.д. Ранее ее инициировал китайский гигант Tencent. Сейчас активно развивается. link

🍭 Apache SystemDS - новая версия 3.0. Это масштабируемая система для машинного обучения. Поддерживает Spark MLContext, Spark Batch, Standalone, и Java Machine Learning Connector (JMLC). Авто-оптимизация основанная на характеристиках кластера и данных. link

Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях.

Bring the magic of AI to data, for everyone | Hex

Finally — anyone can explore data using natural language, with or without code, on trusted context, in one integrated platform.

798 views09:25

SberProfi DWH/BigData

SberProfi DWH/BigData

Дорогие друзья! ☀️ Нашему сообществу исполняется целых 3 года, отметить которые мы хотим большим митапом 🥳. Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 2 августа 2022 года. Начало в 14:00. 👉 Подключиться 👈 Повестка: 1. Кузнецов…

Коллеги, привет!
Через 10 минут ждем вас на нашем митапе! 🏃🏻‍♂️

806 views10:50

SberProfi DWH/BigData

#втренде #Выпуск4

💫 InfoQ Data Engineering Trends Report ⎋ - инновационные компании адаптируют Cloud agnostic computing for AI, Knowledge Graphs, AI pair programmer (like Github Copilot) and Synthetic Data Generation. Сбер в очередной раз #втренде 😎 Не хватает только сделать систему по дописыванию кода.

📰 Stack Overflow Developer Survey ⎋ - SQL вернул себе 3 место в топе и скинул Python на 4 место; Julia обгоняет Python (а R уж тем более) в списке языков, которые люди больше любят, чем боятся.

🔥 wgpu-native ⎋ выглядит как отличная возможность делать multi-tenant serverless сервисы с GPU on-demand на WGSL. Лаборатория данных 5.0 ?

☁︎ SecretFlow ⎋ - представляет уровень абстракции таких технологий, как Secure Multiparty Computing, Homomorphic Encryption и поэтому упрощает анализ и ML на чувствительных данных.

Обсуждаем в комментариях, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях.

AI, ML, and Data Engineering InfoQ Trends Report—August 2022

In this annual report, the InfoQ editors discuss the current state of AI, ML, and data engineering and what emerging trends you as a software engineer, architect, or data scientist should watch. We curate our discussions into a technology adoption curve with…

873 views08:56

SberProfi DWH/BigData

#втренде #Выпуск5

Matano ⎋ - Serverless Security Data Lake Platform, написанный на Rust для анализа логов. Для трансформации использует VRL, сохраняет в S3 в формате Iceberg и позволяет написать алерты на Python.

VRL ⎋ - Vector Remap Language, созданный Datadog для парсинга и трансформации логов и метрик для мониторинга. Играет все большую роль в "Data Observability".

Osmos Data ⎋ - пример нового поколения бессерверных low-code сервисов по захвату внешних данных. Здесь фишка в автоматизации процесса с помощью AI: не нужно больше мэпить колонки руками, встроены правила проверки качества данных.

ClickHouse SuperSet connector ⎋ - обратите внимание, кто работает с этими продуктами - теперь появился поддерживаемый Opensource коннектор.

Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях ⬇️⬇️⬇️.

687 viewsedited 05:41

SberProfi DWH/BigData

#втренде #Выпуск6

⇶ Arrows.app ⎋ Вообще Arrows используется для визуализации labeled property graphs из домена графовых баз данных. Но выяснилось, что для визуализации моделей данных в терминах анкеров/атрибутов/линков тоже отлично подходит.

🆀 Debezium + Quarkus = решение распределенного CDC в k8s ⎋ Статья описывает как это сделать и с помощью каких паттернов избежать проблему Dual-Writes

👯‍♀️ Ballerina ⎋ - язык для "Data-oriented programming" на тему недавно вышла книга ⎋. Интересно рассмотреть этот подход для преобразования данных на лету, напр в NRT или промышленных ML решениях.

🔀 Remote Shuffle Service для Spark ⎋- Uber сделали внешний шафл менеджер сами и ускорили Spark в 2-5 раз. Месяц назад похожее решение 🔀 Uniffle ⎋ было внесено коллегами из Китая в Apache инкубатор, но информации пока мало. Нащупали тренд )

👩‍🔬 Google Research на Youtube ⎋ - на днях запустили конент про последние тренды в AI/ML/Robotics/Algo/Quantum computing/... ждем контент дополняющий их отличный ресурс research.google

Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях ⬇️⬇️⬇️.

Debezium and Quarkus: Change Data Capture Patterns to Avoid Dual-Writes Problems

It’s common in microservices to write data in two places, a database and then send the content to another microservice. One approach to tackle this problem is dual writes, but you may lose data because of concurrent writes. Debezium is an open-source project…

775 views14:23

SberProfi DWH/BigData

Дорогие коллеги! ☀️

Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3.
Для формирования повестки просим оставлять свои вопросы здесь.

Мероприятие состоится 30 августа 2022 г. Начало в 15:00.

Повестка:

• Зленко И. (SberData): “Перфоманс фикс timestamp из Hive 4 в Hive 3”
• Орлов С. (SberData): “Релиз 3.5.3: состав, план тиража”
• Тутринов В. (SberData): “YARN Watchdog: демо и функциональность”

👉 Ссылка для подключения 👈

Во время выступления спикеров вопросы можно будет задавать в чате.

Обращаем ваше внимание, что мероприятие проводится только для сотрудников Банка, просьба не пересылать информацию внешним участникам.

Спасибо и до встречи!

С уважением,
команда DWH/BigData 💚

808 views10:28

SberProfi DWH/BigData

SberProfi DWH/BigData

Дорогие коллеги! ☀️ Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3. Для формирования повестки просим оставлять свои вопросы здесь. Мероприятие состоится 30 августа 2022 г. Начало в 15:00. Повестка: • Зленко И.…

Друзья!
10 минут остается до начала нашей регулярной площадки по миграции на Hadoop 3 ⏳.
Присоединяйтесь!

594 views11:50

SberProfi DWH/BigData

SberProfi DWH/BigData

Друзья! 10 минут остается до начала нашей регулярной площадки по миграции на Hadoop 3 ⏳. Присоединяйтесь!

Ссылка на запись встречи.

603 views13:25

SberProfi DWH/BigData

Дорогие друзья! 🌦

Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 6 сентября 2022 года.
Начало в 14:30.

👉 Подключиться 👈

Повестка:

1. Матыцин С.: «Фреймворк AT SDP Hadoop: пример использования при тестировании прикладных приложений» (подробнее – в Confluence)
2. Бирзнек М., Савин О.: «Cервис автоматизации XOps: полезный инструментарий для витрин и ML-моделей» (подробнее – в Confluence)
3. Радионов М.: «Тестирования HDFS на нескольких ДЦ» (подробнее – в Confluence)

Вопросы можно будет задать в чате во время выступления докладчиков.

До встречи на митапе!

С уважением,
DWH/BigData 💚

622 views09:43

SberProfi DWH/BigData

#втренде #Выпуск7

Apache TVM ⎋ повышает эффективность работы ML засчет компилирования под CPU, GPU, FPGA и другие ML-акселераторы, в т.ч. внутри баузеров (edge computing!). Поддерживает random forests/classical ML, memory planning, MISRA-C, Python, ... напоминает TensorFlowXLA ⎋

Apache StreamPark ⎋ - новый фреймворк, позволяющий отделить бизнес-логику от конфигурации Spark и Flink и таким образом увеличить скорость разработки и вывода в ПРОМ.

Visual Data Preparation ⎋ - ETL для неструктурированных данных (картинки, видео), позволяет привести их в анализируемые AI/ML-данные. Под капотом - микросервисная архитектура, Triton Inference Server, Temporal (workflow engine) и Airbyte (коннекторы).

SurrealDB ⎋ - опенсорс-бессерверная база под OLTP-нагрузки с поддержкой аналитических нагрузок. Интересно, как работает их движок.

Data Mesh в Netflix ⎋ в своем тех.блоге описывают платформу данных и то, как подход дата-меш помог прийти к лучшему качеству, создать каталог данных и трэчить линедж.

PS: 3-6 октября проходит ApacheCon ⎋. Доклады - топ!

OpenXLA Project

644 viewsedited 13:27

SberProfi DWH/BigData

Коллеги, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях?

Anonymous Poll

Apache StreamPark

Visual Data Preparation

46 voters506 views07:33

SberProfi DWH/BigData

Коллеги, добрый день! 🐝

В продолжение рубрики #втренде просим вас пройти краткий опрос ⬆️⬆️⬆️.

Спасибо!

513 views07:34