Как мы проверяли качество данных после завершения миграции с Teradata на Greenplum
В этой статье автор расскажет об опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.
Базы данных
В этой статье автор расскажет об опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.
Базы данных
Tarantool CDC: жизнь данных в гетерогенной среде
Часто в распределенных ИТ-ландшафтах компании используют несколько хранилищ данных под разные задачи. Это делает их важным компонентом любой системы Change Data Capture (CDC) — они помогают отслеживать изменения данных и связывать используемые хранилища. Но далеко не все CDC-инструменты способны ответить на актуальные запросы бизнеса.
Базы данных
Часто в распределенных ИТ-ландшафтах компании используют несколько хранилищ данных под разные задачи. Это делает их важным компонентом любой системы Change Data Capture (CDC) — они помогают отслеживать изменения данных и связывать используемые хранилища. Но далеко не все CDC-инструменты способны ответить на актуальные запросы бизнеса.
Базы данных
This media is not supported in your browser
VIEW IN TELEGRAM
Никто: ...
Абсолютно никто: ...
Мы с коллегой в 2 часа ночи: увидели условия задач Data Fusion Contest 2026 и поняли, что пора расчехлять свои лучшие алгоритмы.
Присоединяйся тоже!
Data Fusion Contest 2026 — ежегодное онлайн-соревнование по машинному обучению для специалистов Data Science. Общий призовой фонд — 3 000 000 рублей.
Участникам предстоит выполнить три задачи:
Регистрируйся прямо сейчас!
Информация о рекламодателе
Please open Telegram to view this post
VIEW IN TELEGRAM
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
Базы данных
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
Базы данных
Когда у компании десятки продуктов и сотни ML-моделей, самое дорогое — это не обучение, а разрозненность.
В VK с аудиторией 200+ млн пользователей рекомендации, поиск и реклама долго развивались параллельно. В итоге — дубли пайплайнов, разные подходы к фичам и замедление экспериментов.
Решение — собрать всё в единую Discovery-платформу.
Что внутри:
— Stream Flow — центральный слой потоковой обработки на базе YTsaurus
До 1 млн событий в секунду, микробатчинг и синхронизация real-time сигналов между продуктами.
— Единый ML-профиль пользователей
~100 млрд событий в сутки аккумулируются в общей системе хранения и обработки.
— Стандартизированный ML-цикл
Retrieval → Ranking → A/B → деплой — без зоопарка инфраструктуры в каждой команде.
— Self-service для ML-команд
Унифицированные фичи, пайплайны и инструменты запуска экспериментов.
Ключевое изменение — не просто ускорение моделей, а смена операционной модели. От набора независимых ML-решений — к платформенной архитектуре.
Результат: цикл «идея → эксперимент → метрики» сократился в 5 раз. Если раньше внедрение новой рекомендательной системы занимало до полугода, теперь — около месяца. И это уже не локальная оптимизация, а фундамент для масштабирования ML на уровне всей экосистемы.
В VK с аудиторией 200+ млн пользователей рекомендации, поиск и реклама долго развивались параллельно. В итоге — дубли пайплайнов, разные подходы к фичам и замедление экспериментов.
Решение — собрать всё в единую Discovery-платформу.
Что внутри:
— Stream Flow — центральный слой потоковой обработки на базе YTsaurus
До 1 млн событий в секунду, микробатчинг и синхронизация real-time сигналов между продуктами.
— Единый ML-профиль пользователей
~100 млрд событий в сутки аккумулируются в общей системе хранения и обработки.
— Стандартизированный ML-цикл
Retrieval → Ranking → A/B → деплой — без зоопарка инфраструктуры в каждой команде.
— Self-service для ML-команд
Унифицированные фичи, пайплайны и инструменты запуска экспериментов.
Ключевое изменение — не просто ускорение моделей, а смена операционной модели. От набора независимых ML-решений — к платформенной архитектуре.
Результат: цикл «идея → эксперимент → метрики» сократился в 5 раз. Если раньше внедрение новой рекомендательной системы занимало до полугода, теперь — около месяца. И это уже не локальная оптимизация, а фундамент для масштабирования ML на уровне всей экосистемы.
This media is not supported in your browser
VIEW IN TELEGRAM
Функции SQL для числовых типов данных
В этом видеоуроке автор подробно разбирает процесс работы с числовыми функциями и операторами SQL (ROUND, ABS, TRUNC).
00:00 Вступление
00:47 Округление в SQL (ROUND)
01:15 Получение абсолютного значения (ABS)
01:48 Усечение числа до определенного количества знаков (TRUNC)
02:35 Описание таблицы DUAL в Oracle SQL
Смотреть это видео на youtube: youtu.be/m3ZeiBxkg70
В этом видеоуроке автор подробно разбирает процесс работы с числовыми функциями и операторами SQL (ROUND, ABS, TRUNC).
00:00 Вступление
00:47 Округление в SQL (ROUND)
01:15 Получение абсолютного значения (ABS)
01:48 Усечение числа до определенного количества знаков (TRUNC)
02:35 Описание таблицы DUAL в Oracle SQL
Смотреть это видео на youtube: youtu.be/m3ZeiBxkg70
Только ворвались в аналитику, но не знаете как искать работу?
Непонимание уходит, если вы уверены в правильности своих действий.
Приглашаем на бесплатный вебинар, где Андрон Алексанян - эксперт в области аналитики и CEO школы аналитики Simulative — в прямом эфире разберет все важные аспекты в работе аналитика, а также расскажет как получить оффер быстрее других.
Это очень полезное событие для тех кто только зашел в аналитику и для тех, кто хочет зайти в ближайшее время. Особенно если вы не понимаете, какие навыки действительно важны или боитесь, что без опыта вас не возьмут на работу. Кстати, на вебинаре также разберут: как стать аналитиком в 30/40/50 лет и т.д.
На вебинаре:
— Покажем примеры, как оформить резюме и портфолио, чтобы привлекать внимание
— Рассмотрим как выглядит найм изнутри от лица HR
💬 Всем зарегистрировавшимся Simulative пришлют полезный материал — карту компетенций аналитика данных со всеми нужными инструментами для освоения.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Полезные функции и операторы SQL
В этом видео автор рассматривает функции и операторы SQL, которые наиболее полезны в виду их разнообразного применения.
00:00 Вступление
00:24 Работа с полями таблиц в SQL
00:57 Создать таблицу для работы
01:09 Добавить поле в таблицу
01:34 Узнать тип поля
01:48 Переместить поле
02:22 Изменить тип поля
03:19 Переименовать поле
03:37 Удалить поле
03:58 Форматирование записей
05:55 Временные таблицы в SQL
Смотреть это видео на youtube: youtu.be/SglQ7CCkkTw
В этом видео автор рассматривает функции и операторы SQL, которые наиболее полезны в виду их разнообразного применения.
00:00 Вступление
00:24 Работа с полями таблиц в SQL
00:57 Создать таблицу для работы
01:09 Добавить поле в таблицу
01:34 Узнать тип поля
01:48 Переместить поле
02:22 Изменить тип поля
03:19 Переименовать поле
03:37 Удалить поле
03:58 Форматирование записей
05:55 Временные таблицы в SQL
Смотреть это видео на youtube: youtu.be/SglQ7CCkkTw
Достижение согласованности без менеджеров транзакций
Вам нужно интегрировать несколько компонентов без помощи менеджеров транзакций с поддержкой ACID (атомарность, согласованность, изоляция и долговечность)? Тогда эта статья для вас.
Базы данных
Вам нужно интегрировать несколько компонентов без помощи менеджеров транзакций с поддержкой ACID (атомарность, согласованность, изоляция и долговечность)? Тогда эта статья для вас.
Базы данных
Media is too big
VIEW IN TELEGRAM
Что такое Hadoop?
01:05 Что такое Hadoop и зачем он нужен
02:13 Преимущества
03:20 Сферы применения
03:51 Для анализа озёр данных
04:29 Для обработки данных из соцсетей
04:56 Для анализа отношения к бренду
05:18 Для анализа поведения клиентов
05:52 Для обеспечения безопасности
06:27 Для анализа геоданных
06:55 Для анализа данных из IoT
07:32 В качестве корпоративного центра данных
08:07 Примеры применения Hadoop в разных сферах
08:25 Как быстро внедрить
09:14 Когда лучше использовать Hadoop
Смотреть это видео на youtube: youtu.be/Gv7r_ftUl6A
01:05 Что такое Hadoop и зачем он нужен
02:13 Преимущества
03:20 Сферы применения
03:51 Для анализа озёр данных
04:29 Для обработки данных из соцсетей
04:56 Для анализа отношения к бренду
05:18 Для анализа поведения клиентов
05:52 Для обеспечения безопасности
06:27 Для анализа геоданных
06:55 Для анализа данных из IoT
07:32 В качестве корпоративного центра данных
08:07 Примеры применения Hadoop в разных сферах
08:25 Как быстро внедрить
09:14 Когда лучше использовать Hadoop
Смотреть это видео на youtube: youtu.be/Gv7r_ftUl6A
Бизнес — не игра в удачу. Это среда, в которой побеждают подготовленные.
«Бизнес Атмосфера» — канал для тех, кто мыслит стратегически, ищет нестандартные решения и понимает ценность идей до того, как о них заговорят все.
🎚️ Уникальные бизнес-идеи, о которых молчат на YouTube
🎚️ Финансовые инсайты, которые работают в реальности
🎚️ Креативные подходы к заработку, которые разрывают шаблоны
🎚️ Как зарабатывать не “когда-нибудь”, а сейчас и здесь
Мы не продаём мечты. Мы собираем людей, которые строят бизнес атмосферу.
«Бизнес Атмосфера» — канал для тех, кто мыслит стратегически, ищет нестандартные решения и понимает ценность идей до того, как о них заговорят все.
Мы не продаём мечты. Мы собираем людей, которые строят бизнес атмосферу.
Please open Telegram to view this post
VIEW IN TELEGRAM
Гарантии видимости в распределённых хранилищах
Часто оказывается так, что в процессе упрощения и структурирования на самом видном месте обнаруживаются скелеты древних динозавров, присыпанные мутными формулировками так, что долгие годы их никто не замечает. Если вы хотите окончательно разобраться в уровнях изоляции транзакций и гарантиях порядка операций, то изучите эту статью.
Базы данных
Часто оказывается так, что в процессе упрощения и структурирования на самом видном месте обнаруживаются скелеты древних динозавров, присыпанные мутными формулировками так, что долгие годы их никто не замечает. Если вы хотите окончательно разобраться в уровнях изоляции транзакций и гарантиях порядка операций, то изучите эту статью.
Базы данных
Крыша течет, склад зальет через пару часов. В руках - только Excel-файл. Какие товары спасать? 🥲
Есть список: наименования, количество на складе, закупочная цена. Что выносить в первую очередь? Те, у кого цена выше? Или где больше штук? ⁉️
Без навыков работы с данными тут не разобраться. Нужно просто знать, как посчитать общую стоимость запасов и выделить самое ценное.
❇️ Ребята из Merion Academy (того самого YouTube-канала про IT) на бесплатных вводных уроках по аналитике данных как раз учат решать такие задачи.
Что внутри:
✔️ Разбираем, кто такой аналитик и зачем он нужен бизнесу
✔️ Решаем практическую задачу "Спасаем склад" с реальными цифрами в Excel
✔️ Закрепляем знания тестом
➡️ Запишись на бесплатные вводные уроки
Попробуй аналитику в деле - на реальной задаче, а не в теории.
Есть список: наименования, количество на складе, закупочная цена. Что выносить в первую очередь? Те, у кого цена выше? Или где больше штук? ⁉️
Без навыков работы с данными тут не разобраться. Нужно просто знать, как посчитать общую стоимость запасов и выделить самое ценное.
❇️ Ребята из Merion Academy (того самого YouTube-канала про IT) на бесплатных вводных уроках по аналитике данных как раз учат решать такие задачи.
Что внутри:
✔️ Разбираем, кто такой аналитик и зачем он нужен бизнесу
✔️ Решаем практическую задачу "Спасаем склад" с реальными цифрами в Excel
✔️ Закрепляем знания тестом
➡️ Запишись на бесплатные вводные уроки
Попробуй аналитику в деле - на реальной задаче, а не в теории.
Merion Academy
DevOps-инженер с нуля
Стань DevOps-инженером с нуля и научись использовать инструменты и методы DevOps
Debezium в действии: сбор и синхронизация отчётной базы данных
Автор этой статьи занимается разработкой фронтального приложения для сотрудников банка, в котором они смогут в одном окне видеть всю необходимую информацию, хранящуюся в трёх отдельных базах данных. Задача — отобразить пользователю общую выборку данных, которые хранятся физически в отдельных кластерах БД.
Базы данных
Автор этой статьи занимается разработкой фронтального приложения для сотрудников банка, в котором они смогут в одном окне видеть всю необходимую информацию, хранящуюся в трёх отдельных базах данных. Задача — отобразить пользователю общую выборку данных, которые хранятся физически в отдельных кластерах БД.
Базы данных
PG BootCamp Russia 2026 — комьюнити-конференция российского сообщества PostgreSQL с подтвержденным официальным международным статусом.
Мероприятие бесплатное, онлайн+офлайн, ориентировано на администраторов БД, разработчиков, инженеров, аналитиков, архитекторов.
Эксперты из Tantor, Яндекс, СберТех, Тензор, Хи-квадрат, Luxms BI и других компаний выступят по темам, связанным с разработкой, эксплуатацией и взаимодействием PostgreSQL с другими системами.
В предварительной программе:
📎 Решение застарелых архитектурных проблем PostgreSQL для современных нагрузок и масштабирования📎 Временные таблицы для Postgres. Почему это важно для платформы 1С и что можно улучшить?📎 Разделение Compute и Storage: архитектурный прорыв для PostgreSQL в облаке📎 Опыт вынесения OLAP-нагрузки на реплику📎 Highload "из ниоткуда": когда проблема не в СУБД, а в клиентской архитектуре📎 Опыт эксплуатации, проблемы и производительность PostgreSQL на Эльбрус, Baikal-S, Loongson, Repka Pi, x86📎 Поиск проблем планирования запросов до их воздействия на производительность📎 Тестирование, баги и уроки работы с патчем 64-битного счетчика транзакций PostgreSQL📎 Работа с логами PostgreSQL📎 …и другие (всего 25 выступлений)
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Индексы в PostgreSQL
В этом ролике автор говорит о проблемах производительности в PostgreSQL. Вы разберете как устроены таблицы и сами базы данных, как работает дефрагментация данных, что такое и как работают индексы, какие виды существуют и для чего их используют. Без всех этих знаний невозможно полноценно заниматься оптимизацией запросов в PostgreSQL.
00:00 Вступление
01:19 Индексы в SQL
02:22 Устройство базы данных в PostgreSQL
04:35 Устройство таблиц
05:16 Страницы и строки таблиц
07:28 FSM и команда VACUUM
11:34 Проблема фрагментации данных в PostgreSQL
15:32 Оптимизация выборки записей
19:35 Обзор видов индексов
20:20 Методы сканирования
Смотреть это видео на youtube: youtu.be/lAWQNcAEiKw
В этом ролике автор говорит о проблемах производительности в PostgreSQL. Вы разберете как устроены таблицы и сами базы данных, как работает дефрагментация данных, что такое и как работают индексы, какие виды существуют и для чего их используют. Без всех этих знаний невозможно полноценно заниматься оптимизацией запросов в PostgreSQL.
00:00 Вступление
01:19 Индексы в SQL
02:22 Устройство базы данных в PostgreSQL
04:35 Устройство таблиц
05:16 Страницы и строки таблиц
07:28 FSM и команда VACUUM
11:34 Проблема фрагментации данных в PostgreSQL
15:32 Оптимизация выборки записей
19:35 Обзор видов индексов
20:20 Методы сканирования
Смотреть это видео на youtube: youtu.be/lAWQNcAEiKw