ЭФФЕКТИВНЕНЬКО

ПРИНЦИПЫ ПОТОКОВОЙ ОБРАБОТКИ
ловись data большая и маленькая

Синхронная микропакетная обработка (#microBatch), как автобус по расписанию — ждём комплект данных за временной слот (микропакет), режем на кусочки (сеты) и паралелим. Плюсы очевидны:
— быстро (малый размер)
— дёшево (малый ресурс)
— сердито (минимальная задержка)
Но, неравномерность данных в сетах, может тормозить весь пакет.

Асинхронная микропакетная обработка (#eventDrive) решает эту проблему словно маршрутка — тригером выступает не расписание, а объем данных: «Набралось — поехали».
В то же время возникает проблема агрегирования данных, поскольку задачи по-прежнему изолированы.

Потоковая модель обработки #DAG формирует графы (конечная совокупность точек), которые с одной стороны полностью изолированы, с другой — не нуждаются в синхронизации.
Как генерация спарклайнов в Excel, где под каждую задачу клонируется (паралелится) свой граф.

В то же время, потоковая модель рассматривает данные как ресурс для принятия решения, и когда «окно» закрывается — решение принято, инные данные не могут быть интегрированы в «окно». Что исключает возможность повторной обработки исторических данных тем же кодом.

Модель непрерывного обновления (#stateful) не считает решение (окончательно) принятым и поэтому обновляет данные. Таким образом, в модели данные рассматриваются как поток изменений, где каждое изменение обновляет состояние вычисления.

В то же время буфер сохраняет возможность пересчитать историю с новым кодом — сделать ретроспективу. Например, подогнать уровень чувствительности к нужным решениям.

Помимо гибридных моделей (#lambda- и #kappa-архитектуры), отдельно стоит выделить специализированые #CEP-модели, которые работают внутри конкретных паттернов данных.

В любом случае, цель данного обзора — лишь познакомить с базывами методами работы в потоке, выделяя отличия от стат.анализа.

#dataStreaming

👍2

343 viewsedited 22:15

About

Blog

Apps

Platform