ПРИНЦИПЫ ПОТОКОВОЙ ОБРАБОТКИ
Синхронная микропакетная обработка (#microBatch), как автобус по расписанию — ждём комплект данных за временной слот (микропакет), режем на кусочки (сеты) и паралелим. Плюсы очевидны:
— быстро (малый размер)
— дёшево (малый ресурс)
— сердито (минимальная задержка)
Но, неравномерность данных в сетах, может тормозить весь пакет.
Асинхронная микропакетная обработка (#eventDrive) решает эту проблему словно маршрутка — тригером выступает не расписание, а объем данных: «Набралось — поехали».
В то же время возникает проблема агрегирования данных, поскольку задачи по-прежнему изолированы.
Потоковая модель обработки #DAG формирует графы (конечная совокупность точек), которые с одной стороны полностью изолированы, с другой — не нуждаются в синхронизации.
Как генерация спарклайнов в Excel, где под каждую задачу клонируется (паралелится) свой граф.
В то же время, потоковая модель рассматривает данные как ресурс для принятия решения, и когда «окно» закрывается — решение принято, инные данные не могут быть интегрированы в «окно». Что исключает возможность повторной обработки исторических данных тем же кодом.
Модель непрерывного обновления (#stateful) не считает решение (окончательно) принятым и поэтому обновляет данные. Таким образом, в модели данные рассматриваются как поток изменений, где каждое изменение обновляет состояние вычисления.
В то же время буфер сохраняет возможность пересчитать историю с новым кодом — сделать ретроспективу. Например, подогнать уровень чувствительности к нужным решениям.
Помимо гибридных моделей (#lambda- и #kappa-архитектуры), отдельно стоит выделить специализированые #CEP-модели, которые работают внутри конкретных паттернов данных.
В любом случае, цель данного обзора — лишь познакомить с базывами методами работы в потоке, выделяя отличия от стат.анализа.
#dataStreaming
ловись data большая и маленькаяСинхронная микропакетная обработка (#microBatch), как автобус по расписанию — ждём комплект данных за временной слот (микропакет), режем на кусочки (сеты) и паралелим. Плюсы очевидны:
— быстро (малый размер)
— дёшево (малый ресурс)
— сердито (минимальная задержка)
Но, неравномерность данных в сетах, может тормозить весь пакет.
Асинхронная микропакетная обработка (#eventDrive) решает эту проблему словно маршрутка — тригером выступает не расписание, а объем данных: «Набралось — поехали».
В то же время возникает проблема агрегирования данных, поскольку задачи по-прежнему изолированы.
Потоковая модель обработки #DAG формирует графы (конечная совокупность точек), которые с одной стороны полностью изолированы, с другой — не нуждаются в синхронизации.
Как генерация спарклайнов в Excel, где под каждую задачу клонируется (паралелится) свой граф.
В то же время, потоковая модель рассматривает данные как ресурс для принятия решения, и когда «окно» закрывается — решение принято, инные данные не могут быть интегрированы в «окно». Что исключает возможность повторной обработки исторических данных тем же кодом.
Модель непрерывного обновления (#stateful) не считает решение (окончательно) принятым и поэтому обновляет данные. Таким образом, в модели данные рассматриваются как поток изменений, где каждое изменение обновляет состояние вычисления.
В то же время буфер сохраняет возможность пересчитать историю с новым кодом — сделать ретроспективу. Например, подогнать уровень чувствительности к нужным решениям.
Помимо гибридных моделей (#lambda- и #kappa-архитектуры), отдельно стоит выделить специализированые #CEP-модели, которые работают внутри конкретных паттернов данных.
В любом случае, цель данного обзора — лишь познакомить с базывами методами работы в потоке, выделяя отличия от стат.анализа.
#dataStreaming
👍2