https://www.bigdataschool.ru/blog/kudu-spark-ml-pipeline.html
Как организовать конвейер self-service Machine Learning на Apache Kafka, Spark Streaming, Kudu и Impala: пример расширенной BI-аналитики Big Data