https://bigdataschool.ru/blog/deduplication-with-spark-methods.html
Как устранить дубли в датасете: 5 методов для разработчика Apache Spark