Data Science News

Исследование под названием Fake News Detection on Social Media using Geometric Deep Learning (статья, код) вышла в начале 2019 года, но пройти мимо этой работы просто невозвожно.

К задаче классификации фейковых новостей существует как минимум два подхода. Первый основан на лингвистическом анализе контента (content-based analysis). Интерпретация контента требуют от NLP модели политических, социальных, общих знаний, и здесь, даже на текущий момент, нет существенного прогресса. Более того, фейковые новости, зачастую, умышленно манипулируют фактами, и даже для натренированных людей сходу классифицировать фейки бывает достаточно сложно. Авторы предлагают использовать другой подход, основанный на анализе характера распространения (Propagation-based) новостей в социальных сетях (twitter). Этот подход независим от языка, имеет большую надежность и устойчив к состязательным атакам. Итоговая модель демонстрирует точность ROC AUC 92.7% (!) и способна достаточно точно классифицировать фейки спустя всего два часа с начала распространения информации.

В работе подробно описан протокол подготовки датасэта (2 страницы!). Данные собирались вручную, проверки выполнялись специальными людьми (fact-checkers). Для связи новостей с данными twitter использовались URL, которые так же проверялись специалистами. Данные twitter отражают каскад распространения новостей в виде социального графа. Таким образом входные данные отражают четыре группы признаков: данные профиля пользователя (геолокация, язык, дата создания и т.д.), активность пользователя (статусы, избранное и прочее), характер распространения новостей (связи между пользователями, количество подписчиков, ретвиты и т.д.) и сам контент (word embedding и хэштеги).

Кульминация работы – это применение Geometric deep learning. Если кратко, то это обобщение нейронных сетей на неевклидовых входных данных, такими являются графы и многообразие (привет дифгем и топология!). Если некратко, то вот исходная работа, а вот видео от Microsoft Research по графовым нейронным сетям. Архитектура модели получилась довольно простой – несколько свёрточных слоёв на графах и полносвязных сетей с классификатором на выходе. И не забываем, что это статья по социальным наукам! В работе представлено много интересных наблюдений. Например, пользователи twitter сильно поляризованы по характеру распространения фейковых новостей.

Авторы показали изящный подход к сложной NLP задаче. Полученная модель не требует тысячи часов обучения на TPU как BERT и способна очень точно классифицировать фейки.

857 viewsAndrey, edited 13:25