Evaluation of Machine Learning Classifiers In Ordinal Multiclass Fake News Detection Scenario

Linha de pesquisa
Inteligência Artificial
Mestre:
Igor Bichara de Azeredo Coutinho
Carlos Eduardo Pedreira
(Orientador)
Geraldo Bonorino Xexéo
(Co-orientador)
Tipo de publicação
Dissertação de Mestrado
Data da defesa
13/11/2019
Resumo

Essa dissertação tem como objetivo avaliar classificadores de aprendizado de máquina e suas técnicas no problema de detecção de fake news. Algoritmos preditivos nesse contexto podem variar sua confiabilidade de acordo com a variância da rotulação de datasets causada pela ambiguidade e subjetividade da semântica textual.

O experimeno dessa dissertação utiliza o dataset LIAR. Esse dataset foi criado a partir de dados da agência de checagem de fatos PolitiFact: rótulos com 6 classes ordinais que posicionam as declarações políticas no intervalo entre completamente falsa e completamente verdadeira. O experimento original do autor do dataset alcançou 27.4% de acurácia usando redes híbridas com camadas convolucionais CNN e recorrentes LSTM bidirecionais.

A contribuição deste trabalho consiste na avaliação de classificadores mais simples usando diferentes técnicas de pré-processamento e seleção de atributos. Além disso, o trabalho explora a natureza ordinal das classes usando um método ensemble de classificadores binários já estabelecido na literatura. Uma métrica de dispersão da matriz de confusão é aplicada com o intuido de verificar que, na abordagem ordinal, erros de classificação estão mais próximo das classes corretas, sendo assim menos impactantes.

Abstract

This thesis intends to explore machine learning classifiers and techniques to address the problem of fake news detection. Prediction algorithms can achieve completely different results in this problem due to variance in dataset labeling caused by ambiguity and subjectivity of semantic text.

In the experiment of this thesis the LIAR Dataset is used. This dataset derived from PolitiFact fact-checking agency data: 6-class ordinal labeling that places political statements in the range between completely false and completely true statements. The original experiment that created the dataset achieved 27.4% class accuracy using hybrid CNN and Bi-Directional LSTM networks.

The contribution of this work consists of evaluating simpler classifiers focusing on using different preprocessing and feature selection techniques when modeling metadata and text features. Furthermore, this work explores the ordinal characteristics of the class labels and uses simple binary classifiers in an ordinal ensemble method already established in the literature. A confusion matrix dispersion measure is also applied to verify that, with the ordinal approach, misclassified labels are closer to correct labels in the ordinal scale, making errors less impactful.