Paralelismo e Distribuição na Recuperação Heurística do Plágio Externo com Locality Sensitive Hash

Título
Paralelismo e Distribuição na Recuperação Heurística do Plágio Externo com Locality Sensitive Hash

Mestre

Joaquim Afonso Ferreira Viana

Geraldo Bonorino Xexéo
(Orientador)

Linha de pesquisa
Engenharia de Dados e Conhecimento

Tipo de publicação
Dissertação de Mestrado

Data da defesa
24/9/2019

Resumo
A recuperação heurística na tarefa de identificação de plágio externo tem o objetivo de retornar uma lista com os documentos mais prováveis de terem sido plagiados, baseado em uma métrica de similaridade, reduzindo a carga de trabalho das etapas seguintes, caracterizadas por serem altamente custosas. O trabalho de DUARTE (2017) formalizou uma sequência de passos para realizar recuperação heurística com métodos de Locality Sensitive Hash (LSH) e demonstrou que, devido a capacidade de preservação da similaridade, os métodos LSH são opções viáveis para a recuperação heurística. Este trabalho propôs duas estratégias, denominadas de paralelismo nos documentos (PnD) e paralelismo na permutação (PnP), baseadas na sequência de passos de DUARTE (2017), que foram implementadas no sistema de computação distribuída Apache Spark, para apoiar a tarefa de identificação de plágio em grandes coleções de documentos. Os experimentos demonstraram que as estratégias PnD e PnP foram capazes de reduzir, em função do aumento da capacidade computacional, o tempo das atividades de representar, buscar e recuperar documentos; bem como permitem atingir um alto nível de eficácia para retornar os documentos efetivamente plagiados.