Explorações em Mineração de Texto – Novo Relatório Técnico do LINE

Esse relatório técnico apresenta os trabalhos em grupo dos alunos da cadeira de Busca e Mineração de Texto no segundo período de 2022, do Programa de Pós-Graduação em Sistemas e Computação da COPPE.

Como professor da cadeira, fiquei muito satisfeito com a qualidade do trabalho entregue em prazo exíguo. Todos os trabalhos demonstram um esforço em seguir o ciclo completo de ter uma pergunta interessante, obter os dados, tratá-los e analisá-los por meio de pacotes de visualização e mineração de texto.

Decidi então fazer o relatório técnico para deixar registradas todas essas contribuições. Segundo a regra da cadeira, os trabalhos apresentados deveriam ter o tamanho de um Poster ou Short Paper tipicamente encontrados em congressos da SBC ou da IEEE, isso significa algo ao redor de 5 páginas em duas colunas e corpo 11. Aqui eles aparecem em uma formato que ocupa mais espaço, para facilitar o leitor, porém foram revistos apenas sua apresentação e português (ou inglês, em alguns casos).

Todos os trabalhos apresentam alguma originalidade em computação aplicada, seja na pergunta que é feita, seja na aplicação imediata, seja no uso de algum dado específico.
O leitor fica avisado, porém, que nenhum algoritmo novo é apresentado, já que essa não era a finalidade da cadeira. Todos eles são também possíveis sementes para dissertações de mestrado e teses de doutorado.

Ressalto a presença de alunos de graduação do curso de Engenharia de Computação e Informação na turma, que apresentaram trabalhos no mesmo padrão que os alunos da pós-graduação.

Apresentação dos Trabalhos

Os quatro primeiros trabalhos apresentados usam Word Clouds ou Tag Clouds. Esse uso foi influenciado por um trabalho anterior meu, com Fernando Morgado e Patrícia Fiúza [Xexeo1999].

O primeiro trabalho é “Análise de Semântica Latente (LSA) Aplicada a Projeto de Leis”, de Carlos Cardoso Dias e Tales Mello Paiva, que apresenta uma análise visual, na forma de Word Clouds, de projetos de lei da Câmara de Deputados, sendo que essa análise visual é criada por meio de um algoritmo de LSA. Essa é uma forma sofisticada de fazer a visualização por Word Clouds, sendo aplicada a dados interessantes. Essa linha de trabalho, a análise de comportamento ou desempenho de políticos, parece muito promissora.

No segundo trabalho, Bruno D. de Paiva e João P. Leite Pinho, alunos de graduação do curso de Engenharia de Computação e Informação, apresentam outra aplicação de Word Clouds, que mostra quais os cômodos mais comentados em relação aos aluguéis no Airbnb. Nesse caso, fazem também uma análise de sentimentos, permitindo a separação dos cômodos mais elogiados dos mais criticados. Essa tipo de trabalho tem grande interesse da indústria e comércio e os alunos souberam lidar bem, em relação ao curto período de tempo, com as bases de dados reais.

Já Pedro Boechat e Pedro Kuchpil, também alunos de graduação, apresentaram um trabalho usado um conceito criado por mim, Differential Tag Clouds, em uma abordagem para a análise das publicações de Computação e como elas vêm se alterando ao longo do tempo na UFRJ.

Devido a ocorrerem em paralelo, esses alunos, porém, não usaram uma contribuição feita por Guilherme Mattos, que criou a biblioteca de Python GTAGLIB, que cria Tag Clouds diferenciais,  já que ela só ficou disponível no final do período. Seria interessante ver, no futuro, essa biblioteca melhorada e usada em aplicações como as anteriores.

O cinema inspirarou dois trabalhos. Ana Clara Correa da Silva e Gabriel S. Luna,  buscaram aprender como fazer a classificação indicativa de filmes por meio de suas sinopses estendidas, enquanto João Pedro G de Souza e Matheus Avellar de Barros fizeram a predição de gênero de filmes a partir das suas legendas. Trabalho semelhante foi feito por Rodrigo Pagliusi e Vitor Paes, que apresentam a classificação de músicas em estilos musicais pelas suas letras.

Eduardo Vieira Marques Pereira do Valle e Herbert Salazar dos Santos,  inspirados pelo curso de Prospecção Tecnológica, dado no mesmo período pelo professor Jano de Souza, fazem uma Comparação Automática das Diretrizes Curriculares Nacionais (DCN) e a Classificação Brasileira de Ocupações (CBO).

Rodrigo Peregrino e Victor Hugo Ventura,  trataram da tarefa de sumarização de dados, buscando extrair o título de um artigo de seu resumo, usando transformadores.

Alguns alunos buscaram avaliar algoritmos. Felipe Bevilaqua Foldes Guimarães, que também usou transformadores, avaliou o desempenho de modelos de linguagem específicos para Tweeter. Já Glauco Primo e Fernando Costa de Souza,  avaliaram algoritmos de extração de palavras chave.

Espero que os trabalhos sirvam de inspiração para que esses e outros alunos escolherem suas pesquisas de dissertação e tese.

O relatório técnico pode ser obtido no site do PESC.