Nossas Pesquisas

Nossas pesquisas incluem várias formas de processar texto.

Trabalhos em andamento.

Relacionamento entre Eventos Detectados em Mídias Sociais

O candidato a doutorado Fabrício Pereira tem trabalhado com a descoberta de relações em eventos detectados a partir de textos curtos postados em mídias sociais, como títulos de notícias ou publicações em microblogs.

As mídias sociais permitem que as pessoas leiam, publiquem e compartilhem sobre os eventos que ocorrem no mundo real usando seus smartphones, que acompanham o dia-a-dia de seus usuários. Assim, os usuários frequentemente alimentam as mídias sociais, como ao compartilhar notícias on-line, ou ao postar em um microblog usando alguns caracteres. Existem várias técnicas para detectar ou descobrir eventos do mundo real a partir de notícias ou postagens, e neste trabalho, queremos descobrir relações entre esses eventos detectados. Este trabalho discute os tipos de relações, formas de descobrir cada tipo de relação e ao final discute sobre desafios e trabalhos futuros.

A proposta do trabalho se desenvolve a partir da seguinte hipótese: a extração dos atributos de eventos reais a partir de seus relatos em microblogs (5W1H), possibilitam a identificação de relações válidas entre os diversos eventos relatados.

Reconhecimento de Inferência Textual

O aluno de mestrado Gabriel Almeida busca criar métodos automáticos capazes de determinar qual é a relação entre uma dada premissa (ex: “A prova mostra que o estudante acertou as dez questões de funções trigonométricas da aula de matemática.”) com uma hipótese (ex: “O aluno acertou várias questões de trigonometria.”): a premissa confirma a hipótese, a premissa contradiz a hipótese ou nada pode ser afirmado. Isto é conhecido como inferência textual, do inglês “textual entailment”.

Inferência textual é considerado um problema central para o entendimento de linguagens e possui diversas aplicações, podendo ajudar em tarefas como sumarização de textos, responder perguntas, identificar paráfrases etc.

Predição de Rótulos em Sistemas de Rotulagem Colaborativas

Título em inglês (a princípio): Using Word Embeddings to Improve Tag Prediction in Social Tagging Systems.

O candidato a mestrado Felipe de Queiroz Badejo Almeida se propõe a usar word embeddings (e suas variantes para blocos como parágrafos e documentos) para melhorar a predição (a princípio baseada apenas em conteúdo do recurso, ou seja, não personalizada) de rótulos (tags) em sistemas de rotulagem colaborativas, o que pode ser usado para sugerir tags para usuários nestes sistemas, entre outras tarefas.

Sistemas de Rotulagem Colaborativas (Social Tagging Systems) são plataformas sociais onde usuários podem adicionar múltiplos rótulos (Tags) a recursos dentro do sistema. Exemplos são Stackoverflow (perguntas são rotuladas), sites de música como soundcloud, last.fm, pandora, etc (músicas são rotuladas), sites de imagens como flickr e picasa (imagens são rotuladas) e muitos outros.

O uso distribuído de tags pelos usuários nestes sistemas dá origem a um ambiente de classificação informal que emerge dos esforços de cada um. Isso é comumente chamado de folksonomy (folk+taxonomy) e tem uma dinâmica própria, sobre a qual há muitos estudos já feitos.

Segundo estudos na literatura, a qualidade das tags em tais sistemas pode decair quando os usuários têm liberdade demais em criar novas tags, levando a problemas como ambiguidade, polissemia, etc.

O uso de um vocabulário controlado e a sugestão de tags apropriadas pode contribuir para mitigar estes problemas, e é aí que a predição/sugestão de tags pode ajudar.

Roteamento Automático de Tickets de Incidentes

O candidato a mestrado Matheus Correia Ferreira trabalha na construção de um sistema que busca trazer mais eficiência, através da redução na carga de trabalho, ao processo de gestão de ambientes tecnológicos que suportam serviços de tecnologia da informação. Este objetivo é alcançado pelo roteamento automático de tickets de incidentes às áreas especializadas responsáveis por corrigir os diferentes tipos de problemas que surgem na infraestrutura tecnológica. Desta forma, elimina-se a necessidade de que uma análise manual de cada registro seja feita por um agente humano, diminuindo o tempo gasto neste processo de decisão e fazendo o envio automático do problema indicado àqueles que têm capacidade de tratá-lo.

Serviços de tecnologia da informação permeiam a sociedade como um todo e estão presentes em diversas áreas da economia: redes varejistas cada vez mais realizam transações de venda através de seus sites; instituições bancárias permitem que seus clientes realizem vários tipos de operações em computadores e tablets; companhias como Google, Apple, e Microsoft provêm a usuários a oportunidade de armazenar arquivos pessoais em parques de servidores mantidos pelas mesmas; serviços de streaming como Netflix, Youtube, e Spotify mantêm catálogos de vídeos e música que podem ser consumidos por usuários em diferentes plataformas; empresas utilizam aplicações e ferramentas informatizadas para produzir e entregar valor a seus clientes; e governos ao redor do mundo oferecem serviços essenciais aos cidadãos através da internet.

Em todos estes casos, e em muitos outros, o funcionamento correto dos sistemas que executam estas atividades depende da infraestrutura tecnológica os suporta. A má manutenção ou gestão da mesma pode fazer com que ocorrências indesejáveis, como lentidão ou até indisponibilidade total, aconteçam; em um mundo de alta competitividade, estes problemas podem fazer com que usuários insatisfeitos deixem de consumir e pagar pelos serviços e migrem para plataformas concorrentes.

Dentro do escopo da gestão desta infraestrutura tecnológica, incidentes são definidos como eventos inesperados que podem fazer com que os serviços suportados pela mesma sofram com perdas de qualidade. Dada a importância de se tratar tais eventos da maneira mais eficiente possível, ao longo dos anos diversos processos foram definidos detalhando como empresas que provêm serviços de tecnologia da informação devem lidar com incidentes. O trabalho, então, dedica-se a atuar na melhoria destes processos através da automatização de um de seus passos; mais especificamente, a etapa na qual após a detecção e registro de um incidente em potencial ou em curso este precisa ser analisado e encaminhado para a área técnica mais competente para resolvê-lo. Quanto mais rápido e preciso este procedimento for, menor será o tempo gasto na resolução de um incidente que pode vir a afetar negativamente o serviço.

A automatização da análise e posterior encaminhamento do ticket que contém os dados do incidente passa pelo uso de técnicas de transformação e classificação de texto: no primeiro, o texto dos tickets é transformado para formatos que sejam inteligíveis por computadores; no segundo, este texto já transformado é analisado por algoritmos de aprendizado de máquina, que são capazes de detectar padrões no texto que indicam para qual área o ticket deve ser encaminhado. Neste escopo de transformação e classificação, o trabalho analisa problemas pertinentes a ambas as áreas e busca pelas técnicas que os resolvem e trazem os melhores resultados em termos de acertos no encaminhamento dos tickets, além de propor algumas variações para estas técnicas que obtêm as melhores performances.

 

Uma abordagem para: Investigar e analisar a conformidade de processos de negócio através de log de eventos utilizando técnicas de mineração de processos

A candidata a mestrado Rosângela Maria Silva Oliveira tem se dedicado ao estudo das abordagens que incidem sobre a análise da conformidade (conformance checking) na área de mineração de processos (Process mining). A conformidade verifica o quão bem um log e um modelo coincidem.

As organizações possuem processos modelados, por outro lado, os sistemas automatizados nelas existentes, tendem a seguir a estrutura definida no mundo real, logo, eventos são inseridos o tempo todo a fim de registrar os passos seguidos, porém, nem sempre os sistemas possuem eventos mapeados de acordo com a estrutura necessária para gerar o modelo do processo.

Sendo assim, o trabalho proposto desenvolve um modelo que utiliza textos não estruturados e categoriza-os, a ideia é fazer o mapeamento da categorização do texto a partir da descrição existente no levantamento do processo. A partir do mapeamento e adequação do log, o modelo do processo é gerado de acordo com o log dos eventos. Com a estrutura de dados adequada e o levantamento do processo que a organização entende que segue, a análise da conformidade dá-se em relação a avaliação de itens como: caminhos do processo que não foram seguidos, exceções das instâncias, possíveis causas de desvios, rastreamento de desvios identificados dentre outros.

A área de mineração de processos atua em conjunto com a área mineração de dados, cujo objetivo é verificar o comportamento do log de eventos dos sistemas, e atua sobre a descoberta do modelo, a avaliação da conformidade e a extensão ou melhoria do mesmo.


Geração automatizada de roteiros de conversação
A aluna a mestrado Débora Andrade de Lima tem se dedicado ao estudo de arquiteturas e abordagens para a crição de robôs automatizados voltados a conversação com propósito. Como exemplo de tais robôs podemos citar os que buscam auxiliar usuários em agendamentos de viagens (extraindo as informações de quantidade de pessoas, orçamento e preferências de clima através da simulação de uma conversa), os que buscam resolver um problema de um cliente (como o caso de prestadoras de serviços de telefonia e energia elétrica) e os que possuem fins educacionais (como base de conhecimento de uma empresa ou escola).
Nesta área, a aluna se concentra em formas de automatização da geração dos roteiros de conversação, onde ficam armazenadas as regras sobre como guiar a conversação com o usuário e fazem a conexão entre a base de conhecimento armazenada e o módulo de processamento de linguagem natural.