Incident Routing: Text Classification, Feature Selection, Imbalanced Datasets, and Concept Drift in Incident Ticket Management

Mestre:
Matheus Correia Ferreira
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Data da defesa
14/12/2017
Resumo

Ao mesmo tempo em que a economia mundial entrou em um período onde serviços, não produtos, são o foco dos negócios, a tecnologia também avançou. Serviços de tecnologia da informação existem na interseção destas correntes, e a importância deles é clara dado o número de serviços disponíveis em plataformas eletrônicas. Companhias dependem deles para entregar valor aos seus clientes; governos os usam para prover serviços essenciais para a população; e usuários desfrutam dos mesmos para entretenimento, compras, e outras atividades. Provedores de serviços de TI têm o desafio de manter a infraestrutura tecnológica que suporta estes serviços. Uma vez que o mundo se tornou dependente de sistemas de TI, a queda de qualidade ou indisponibilidade destes não são boas para os negócios. Assim, a solução eficiente dos incidentes que causam estes problemas é um dos aspectos críticos da gestão de serviços de TI. Buscando reduzir a carga de trabalho envolvida no gerenciamento de incidentes, um sistema que designa incidentes registrados para as áreas que têm a expertise para resolvê-los é criado e testado com incidentes reais coletados de uma empresa brasileira provedora de serviços de TI. Para isto, técnicas de classificação automática de texto, e problemas de maldição da dimensionalidade e datasets desbalanceados são analisados. Além disso, concept drift, que ocorre conforme a distribuição dos dados muda com o tempo, também é tratado com um algoritmo tradicional da área e um grupo de ensembles propostos que trazem melhores resultados na redução da carga de trabalho e acurácia de classificação.

Abstract

While the world’s economy has entered a period where services, not products, are the focus of businesses, technology has also advanced. Information technology services exist in the intersection of these two currents and their importance is clear given the number of services that are available on numerous electronic platforms. Companies depend on those applications to deliver value to customers; governments use them to provide the population with essential services; and many users rely on them for entertainment, shopping, and other activities. IT service providers must contend with the challenge of keeping the technological infrastructure that supports services running. As the world has grown to be dependent on IT systems, the downtime or drop in quality of such services is bad for business. Therefore, the efficient solving of the incidents that cause those problems is one of the critical aspects of IT service management. In this work, with the goal of reducing the workload involved in the management of incidents, a system that automatically assigns registered incidents to the areas that have the expertise to solve them is designed and tested with real-life incidents collected from a Brazilian IT service provider. To do so, techniques related to automatic text classification are employed, and problems related to the curse of dimensionality and imbalanced datasets are approached. Moreover, concept drift, which occurs as the data distribution of tickets changes overtime, is also handled via a traditional algorithm of the area and a group of proposed ensembles that bring better results in terms of workload reduction and classification accuracy.