Efeito do ranking sobre métricas de categorização multi-rótulo de texto

Melotti, Bruno Zanetti

Efeito do ranking sobre métricas de categorização multi-rótulo de texto

dc.contributor.advisor1	Souza, Alberto Ferreira de
dc.contributor.author	Melotti, Bruno Zanetti
dc.contributor.referee1	Gonçalves, Claudine Badue
dc.contributor.referee2	França, Felipe Maia Galvão
dc.date.accessioned	2016-08-29T15:32:30Z
dc.date.available	2016-07-11
dc.date.available	2016-08-29T15:32:30Z
dc.date.issued	2009-11-27
dc.description.abstract	A multi-label text categorization system typically ranks a set of predefined labels according to their appropriateness to a given document and then selects the top ranking labels as the document’s label set. Ties occurring in the ranking can be broken in many different ways but, although this may affect the metrics used to evaluate the multi-label text categorizer, the issue seems to have been little addressed in the literature. In this paper, we analyze the impact of different ranking methods on ten multi-label text categorization performance metrics: one-error, coverage, ranking loss, average precision, R-precision, Hamming loss, exact match, precision, recall, and F1. To this end, we first reformulate some of the metrics in order for ties to be taken into account. We then use them to evaluate the performance of three multi-label text categorization techniques, k -nearest neighbors ( k NN), multi label k -nearest neighbors (ML- k NN), virtual generalizing random access memory weightless neural networks (VG-RAM WNN) and VG-RAM Data Correlation (VG-RAM WNN-COR), on the categorization of two multi-label text databases with large numbers of labels (105 and 692 categories). We have found that, depending on the method adopted for ranking, the performance results are significantly different for many of the metrics in question, which suggests that the particular ranking method one uses should always be indicated clearly whenever evaluating multi-label text categorization techniques.	eng
dc.description.resumo	Dado um documento para categorização, um sistema de categorização multi-rótulo de texto tipicamente ordena um conjunto de categorias pré-definido, de acordo com a adequação delas ao documento, e seleciona as categorias do topo do ranking como o conjunto de categorias do documento. Empates no ranking eventualmente existentes podem ser tratados de diferentes maneiras, mas, muito embora isso possa afetar as métricas utilizadas para avaliar o desempenho dos categorizadores multi-rótulo de texto, este problema parece ter sido pouco estudado na literatura. Neste trabalho, analisamos o impacto de diferentes tipos de ranking sobre diversas métricas de avaliação de desempenho de categorizadores multi-rótulo de texto, a saber: one-error, coverage, ranking loss, average precision, R-precision, Hamming loss, exact match, precision, recall, e 1 F . Para isso, reformulamos sua definição de modo a considerar empates de acordo com o tipo de ranking empregado. Utilizamo-las então para avaliar o desempenho das técnicas de categorização multi-rótulo de texto k -vizinhos mais próximos ( k NN), k -vizinhos mais próximos multi-rótulo (ML- k NN), rede neural sem peso do tipo VG-RAM (VG-RAM WNN) e VG-RAM com correlação de dados (VG-RAM WNNCOR) na categorização de duas bases multi-rótulo de texto com grande número de categorias (105 e 692 categorias). Descobrimos que, dependendo do tipo de ranking empregado, os resultados de desempenho são significativamente diferentes para muitas das métricas analisadas, o que sugere que o tipo de ranking deve ser claramente indicado na avaliação de técnicas de categorização multi-rótulo de texto.
dc.format	Text
dc.identifier.uri	https://dspace5.ufes.br/handle/10/4070
dc.language	por
dc.publisher	Universidade Federal do Espírito Santo
dc.publisher.country	BR
dc.publisher.course	Mestrado em Engenharia Elétrica
dc.publisher.department	Centro Tecnológico
dc.publisher.initials	UFES
dc.publisher.program	Programa de Pós-Graduação em Engenharia Elétrica
dc.rights	open access
dc.subject	Categorização multi-rótulo de texto	por
dc.subject	Categorização de atividades econômicas	por
dc.subject	Métricas de avaliação multi-rótulo	por
dc.subject	Rankings	por
dc.subject.udc	621.3
dc.title	Efeito do ranking sobre métricas de categorização multi-rótulo de texto
dc.type	masterThesis

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: tese_2759_DissertacaoMestradoBrunoZanettiMelotti.pdf
Tamanho:: 1.22 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

Mestrado em Engenharia Elétrica