Efeito do ranking sobre métricas de categorização multi-rótulo de texto

dc.contributor.advisor1Souza, Alberto Ferreira de
dc.contributor.authorMelotti, Bruno Zanetti
dc.contributor.referee1Gonçalves, Claudine Badue
dc.contributor.referee2França, Felipe Maia Galvão
dc.date.accessioned2016-08-29T15:32:30Z
dc.date.available2016-07-11
dc.date.available2016-08-29T15:32:30Z
dc.date.issued2009-11-27
dc.description.abstractA multi-label text categorization system typically ranks a set of predefined labels according to their appropriateness to a given document and then selects the top ranking labels as the document’s label set. Ties occurring in the ranking can be broken in many different ways but, although this may affect the metrics used to evaluate the multi-label text categorizer, the issue seems to have been little addressed in the literature. In this paper, we analyze the impact of different ranking methods on ten multi-label text categorization performance metrics: one-error, coverage, ranking loss, average precision, R-precision, Hamming loss, exact match, precision, recall, and F1. To this end, we first reformulate some of the metrics in order for ties to be taken into account. We then use them to evaluate the performance of three multi-label text categorization techniques, k -nearest neighbors ( k NN), multi label k -nearest neighbors (ML- k NN), virtual generalizing random access memory weightless neural networks (VG-RAM WNN) and VG-RAM Data Correlation (VG-RAM WNN-COR), on the categorization of two multi-label text databases with large numbers of labels (105 and 692 categories). We have found that, depending on the method adopted for ranking, the performance results are significantly different for many of the metrics in question, which suggests that the particular ranking method one uses should always be indicated clearly whenever evaluating multi-label text categorization techniques.eng
dc.description.resumoDado um documento para categorização, um sistema de categorização multi-rótulo de texto tipicamente ordena um conjunto de categorias pré-definido, de acordo com a adequação delas ao documento, e seleciona as categorias do topo do ranking como o conjunto de categorias do documento. Empates no ranking eventualmente existentes podem ser tratados de diferentes maneiras, mas, muito embora isso possa afetar as métricas utilizadas para avaliar o desempenho dos categorizadores multi-rótulo de texto, este problema parece ter sido pouco estudado na literatura. Neste trabalho, analisamos o impacto de diferentes tipos de ranking sobre diversas métricas de avaliação de desempenho de categorizadores multi-rótulo de texto, a saber: one-error, coverage, ranking loss, average precision, R-precision, Hamming loss, exact match, precision, recall, e 1 F . Para isso, reformulamos sua definição de modo a considerar empates de acordo com o tipo de ranking empregado. Utilizamo-las então para avaliar o desempenho das técnicas de categorização multi-rótulo de texto k -vizinhos mais próximos ( k NN), k -vizinhos mais próximos multi-rótulo (ML- k NN), rede neural sem peso do tipo VG-RAM (VG-RAM WNN) e VG-RAM com correlação de dados (VG-RAM WNNCOR) na categorização de duas bases multi-rótulo de texto com grande número de categorias (105 e 692 categorias). Descobrimos que, dependendo do tipo de ranking empregado, os resultados de desempenho são significativamente diferentes para muitas das métricas analisadas, o que sugere que o tipo de ranking deve ser claramente indicado na avaliação de técnicas de categorização multi-rótulo de texto.
dc.formatText
dc.identifier.urihttps://dspace5.ufes.br/handle/10/4070
dc.languagepor
dc.publisherUniversidade Federal do Espírito Santo
dc.publisher.countryBR
dc.publisher.courseMestrado em Engenharia Elétrica
dc.publisher.departmentCentro Tecnológico
dc.publisher.initialsUFES
dc.publisher.programPrograma de Pós-Graduação em Engenharia Elétrica
dc.rightsopen access
dc.subjectCategorização multi-rótulo de textopor
dc.subjectCategorização de atividades econômicaspor
dc.subjectMétricas de avaliação multi-rótulopor
dc.subjectRankingspor
dc.subject.udc621.3
dc.titleEfeito do ranking sobre métricas de categorização multi-rótulo de texto
dc.typemasterThesis

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
tese_2759_DissertacaoMestradoBrunoZanettiMelotti.pdf
Tamanho:
1.22 MB
Formato:
Adobe Portable Document Format