Levantamento e Caracterização de Coleções de Documentos para Mineração de Textos em Português

Marcos Roberto Vicente Siqueira; Roberta Akemi Sinoara

Conferências do IFSP, 11º CONGRESSO DE INICIAÇÃO CIENTÍFICA E TECNOLÓGICA DO IFSP

Marcos Roberto Vicente Siqueira, Roberta Akemi Sinoara

Última alteração: 2020-11-13

Resumo

Com o aumento da quantidade e variedade de textos em formato digital, as técnicas de Mineração de Textos tornam-se essenciais no apoio à extração de conhecimento e têm sido foco de muitos trabalhos de pesquisa. Uma necessidade comum em tais pesquisas é a necessidade de coleções de textos rotulados para avaliação dos métodos desenvolvidos. Essa necessidade surge tanto no treinamento supervisionado de modelos quanto na avaliação de modelos gerados de maneira não supervisionada. Apesar da grande relevância, considerando-se o idioma português, não há um inventário consolidado de coleções de textos rotulados disponíveis para pesquisa. Este projeto visa tratar essa lacuna, sendo desenvolvido com o objetivo de contribuir com avanços das pesquisas de Mineração de Textos no idioma português por meio da disponibilização de informações consolidadas sobre coleções de documentos rotulados e disponíveis para pesquisas da área. Para realizar o levantamento das coleções, foram consultados artigos recentes das principais conferências da área, resultando na identificação de 52 coleções de documentos (ou datasets) utilizadas em pesquisas da área de Mineração de Textos.

Palavras-chave

Mineração de Textos; Classificação de Textos; Agrupamento de Textos; Datasets Rotulados

Texto completo: PDF