Tamanho da fonte:
Levantamento e Caracterização de Coleções de Documentos para Mineração de Textos em Português
Última alteração: 2020-11-13
Resumo
Com o aumento da quantidade e variedade de textos em formato digital, as técnicas de Mineração de Textos tornam-se essenciais no apoio à extração de conhecimento e têm sido foco de muitos trabalhos de pesquisa. Uma necessidade comum em tais pesquisas é a necessidade de coleções de textos rotulados para avaliação dos métodos desenvolvidos. Essa necessidade surge tanto no treinamento supervisionado de modelos quanto na avaliação de modelos gerados de maneira não supervisionada. Apesar da grande relevância, considerando-se o idioma português, não há um inventário consolidado de coleções de textos rotulados disponíveis para pesquisa. Este projeto visa tratar essa lacuna, sendo desenvolvido com o objetivo de contribuir com avanços das pesquisas de Mineração de Textos no idioma português por meio da disponibilização de informações consolidadas sobre coleções de documentos rotulados e disponíveis para pesquisas da área. Para realizar o levantamento das coleções, foram consultados artigos recentes das principais conferências da área, resultando na identificação de 52 coleções de documentos (ou datasets) utilizadas em pesquisas da área de Mineração de Textos.
Palavras-chave
Mineração de Textos; Classificação de Textos; Agrupamento de Textos; Datasets Rotulados
Texto completo:
PDF