Última alteração: 2023-10-30
Resumo
Pesquisas bibliográficas científicas tendem a ficar desatualizadas rapidamente devido a grande volume de informações geradas diariamente. Este projeto tem por objetivo desenvolver uma estrutura genérica que possa ser usada por pesquisadores e aplicada em qualquer contexto de uma pesquisa exploratória. Neste artigo, as estudos sobre modelagem de tópicos foi realizada via implementação do scikit-learn em python 3. A primeira etapa é o pré-processamento, preparação e limpeza dos dados do corpus. A limpeza de dados evita a correlação indesejada entre documentos, otimizando os cálculos. Para a etapa de modelagem de tópico, o método de Alocação de Dirichlet Latente possibilitou extrair probabilidades de tópicos a partir de dados estatísticos disponíveis. A validação cruzada semântica dos resultados obtidos conduziu um estudo do significado e de fenômenos gramaticais relacionados aos tópicos gerados. A análise mostrou mapa de distância intertópico sem sobreposição dos tópicos, bem como que os 30 termos mais relevantes para o tópico 1 corresponde a 55,3\% dos tokens do corpus, o qual está de acordo com a nuvem de palavras gerado. Desta maneira, a modelagem de tópicos fornece uma classificação objetiva do corpus, que normalmente possuem grandes quantidades de conteúdo textual, possibilitando o uso como agente catalisador em análises exploratórias.