ANÁLISE DE AGRUPAMENTOS SOBRE TEXTOS: UM ESTUDO DOS RESUMOS DO BANCO DE TESES E DISSERTAÇÕES DA CAPES

UM ESTUDO DOS RESUMOS DO BANCO DE TESES E DISSERTAÇÕES DA CAPES

  • Fernando Melo Faraco Universidade Federal de Santa Catarina
  • Alexandre Leopoldo Gonçalvez, Dr
  • João Arthur de Souza, Dr
  • José Leomar Todesco, Dr
  • Ronnie Carlos Tavares Nunes

Resumo

O processo de descoberta de conhecimento em grandes volumes de informação tem um amplo campo de aplicação. As principais tarefas de classificação, agrupamento e associação têm sido utilizadas em diferentes áreas do conhecimento para tornar possível a identificação de conhecimento útil em grandes volumes de dados. Neste artigo, é analisada a aplicação de técnicas de mineração de dados, notadamente o algoritmo de agrupamento K-Means, com o objetivo de verificar sua efetividade para análise de dados oriundos do Portal Brasileiro de Dados Abertos, um repositório de dados público organizado e disponibilizado à população. O conjunto de dados utilizado para a aplicação do algoritmo de agrupamento foi extraído das informações disponibilizadas sobre o banco de teses e dissertações disponibilizadas pela CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior). Os dados foram tratados e inseridos na plataforma Apache Solr® onde foram indexados, sendo os agrupamentos gerados a partir do software Carrot2, utilizando-se o algoritmo K-Means com configurações customizadas. Os agrupamentos foram gerados ano a ano e de forma consolidada, com diferentes configurações do algoritmo, tornando possível a comparação entre os termos obtidos. Concluiu-se que os resultados das ferramentas utilizadas estão diretamente relacionados com a escolha do número de agrupamentos iniciais, mas a potencialidade para a descoberta de agrupamentos não óbvios é evidente.

Publicado
2018-09-19
Como Citar
FARACO, Fernando Melo et al. ANÁLISE DE AGRUPAMENTOS SOBRE TEXTOS: UM ESTUDO DOS RESUMOS DO BANCO DE TESES E DISSERTAÇÕES DA CAPES. Congresso Internacional de Conhecimento e Inovação – Ciki, [S.l.], v. 1, n. 1, sep. 2018. ISSN 2318-5376. Disponível em: <http://proceeding.ciki.ufsc.br/index.php/ciki/article/view/589>. Acesso em: 13 dec. 2019.