ANÁLISE DE AGRUPAMENTOS SOBRE TEXTOS: UM ESTUDO DOS RESUMOS DO BANCO DE TESES E DISSERTAÇÕES DA CAPES

UM ESTUDO DOS RESUMOS DO BANCO DE TESES E DISSERTAÇÕES DA CAPES

Autores

  • Fernando Melo Faraco Universidade Federal de Santa Catarina
  • Alexandre Leopoldo Gonçalvez, Dr
  • João Arthur de Souza, Dr
  • José Leomar Todesco, Dr
  • Ronnie Carlos Tavares Nunes

Palavras-chave:

Agrupamento de Documentos, Dados Abertos, Mineração de Dados, Kmeans, Descoberta de conhecimento em texto

Resumo

O processo de descoberta de conhecimento em grandes volumes de informação tem um amplo campo de aplicação. As principais tarefas de classificação, agrupamento e associação têm sido utilizadas em diferentes áreas do conhecimento para tornar possível a identificação de conhecimento útil em grandes volumes de dados. Neste artigo, é analisada a aplicação de técnicas de mineração de dados, notadamente o algoritmo de agrupamento K-Means, com o objetivo de verificar sua efetividade para análise de dados oriundos do Portal Brasileiro de Dados Abertos, um repositório de dados público organizado e disponibilizado à população. O conjunto de dados utilizado para a aplicação do algoritmo de agrupamento foi extraído das informações disponibilizadas sobre o banco de teses e dissertações disponibilizadas pela CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior). Os dados foram tratados e inseridos na plataforma Apache Solr® onde foram indexados, sendo os agrupamentos gerados a partir do software Carrot2, utilizando-se o algoritmo K-Means com configurações customizadas. Os agrupamentos foram gerados ano a ano e de forma consolidada, com diferentes configurações do algoritmo, tornando possível a comparação entre os termos obtidos. Concluiu-se que os resultados das ferramentas utilizadas estão diretamente relacionados com a escolha do número de agrupamentos iniciais, mas a potencialidade para a descoberta de agrupamentos não óbvios é evidente.

Downloads

Publicado

2018-09-19

Como Citar

Faraco, F. M., Gonçalvez, A. L., de Souza, J. A., Todesco, J. L., & Nunes, R. C. T. (2018). ANÁLISE DE AGRUPAMENTOS SOBRE TEXTOS: UM ESTUDO DOS RESUMOS DO BANCO DE TESES E DISSERTAÇÕES DA CAPES: UM ESTUDO DOS RESUMOS DO BANCO DE TESES E DISSERTAÇÕES DA CAPES. Anais Do Congresso Internacional De Conhecimento E Inovação – Ciki, 1(1). Recuperado de https://proceeding.ciki.ufsc.br/index.php/ciki/article/view/589