Implementación de algoritmo en el Lenguaje R para extraer los datos de los Perfiles en Google Scholar utilizando la técnica web Scraping de Minería de datos

Este articulo muestra diferentes pruebas realizadas para extraer datos de los perfiles y publicaciones de una afiliación en Google Scholar utilizando la técnica de Web Scrpaing de minería de texto no estructurada. El objetivo es medir la facilidad de extracción de estos datos con esta técnica, llega...

Descripción completa

Autores Principales: Murillo, Danny, Saavedra, Dalys
Formato: Artículo
Idioma: Español
Español
Publicado: Congreso Compdes 2017, Honduras 2017
Materias:
Acceso en línea: http://ridda2.utp.ac.pa/handle/123456789/3105
http://ridda2.utp.ac.pa/handle/123456789/3105
Sumario: Este articulo muestra diferentes pruebas realizadas para extraer datos de los perfiles y publicaciones de una afiliación en Google Scholar utilizando la técnica de Web Scrpaing de minería de texto no estructurada. El objetivo es medir la facilidad de extracción de estos datos con esta técnica, llegando a la implementación de un algoritmo en el lenguaje R para automatizar el proceso, estructurar los datos y disminuir el tiempo de scraping. Estas pruebas se hicieron a 15 Universidades con diferente cantidad de perfiles y publicaciones. La realización de este algoritmo permitirá la extracción de datos a cualquier afiliación, aunque todavía hay elementos que se pueden mejorar para que el algoritmo sea óptimo, pero hemos de concluir que según las pruebas realizadas el método de web scripting es funcional para poder extraer datos de un sitio web.