Categorías léxicas en medios digitales de Honduras de 2009 - 2016

Un recurso valioso para las empresas y personas es la información. Aunque se pueden encontrar muchos datos estructurados, gran parte del conocimiento se encuentra en formatos no estructurados, en forma de lenguaje natural. En los últimos años las tecnologías han favorecido un crecimiento constante d...

Descripción completa

Autores Principales: Martínez, Jairo Jonathán, Martínez, Eva Leticia
Formato: Artículo
Idioma: Español
Publicado: Universidad Tecnológica de Panamá 2018
Materias:
Acceso en línea: http://revistas.utp.ac.pa/index.php/memoutp/article/view/1841
http://revistas.utp.ac.pa/index.php/memoutp/article/view/1841
http://ridda2.utp.ac.pa/handle/123456789/5125
http://ridda2.utp.ac.pa/handle/123456789/5125
Sumario: Un recurso valioso para las empresas y personas es la información. Aunque se pueden encontrar muchos datos estructurados, gran parte del conocimiento se encuentra en formatos no estructurados, en forma de lenguaje natural. En los últimos años las tecnologías han favorecido un crecimiento constante de la producción de volúmenes de texto que están disponibles, pero que son difíciles de procesar. Estos constituyen una gran fuente de información importante para las empresas, la política y las personas que quiere aplicar tecnicas de minería de texto para encontrar información que les sea de utilidad. Sin embargo, el procesamiento del lenguaje natural es un campo de investigación en pleno desarrollo, y una tarea pendiente para los científicos lingüístico-computacionales. En Honduras también ha crecido la producción de texto digital. Como parte del procesamiento computacional de texto se realiza el etiquetamiento de la categoría léxica a la que pertenece cada palabra. Para este artículo se realizó el etiquetamiento de una colección compuesta por más de 173 mil noticias publicades entre los años 2009 y 2016 en periódicos digitales del país. Además, se realiza un análisis de la frecuencia de las palabras y de las categorías léxicas en las que fueron clasificadas.