Propuesta de algoritmo que combina el agrupamiento en subespacios basado en densidad y el agrupamiento basado en restricciones para la detección de grupos que incluyan atributos de interés en conjuntos de datos de alta dimensionalidad
Proyecto de Graduación (Maestría en Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2017.
Autor Principal: | Vallejos-Peña, Alonso |
---|---|
Otros Autores: | Calvo-Valverde, Luis Alexánder |
Formato: | Tesis |
Idioma: | Español |
Publicado: |
Instituto Tecnológico de Costa Rica
2018
|
Materias: | |
Acceso en línea: |
https://hdl.handle.net/2238/9374 |
id |
RepoTEC9374 |
---|---|
recordtype |
dspace |
spelling |
RepoTEC93742023-05-04T15:17:17Z Propuesta de algoritmo que combina el agrupamiento en subespacios basado en densidad y el agrupamiento basado en restricciones para la detección de grupos que incluyan atributos de interés en conjuntos de datos de alta dimensionalidad Vallejos-Peña, Alonso Calvo-Valverde, Luis Alexánder Minería de datos Algoritmos Datos Densidad Computación Research Subject Categories::TECHNOLOGY::Information technology::Computer science Proyecto de Graduación (Maestría en Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2017. Cluster analysis is one of data mining most common tasks, used frequently in finance, biology, medicine and market analysis problems [12]. High dimensional data poses a challenge to traditional clustering algorithms, where the similarity measures are not meaningful, affecting the quality of the groups. As a result, subspace clustering algorithms have been proposed as an alternative, aiming to find all groups in all spaces of the dataset [45]. By detecting groups on lower dimensional spaces, each group can belong to different subspaces of the original dataset [31]. Therefore, attributes the user may consider of interest can be excluded in some or all groups, decreasing the value of the result for the data analysts. Currently, the improvement of the results and the detection of more significant groups, is considered one of the biggest opportunity areas in the cluster analysis of high dimensional data, particularly, the capability to consider the relevance of attributes on the subspace pruning logic and the group detection is an open research area [30]. For this project, a new algorithm is proposed, that combines SUBCLU [1] and the constraint clustering algorithms [6] that allows the users to identify variables as attributes of interest based on prior domain knowledge, targeting to direct group detection towards spaces that include users attributes of interest, thereafter, generating more meaningful groups. Using this new algorithm (SUBCLU-R), an experiment was executed to compare the results from SUBCLU and SUBCLU-R. In this experiment, first, the average cohesion, separation and silhouette index was obtained for both algorithms by executing multiple tests in our dataset. Then, using a statistical hypothesis test we compared the obtained averages to find out if the observed differences were significant. Finally, a result analysis was performed, focused on comparing the performance of the proposed algorithm against the original SUBCLU. 6 The results indicate that it is possible to influence groupings towards those including attributes of interest, thanks to the inclusion of constrained clustering for subspace pruning. With this proposal, N-d detected subspaces (N is the total number of detected subspaces and d the number of attributes in the dataset) include the attribute of interest. After comparing both algorithm results, it was determined that SUBCLU-R detects a significantly higher percentage of groupings with the attribute of interest, while no significant statistical differences were found for the internal metrics of the groupings. 2018-02-09T14:15:38Z 2018-02-09T14:15:38Z 2017 info:eu-repo/semantics/masterThesis https://hdl.handle.net/2238/9374 spa application/pdf Instituto Tecnológico de Costa Rica |
institution |
Tecnológico de Costa Rica |
collection |
Repositorio TEC |
language |
Español |
topic |
Minería de datos Algoritmos Datos Densidad Computación Research Subject Categories::TECHNOLOGY::Information technology::Computer science |
spellingShingle |
Minería de datos Algoritmos Datos Densidad Computación Research Subject Categories::TECHNOLOGY::Information technology::Computer science Vallejos-Peña, Alonso Propuesta de algoritmo que combina el agrupamiento en subespacios basado en densidad y el agrupamiento basado en restricciones para la detección de grupos que incluyan atributos de interés en conjuntos de datos de alta dimensionalidad |
description |
Proyecto de Graduación (Maestría en Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2017. |
author2 |
Calvo-Valverde, Luis Alexánder |
format |
Tesis |
author |
Vallejos-Peña, Alonso |
author_sort |
Vallejos-Peña, Alonso |
title |
Propuesta de algoritmo que combina el agrupamiento en subespacios basado en densidad y el agrupamiento basado en restricciones para la detección de grupos que incluyan atributos de interés en conjuntos de datos de alta dimensionalidad |
title_short |
Propuesta de algoritmo que combina el agrupamiento en subespacios basado en densidad y el agrupamiento basado en restricciones para la detección de grupos que incluyan atributos de interés en conjuntos de datos de alta dimensionalidad |
title_full |
Propuesta de algoritmo que combina el agrupamiento en subespacios basado en densidad y el agrupamiento basado en restricciones para la detección de grupos que incluyan atributos de interés en conjuntos de datos de alta dimensionalidad |
title_fullStr |
Propuesta de algoritmo que combina el agrupamiento en subespacios basado en densidad y el agrupamiento basado en restricciones para la detección de grupos que incluyan atributos de interés en conjuntos de datos de alta dimensionalidad |
title_full_unstemmed |
Propuesta de algoritmo que combina el agrupamiento en subespacios basado en densidad y el agrupamiento basado en restricciones para la detección de grupos que incluyan atributos de interés en conjuntos de datos de alta dimensionalidad |
title_sort |
propuesta de algoritmo que combina el agrupamiento en subespacios basado en densidad y el agrupamiento basado en restricciones para la detección de grupos que incluyan atributos de interés en conjuntos de datos de alta dimensionalidad |
publisher |
Instituto Tecnológico de Costa Rica |
publishDate |
2018 |
url |
https://hdl.handle.net/2238/9374 |
_version_ |
1796139300163682304 |
score |
12.040382 |