Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques
Els algoritmes de clustering desenvolupats fins al moment s’han centrat en el processat de dades numèriques i categòriques, no considerant dades textuals. Per manegar adequadament aquestes dades, es necessari interpretar el seu significat a nivell semàntic. En aquest treball es presenta un nou mètode de clustering que es capaç d’interpretar, de forma integrada, dades numèriques, categòriques i textuals. Aquest últims es processaran mitjançant mesures de similitud semàntica basades en 1) la utilització del coneixement taxonòmic contingut en una o diferents ontologies i 2) l’estimació de la distribució de la informació dels termes a la Web. Els resultats mostren que una interpretació precisa de la informació textual a nivell semàntic millora els resultats del clustering i facilita la interpretació de les classificacions.
Clustering algorithms have focused on the management of numerical and categorical data. However, in the last years, textual information has grown in importance. Proper processing of this kind of information within data mining methods requires an interpretation of their meaning at a semantic level. In this work, a clustering method aimed to interpret, in an integrated manner, numerical, categorical and textual data is presented. Textual data will be interpreted by means of semantic similarity measures. These measures calculate the alikeness between words by exploiting one or several knowledge sources. In this work we also propose two new ways of compute semantic similarity based on 1) the exploitation of the taxonomical knowledge available on one or several ontologies and 2) the estimation of the information distribution of terms in the Web. Results show that a proper interpretation of textual data at a semantic level improves clustering results and eases the interpretability of the classifications
Ontologies; Semblança Semàntica; Semblanza Semántica; Semantic Similarity; classificació no supervisada; unsupervised classification
004 - Informática
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.