dc.contributor
Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques
dc.contributor.author
Batet Sanromà, Montserrat
dc.date.accessioned
2011-06-10T08:17:12Z
dc.date.available
2011-06-10T08:17:12Z
dc.date.issued
2011-02-15
dc.identifier.isbn
9788469432327
dc.identifier.uri
http://hdl.handle.net/10803/31913
dc.description.abstract
Els algoritmes de clustering desenvolupats fins al moment s’han centrat en el processat de dades numèriques i categòriques, no considerant dades textuals. Per manegar adequadament aquestes dades, es necessari interpretar el seu significat a nivell semàntic. En aquest treball es presenta un nou mètode de clustering que es capaç d’interpretar, de forma integrada, dades numèriques, categòriques i textuals. Aquest últims es processaran mitjançant mesures de similitud semàntica basades en 1) la utilització del coneixement taxonòmic contingut en una o diferents ontologies i 2) l’estimació de la distribució de la informació dels termes a la Web. Els resultats mostren que una interpretació precisa de la informació textual a nivell semàntic millora els resultats del clustering i facilita la interpretació de les classificacions.
cat
dc.description.abstract
Clustering algorithms have focused on the management of numerical and categorical data. However, in the last years, textual information has grown in importance. Proper processing of this kind of information within data mining methods requires an interpretation of their meaning at a semantic level. In this work, a clustering method aimed to interpret, in an integrated manner, numerical, categorical and textual data is presented. Textual data will be interpreted by means of semantic similarity measures. These measures calculate the alikeness between words by exploiting one or several knowledge sources. In this work we also propose two new ways of compute semantic similarity based on 1) the exploitation of the taxonomical knowledge available on one or several ontologies and 2) the estimation of the information distribution of terms in the Web. Results show that a proper interpretation of textual data at a semantic level improves clustering results and eases the interpretability of the classifications
eng
dc.format.mimetype
application/pdf
dc.publisher
Universitat Rovira i Virgili
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Semblança Semàntica
dc.subject
Semblanza Semántica
dc.subject
Semantic Similarity
dc.subject
classificació no supervisada
dc.subject
unsupervised classification
dc.title
Ontology based semantic clustering
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.director
Valls, Aïda
dc.contributor.director
Gibert Oliveras, Karina
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
T. 1043-2011