Semantic perturbative privacy-preserving methods for nominal data

dc.contributor
Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques
dc.contributor.author
Rodríguez García, María Mercedes
dc.date.accessioned
2017-10-19T15:35:47Z
dc.date.available
2017-10-19T15:35:47Z
dc.date.issued
2017-04-20
dc.identifier.uri
http://hdl.handle.net/10803/435689
dc.description.abstract
L’explotació de microdades personals (p. ex., dades censals, preferències, o registres de salut) és de gran interès per a la mineria de dades. Aquestes dades sovint contenen informació sensible que pot ser directament o indirectament relacionada amb els individus. Per tant, cal implementar mesures per a preservar la privadesa i minimitzar el risc de re-identificació i, conseqüentment, de revelació d’informació confidencial sobre els individus. Tot i que s’han desenvolupat nombroses mètodes per preservar la privadesa de dades numèriques, la protecció de valors nominals ha rebut escassa atenció. Donat que la utilitat d’aquest tipus de dades està estretament relacionada amb la preservació de la seva semàntica, en aquest treball explotem diverses tecnologies semàntiques per fe possible una protecció coherent amb el significat de les dades nominals. Específicament, fem servir ontologies com a base per a proposar un marc de treball semàntic que permeti manegar dades nominals segons en seu significat en tasques de protecció; aquest marc consta d’un conjunt d’operadors que caracteritzen i transformen dades nominals a la vegada que consideren la seva semàntica. A partir d’aquí, fer servir aquest marc per adaptar mètodes pertorbatius de protecció de la privadesa. Particularment, ens centrem en mètodes basats als dos principis subjacents a la protecció de dades: enfocaments basats en permutació, concretament, rank swapping, y addicció de soroll. Els mètodes proposats han estat avaluats extensament amb conjunts de dades reals. Els resultats experimentals mostren que manegar les dades nominals semànticament millora significativament la interpretabilitat i la utilitat dels resultats protegits.
en_US
dc.description.abstract
La explotación de microdatos personales (p. ej., datos del censo, preferencias, o registros de salud) es de gran interés para la minería de datos. Tales datos a menudo contienen información sensible que puede ser directa o indirectamente relacionada con los individuos. Por tanto, resulta necesario implementar medidas para preservar la privacidad y para minimizar el riesgo de re-identificación y, por consiguiente, de revelación de información confidencial sobre los individuos. Pese a que se han desarrollado numerosos métodos para preservar la privacidad de datos numéricos, la protección de valores nominales ha recibido escasa atención. Puesto que la utilidad de este tipo de datos está estrechamente relacionada con la preservación de su semántica, en este trabajo explotamos varias tecnologías semánticas para posibilitar una protección coherente con el significado de los datos nominales. Específicamente, utilizamos ontologías como base para proponer un marco de trabajo semántico que permita manejar datos nominales según su significado en tareas de protección; dicho marco consta de un conjunto de operadores que caracterizan y transforman datos nominales a la vez que tienen en consideración su semántica. A partir de aquí, utilizamos este marco para adaptar métodos perturbativos de preservación de la privacidad al dominio nominal. Particularmente, nos centramos en métodos basados en los dos principios subyacentes a la protección de los datos: enfoques basados en permutación, concretamente, rank swapping, and adición de ruido. Los métodos propuestos han sido extensamente evaluados con conjuntos de datos reales. Resultados experimentales muestran que manejar los datos nominales semánticamente mejora significativamente la interpretabilidad y la utilidad de los resultados protegidos.
en_US
dc.description.abstract
The exploitation of personal microdata (such as census data, preferences or medical records) is of great interest for the data mining community. Such data often include sensitive information that can be directly or indirectly related to individuals. Therefore, privacy-preserving measures should be undertaken to minimize the risk of re-identification and, hence, of disclosing confidential information on the individuals. In the past, many privacy-preserving methods have been developed to deal with numerical data, but approaches tackling the protection of nominal values are scarce. Since the utility of this kind of data is closely related to the preservation of their semantics, in this work, we exploit several semantic technologies to enable a semantically-coherent protection of nominal data. Specifically, we use ontologies as the ground to propose a semantic framework that enables an appropriate management of nominal data in data protection tasks; such framework consists on a set of operators that characterize and transform nominal data while taking into account their semantics. Then, we use this framework to adapt perturbative privacy-preserving methods to the nominal domain. Specifically, we focus on methods based on the two main principles underlying to data protection: permutation-based approaches, i.e., rank swapping, and noise addition. The proposed methods have been extensively evaluated with real datasets. Experimental results show that a semantically-coherent management of nominal data significantly improves the semantic interpretability and the utility of the protected outcomes.
en_US
dc.format.extent
156 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Rovira i Virgili
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Privacitat de dades
en_US
dc.subject
Semàntica
en_US
dc.subject
Ontologies
en_US
dc.subject
Privacidad de datos
en_US
dc.subject
Semántica
en_US
dc.subject
Ontologías
en_US
dc.subject
Data privacy
en_US
dc.subject
Semantics
en_US
dc.subject
Ontologies
en_US
dc.subject.other
Enginyeria i arquitectura
en_US
dc.title
Semantic perturbative privacy-preserving methods for nominal data
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
en_US
dc.contributor.director
Batet Sanromà, Montserrat
dc.contributor.director
Sánchez Ruenes, David
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.pdf
http://mediaserver.csuc.cat/tdx/documents/61/75/90/61759057684801275728247113334158417439/
dc.identifier.pdf
http://mediaserver.csuc.cat/tdx/documents/50/13/50/501350028114045473904216718570671155/


Documents

PortadaTDX.pdf

19.28Kb PDF

TESI.pdf

1.397Mb PDF

This item appears in the following Collection(s)