Categorical Data Protection on Statistical Datasets and Social Networks

Author

Marés Soler, Jordi

Director

Torra i Reventós, Vicenç

Tutor

Herrera-Joancomartí, Jordi

Date of defense

2013-11-15

ISBN

9788449039348

Legal Deposit

B-4398-2014

Pages

155 p.



Department/Institute

Universitat Autònoma de Barcelona. Institut d'Investigació en Intel·ligència Artificial

Abstract

L’augment continu de la publicació de dades amb contingut sensible ha incrementat el risc de violar la privacitat de les persones i/o institucions. Actualment aquest augment és cada cop mes ràpid degut a la gran expansió d’Internet. Aquest aspecte fa molt important la comprovació del rendiment dels mètodes de protecció utilitzats. Per tal de fer aquestes comprovacions existeixen dos tipus de mesures a tenir en compte: la pèrdua d’informació i el risc de revelació. Una altra àrea on la privacitat ha incrementat el seu rol n’és el de les xarxes socials. Les xarxes socials han esdevingut un ingredient essencial en la comunicació entre persones en l’actual món modern. Permeten als usuaris expressar i compartir els seus interessos i comentar els esdeveniments diaris amb tota la gent amb la qual estan connectats. Així doncs, el ràpid augment de la popularitat de les xarxes socials ha resultat en l’adopció d’aquestes com a àrea d’interès per a comunitats específiques. No obstant, el volum de dades compartides pot ser molt perillós en termes de privacitat. A més de la informació explícita compartida mitjanant els ”posts” de cada usuari, existeix informació semàntica implícita amagada en el conjunt de d’informació compartida per cada usuari. Per aquestes i altres raons, la protecció de les dades pertanyents a cada usuari ha de ser tractada. Així doncs, les principals contribucions d’aquesta tesi són: • El desenvolupament de mètodes de protecció basats en algorismes evolutius els quals busquen de manera automatitzada millors proteccions en termes de pèrdua d’informació i risc de revelació. • El desenvolupament d’un mètode evolutiu per tal d’optimitzar la matriu de probabilitats de transició amb la qual es basa el mètode Post- Randomization Method per tal de generar proteccions millors. • La definició d’un mètode de protecció per a dades categ`oriques basat en l’execució d’un algorisme de clustering abans de protegir per tal d’obtenir dades protegides amb millor utilitat. • La definició de com es pot extreure tant informació implícita com explicita d’una xarxa social real com Twitter, el desenvolupament d’un mètode de protecció per xarxes socials i la definició de noves mesures per avaluar la qualitat de les proteccions en aquests escenaris.


The continuous growth of public sensitive data has increased the risk of breaking the privacy of people or institutions in those datasets. This growing is, nowadays, even faster because of the expansion of the Internet. This fact makes very important the assessment of the performance of all the methods used to protect those datasets. In order to check the performance there exist two kind of measures: the information loss and the disclosure risk. Another area where privacy has an increasing role is the one of social networks. They have become an essential ingredient of interpersonal communication in the modern world. They enable users to express and share common interests, comment upon everyday events with all the people with whom they are connected. Indeed, the growth of social media has been rapid and has resulted in the adoption of social networks to meet specific communities of interest.However, this shared information space can prove to be dangerous in respect of user privacy issues. In addition to explicit ”posts” there is much implicit semantic information that is not explicitly given in the posts that the user shares. For these and other reasons, the protection of information pertaining to each user needs to be supported. This thesis shows some new approaches to face these problems. The main contributions are: • The development of an approach for protecting microdata datasets based on evolutionary algorithms which seeks automatically for better protections in terms of information loss and disclosure risk. • The development of an evolutionary approach to optimize the transition matrices used in the Post-Randomization masking method which performs better protections. • The definition of an approach to deal with categorical microdata protection based on a pre-clustering approach achieving protected data with better utility. • The definition of a way to extract both implicit and explicit information from a real social network like Twitter as well as the development of a protection method to deal with this information and some new measures to evaluate the protection quality.

Keywords

Data privacy; Categorical data; Social networks

Subjects

68 - Industries, crafts and trades for finished or assembled articles

Knowledge Area

Tecnologies

Documents

jms1de1.pdf

1.680Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)