Privacy protection methods for documents and risk evaluation for microdata

Author

Abril Castellano, Daniel

Director

Torra i Reventós, Vicenç

Tutor

Herrera-Joancomartí, Jordi

Date of defense

2015-01-21

ISBN

9788449049583

Legal Deposit

B-4397-2015

Pages

173 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament d'Enginyeria de la Informació i de les Comunicacions

Abstract

La capacitat de recollir i emmagatzemar informació per agencies d'estadística, governs o individus ha creat grans oportunitats d'anàlisi de les dades i la creació de models basats en el coneixent. A més, amb el creixement d'Internet moltes companyies han decidit canviar els seus antics models de negoci per uns basats en la venta i l'explotació de les dades personals, les qual en molts dels casos contenen informació confidencial. Aquest fet ha creat la necessitat de desenvolupar mètodes per a la difusió de dades amb contingut confidencial amb fins de mineria de dades, assegurant que la informació confidencial no pugui ser vinculada als individus als qual pertanyen. D'aquesta manera, les dades prèviament protegides poden ser transferides, publicades o venudes a terceres parts assegurant la confidencialitat dels individus que hi apareixen i a la vegada sent útils per aquells que les vulguin analitzar. Una àrea d'aplicació molt clara són els documents de text els quals avui dia omplen la major part de la xarxa. Els documents de text són especialment difícils de protegir. A causa de la seva complicada estructura és difícil detectar les parts que poden contenir informació sensible. En aquesta tesi s'ha distingit dos models diferents de protecció de documents. Per una banda, s'ha considerat la protecció de col·leccions de documents, de manera que aquests conjunts de textos puguin ser analitzats utilitzant tècniques clàssiques de mineria de textos i d'aprenentatge automàtic. Per l'altra banda, s'ha considerat la protecció individualitzada de cada document. La sanitització de documents és el procés habitual mitjançant el qual les parts sensibles o confidencials d'un text són detectades i eliminades. L'aplicació manual d'aquesta tècnica és molt habitual per a la declassificació i possible difusió de documents governamentals confidencials. D'aquesta manera, els governs demostren que estan a favor del dret a la llibertat d'informació, mentre que la seguretat nacional no es veu compromesa. Aquesta tesi presenta un conjunt de proteccions i avaluacions per a la protecció de textos. A més, introdueix un mètode d'aprenentatge supervisat per l'avaluació del risc de revelació per mètodes de protecció de microdades. Les principals contribucions d'aquesta tesi són les següents: * El desenvolupament d'un mètode semiautomàtic per ajudar a la declassificació de documents confidencials. * La formalització de mesures específiques per a l'avaluació del risc de revelació i la informació perduda en aplicar mètodes de protecció per sanitització. * El desenvolupament de dos mètodes basats en el principi de k-anonimitat per la protecció de col·leccions de documents representades com un model d'espai vectorials. El primer mètode explota la distribució dels vectors mentre que el segon es basa en les possibles relacions semàntiques dels vectors de paraules. * L'estudi de mètodes avançats per avaluar el risc de revelació d'informació sensible sobre microdades després de ser protegides. En particular, es proposa un mètode d'aprenentatge supervisat per a l'enllaç de registres basat en distàncies. Aquest mètode es basa en l'aprenentatge dels paràmetres proporcionats per una funció. Diferents tipus de funcions han estat utilitzades per tal d'estudiar la seva eficàcia en l'avaluació del risc.


The capability to collect and store digital information by statistical agencies, governments or individuals has created huge opportunities to analyze and build knowledge-based models. With the rise of Internet many services and companies have exploited these opportunities collecting huge amounts of data, which most of the cases are considered confidential. This causes the need to develop methods that allow the dissemination of confidential data for data mining purposes while preserving individuals' private information. Thus, personal data could be collected, transferred or sold to third parties ensuring the individuals' confidentiality, but still being statistically useful. Internet is full of unstructured textual data like posts or documents with a large content of information that can be extracted and analyzed. Documents are especially difficult to protect due to their lack of structure. In this thesis we distinguish two different models to protect documents. On the one hand, we consider the protection of a collection of documents, so this set of documents can be analyzed by means of text mining and machine learning techniques. On the other hand, we consider the protection of single documents by means of the documents' sanitization. This is the process of detecting and removing the parts of the text considered sensitive. When dealing with governmental classified information, sanitization attempts to reduce the sensitiveness of the document, possibly yielding a non-classified document. In this way, governments show they uphold the freedom of information while the national security is not jeopardised. This thesis presents a set of different methods and experiments for the protection of unstructured textual data protection and besides, it introduces an advanced method to evaluate the security of microdata protection methods. The main contributions are: * The development of a new semi-automatic method to assist documents' declassification. * The definition of two specific metrics for evaluating the information loss and disclosure risk of sanitized documents. * The development of two cluster-based approaches based on the k-anonymity principle to anonymize vector space models. One exploits the sparsity and the other exploits the possible semantic relations of those vectors. * The study of advanced methods to evaluate the disclosure risk of microdata protection methods. In particular, we have developed a general supervised metric learning approach for distance-based record linkage. Moreover, we have reviewed the suitability of a set of parameterized distance functions that can be used together with the supervised approach.

Keywords

Data privacy; Privacitat de les dades; Privacidad de los datos; Document sanitzation; Sanització de documents; Sanitización de documentos; Record linkage; enllaç de registres; enlace de registros

Subjects

68 - Industries, crafts and trades for finished or assembled articles

Knowledge Area

Tecnologies

Documents

dac1de1.pdf

2.728Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

This item appears in the following Collection(s)