A novel approach to web tracking detection and removal with minimal functionality loss

Author

Castell Uroz, Ismael

Director

Barlet Ros, Pere

Date of defense

2023-07-06

Pages

129 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

Doctorate programs

DOCTORAT EN ARQUITECTURA DE COMPUTADORS (Pla 2012)

Abstract

(English) echnologies are extensively used to collect huge amounts of personal information from our online activity, including the things we search for, the sites we visit, the people we contact, or the products we buy. Although it is commonly believed that such big data sets are mainly used for targeted advertising, some recent works have revealed that they are actually exploited for many other purposes, including price discrimination, financial assessment, determination of insurance coverage, background scanning, and even identity theft. Contrary to popular belief, such information is not only collected by big Internet players, such as Google and Facebook, but also by more shady and unknown companies called data brokers. Data brokers are pervasive on the current Internet, and their only purpose is to silently collect and aggregate large amounts of personal information. This information is then used to build individual profiles (often of low quality) about us, which are sold to the highest bidder without our explicit knowledge or the option to revise their correctness. The main objective of this thesis is to research new countermeasures that can decrease or completely block web tracking systems running in the background. For this purpose, the thesis has three objectives: (i) develop a new measurement system that can collect information in a bigdata environment such as the Internet; (ii) research new methodologies to automatically detect unknown web tracking technologies while minimizing website functionality loss; and (iii) apply the research results obtained in order to create actual tools that can be useful for the different actors concerned about privacy. This manuscript presents a compendium of publications that address all the objectives presented. In order to handle the first objective, we developed a new framework called Online Resource Mapper, which is able to collect complete online data sets, including millions of websites with al their internal URLs and online resources. In addition, we also study the impact in performance and quality of experience of content blockers, the most popular current privacy-protection technology. The second objective is tackled by means of three different publications presenting new ways to discover unknown web tracking systems. The first work presents an alternative to content blockers that potentially fixes their biggest vulnerability: the lack of adaptation to detect new web tracking URLs not present in the pattern lists. Our solution uses a deep neural network to discover with a 97% accuracy patterns that can be used to detect new tracking URLs. Going one step further, instead of looking at the URL, we decide to inspect the actual code of the website to discover not only tracking based on URL similarity, but completely new web tracking methods. Our first proposal, called TrackSign, uses the combination of a heuristic code partition model with a novel three-layer network graph in order to discover new web tracking systems. Our method achieves 92% detection accuracy, and it is one of the first approaches to do it in an automatic and generic fashion. Our last publication on the topic presents an evolution of TrackSign, called ASTrack, that addresses its main vulnerability, the false negatives obtained when websites obfuscate their internal resources with code renaming techniques. ASTrack uses the structure of the code instead of the code itself to identify web tracking systems shared by multiple websites. Moreover, ASTrack can exclusively remove the web tracking code while maintaining the rest of it intact, which minimizes functionality loss problems as a result of blocking complete resources. Lastly, in order to address the third objective, we shared publicly the results obtained during our experiments first in the form of a web tracking data set including about 75 million URLs and 45 million labeled online resources, and secondly in a new ePrivacy observatory called ePrivo.


(Español) Las tecnologías de rastreo web se utilizan ampliamente para recopilar enormes cantidades de información personal de nuestra actividad en línea, incluidas las cosas que buscamos, los sitios que visitamos, las personas con las que contactamos o los productos que compramos. Aunque comúnmente se cree que estos datos se utilizan para la publicidad dirigida, algunos trabajos recientes han revelado que en realidad se explotan para muchos otros fines, como la discriminación de precios, la evaluación financiera, la determinación de la cobertura de seguros, la exploración de antecedentes e incluso el robo de identidad. Contrariamente a la creencia popular, esta información no sólo es recopilada por los grandes actores de Internet, como Google y Facebook, sino también por empresas más turbias y desconocidas llamadas corredores de datos. Los corredores de datos están omnipresentes en la Internet actual, y su único propósito es recopilar silenciosamente grandes cantidades de información personal. Esta información se utiliza después para construir perfiles individuales (a menudo de baja calidad) sobre nosotros, que se venden al mejor postor sin nuestro conocimiento explícito ni la opción de revisar su exactitud. El principal objetivo de esta tesis es investigar nuevas contramedidas que puedan disminuir o bloquear por completo los sistemas de rastreo web que se ejecutan en segundo plano. Para ello, la tesis tiene tres objetivos: (i) desarrollar un nuevo sistema de medición que pueda recoger información en un entorno de bigdata como es Internet; (ii) investigar nuevas metodologías para detectar automáticamente tecnologías de rastreo web desconocidas minimizando la pérdida de funcionalidad del sitio web; y (iii) aplicar los resultados de investigación obtenidos para crear herramientas reales que puedan ser útiles. Este manuscrito presenta un compendio de publicaciones que abordan todos los objetivos planteados. Para tratar el primer objetivo, desarrollamos Online Resource Mapper, una herramienta que es capaz de recopilar todo el contenido de millones de sitios web. El segundo objetivo se aborda mediante tres publicaciones diferentes que presentan nuevas formas de descubrir sistemas de seguimiento web desconocidos. El primer trabajo presenta una alternativa a los bloqueadores de contenido que soluciona potencialmente su mayor vulnerabilidad: la falta de adaptación para detectar URL de rastreo no presentes en las listas de patrones. Nuestra solución utiliza una red neuronal profunda para descubrir con una precisión del 97% patrones que pueden utilizarse para detectar nuevas URL de rastreo. Yendo un paso más allá decidimos inspeccionar el código real del sitio web para descubrir métodos de seguimiento web completamente nuevos. Nuestra primera propuesta, denominada TrackSign, utiliza la combinación de un modelo heurístico de partición de código con un novedoso grafo de red de tres capas para descubrir nuevos sistemas de rastreo web. Nuestro método alcanza una precisión de detección del 92%, y es uno de los primeros enfoques en hacerlo de forma automática y genérica. Nuestra última publicación sobre el tema presenta una evolución de TrackSign, denominada ASTrack, que aborda su principal vulnerabilidad, la ofuscación de recursos internos con técnicas de renombrado de código. ASTrack utiliza la estructura del código en lugar del propio código para identificar los sistemas de seguimiento web compartidos por varios sitios web. Además, ASTrack puede eliminar exclusivamente el código de rastreo manteniendo intacto el resto, lo que minimiza los problemas de pérdida de funcionalidad como consecuencia del bloqueo de recursos completos.Por último, para abordar el tercer objetivo, compartimos públicamente los resultados obtenidos durante nuestros experimentos primero en forma de un conjunto de datos con 75M de URL y 45M de recursos etiquetados, y en segundo lugar en un nuevo observatorio de ePrivacidad denominado ePrivo.

Subjects

004 - Computer science

Knowledge Area

Àrees temàtiques de la UPC::Informàtica

Note

Tesi en modalitat de compendi de publicacions

In reference to IEEE copyrighted material which is used with permission in this thesis, the IEEE does not endorse any of Universitat Politècnica de Catalunya's products or services. Internal or personal use of this material is permitted. If interested in reprinting/republishing IEEE copyrighted material for advertising or promotional purposes or for creating new collective works for resale or redistribution, please go to http://www.ieee.org/publications_standards/publications/rights/rights_link.html to learn how to obtain a License from RightsLink.

Tesi amb menció de Doctorat Internacional

Documents

TICU1de1.pdf

15.65Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)