Engineering data-sharing practices for a fair and trustworthy AI

dc.contributor
Universitat Oberta de Catalunya. Escola de Doctorat
dc.contributor.author
Giner Miguelez, Joan
dc.date.accessioned
2024-09-16T10:37:53Z
dc.date.available
2024-09-16T10:37:53Z
dc.date.issued
2024-07-15
dc.identifier.uri
http://hdl.handle.net/10803/692115
dc.description.abstract
Machine learning (ML) technology may discriminate toward specific social groups. For example, recent research have revealed that ML applications are more likely to fail in identifying women than males in hospitals. Recent research has identified the data used to train these models as one of the causes of these issues. The research community has proposed guidelines to detect the dimensions that can generate these discriminatory behaviors. However, these proposals lack a set structure, restricting their computation and the creation of engineering approaches built upon them. This thesis presents a domain-specific language to document data for ML. This language has served as a basis for creating the responsible AI extension of \emph{Croissant}, a standard adopted by major search engines, such as \emph{Google Dataset Search}. Moreover, this thesis studies the use of large language models (LLM) to automatically create data documentation and the readiness of scientific data for its use in ML.
ca
dc.description.abstract
Las aplicaciones de inteligencia artificial (IA), pueden mostrar sesgos discriminatorios hacia sectores sociales específicos. Por ejemplo, se ha detectado que algunas fallan más en diagnosticar mujeres que hombres en hospitales. Parte de estos sesgos proviene de los datos que entrenan estas y la comunidad está proponiendo guías para identificar qué aspectos de estos pueden comprometer estas aplicaciones. Sin embargo, estas guías carecen de estructura consistente, lo que dificulta su computación y la creación de técnicas de ingeniería sobre ellas. Esta tesis presenta un lenguaje específico de dominio para documentar datos para IA. El lenguaje ha servido de base para la extensión de IA responsable de \emph{Croissant}, un estándar de datos adoptado por los principales buscadores como \emph{Google Dataset Search}. Además, esta tesis estudia el uso de grandes modelos de lenguaje (LLM), en la creación automática de documentación, así como el estado de los datos científicos en relación con estas guías.
ca
dc.description.abstract
Les aplicacions d'intel·ligència artificial (IA) poden mostrar biaixos discriminatius cap a sectors socials específics. Per exemple, s'ha detectat que algunes fallen més en diagnosticar dones que homes als hospitals. Part d'aquests biaixos provenen de les dades usades per entrenar aquestes, i recentment, la comunitat de recerca està proposant guies per identificar quins aspectes d'aquestes dades que poden comprometre aquestes aplicacions. Malauradament, aquestes guies manquen d'estructura consistent, dificultant la seva computació i la creació de tècniques d'enginyeria sobre aquestes. Aquesta tesi proposa un llenguatge específic de domini (DSL) per documentar conjunts de dades per IA. El llenguatge ha servit de base per l'extensió d'IA responsable de \emph{Croissant}, un estàndard de dades adoptat pels principals buscadors com \emph{Google Dataset Search}. A més a més, aquesta tesi estudia l'ús de grans models de llenguatge (LLM) en la creació automàtica de documentació, i l'estat de les dades científiques en relació amb aquestes guies.
ca
dc.format.extent
203 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat Oberta de Catalunya
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
compartició de dades
ca
dc.subject
compartición de datos
ca
dc.subject
data-sharing practices
ca
dc.subject
aprenentatge automàtic
ca
dc.subject
aprendizaje automático
ca
dc.subject
machine learning
ca
dc.subject
IA confiable
ca
dc.subject
IA confiable
ca
dc.subject
trustworthy AI
ca
dc.subject
equitat a la IA
ca
dc.subject
equidad en la IA
ca
dc.subject
fairness
ca
dc.subject
documentació de dades
ca
dc.subject
documentación de datos
ca
dc.subject
data documentation
ca
dc.subject.other
Ciencies de la computació
ca
dc.title
Engineering data-sharing practices for a fair and trustworthy AI
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
ca
dc.contributor.authoremail
jginermi@uoc.edu
ca
dc.contributor.director
Cabot, Jordi
dc.contributor.director
Gómez Llana, Abel
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Tecnologías de la información y de redes


Documentos

Thesis_manuscript_acks.pdf

11.80Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)