Engineering data-sharing practices for a fair and trustworthy AI

Giner Miguelez, Joan

Engineering data-sharing practices for a fair and trustworthy AI

dc.contributor

Universitat Oberta de Catalunya. Escola de Doctorat

dc.contributor.author

Giner Miguelez, Joan

dc.date.accessioned

2024-09-16T10:37:53Z

dc.date.available

2024-09-16T10:37:53Z

dc.date.issued

2024-07-15

dc.identifier.uri

http://hdl.handle.net/10803/692115

dc.description.abstract

Machine learning (ML) technology may discriminate toward specific social groups. For example, recent research have revealed that ML applications are more likely to fail in identifying women than males in hospitals. Recent research has identified the data used to train these models as one of the causes of these issues. The research community has proposed guidelines to detect the dimensions that can generate these discriminatory behaviors. However, these proposals lack a set structure, restricting their computation and the creation of engineering approaches built upon them. This thesis presents a domain-specific language to document data for ML. This language has served as a basis for creating the responsible AI extension of \emph{Croissant}, a standard adopted by major search engines, such as \emph{Google Dataset Search}. Moreover, this thesis studies the use of large language models (LLM) to automatically create data documentation and the readiness of scientific data for its use in ML.

dc.description.abstract

Las aplicaciones de inteligencia artificial (IA), pueden mostrar sesgos discriminatorios hacia sectores sociales específicos. Por ejemplo, se ha detectado que algunas fallan más en diagnosticar mujeres que hombres en hospitales. Parte de estos sesgos proviene de los datos que entrenan estas y la comunidad está proponiendo guías para identificar qué aspectos de estos pueden comprometer estas aplicaciones. Sin embargo, estas guías carecen de estructura consistente, lo que dificulta su computación y la creación de técnicas de ingeniería sobre ellas. Esta tesis presenta un lenguaje específico de dominio para documentar datos para IA. El lenguaje ha servido de base para la extensión de IA responsable de \emph{Croissant}, un estándar de datos adoptado por los principales buscadores como \emph{Google Dataset Search}. Además, esta tesis estudia el uso de grandes modelos de lenguaje (LLM), en la creación automática de documentación, así como el estado de los datos científicos en relación con estas guías.

dc.description.abstract

Les aplicacions d'intel·ligència artificial (IA) poden mostrar biaixos discriminatius cap a sectors socials específics. Per exemple, s'ha detectat que algunes fallen més en diagnosticar dones que homes als hospitals. Part d'aquests biaixos provenen de les dades usades per entrenar aquestes, i recentment, la comunitat de recerca està proposant guies per identificar quins aspectes d'aquestes dades que poden comprometre aquestes aplicacions. Malauradament, aquestes guies manquen d'estructura consistent, dificultant la seva computació i la creació de tècniques d'enginyeria sobre aquestes. Aquesta tesi proposa un llenguatge específic de domini (DSL) per documentar conjunts de dades per IA. El llenguatge ha servit de base per l'extensió d'IA responsable de \emph{Croissant}, un estàndard de dades adoptat pels principals buscadors com \emph{Google Dataset Search}. A més a més, aquesta tesi estudia l'ús de grans models de llenguatge (LLM) en la creació automàtica de documentació, i l'estat de les dades científiques en relació amb aquestes guies.

dc.format.extent

203 p.

dc.language.iso

eng

dc.publisher

Universitat Oberta de Catalunya

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-nd/4.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

compartició de dades

dc.subject

compartición de datos

dc.subject

data-sharing practices

dc.subject

aprenentatge automàtic

dc.subject

aprendizaje automático

dc.subject

machine learning

dc.subject

IA confiable

dc.subject

IA confiable

dc.subject

trustworthy AI

dc.subject

equitat a la IA

dc.subject

equidad en la IA

dc.subject

fairness

dc.subject

documentació de dades

dc.subject

documentación de datos

dc.subject

data documentation

dc.subject.other

Ciencies de la computació

dc.title

Engineering data-sharing practices for a fair and trustworthy AI

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

004

dc.contributor.authoremail

jginermi@uoc.edu

dc.contributor.director

Cabot, Jordi

dc.contributor.director

Gómez Llana, Abel

dc.embargo.terms

cap

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Tecnologías de la información y de redes

Documents

Thesis_manuscript_acks.pdf

11.80Mb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)

Doctorat de Tecnologies de la Informació i de Xarxes [47]