Universitat Oberta de Catalunya. Escola de Doctorat
Tecnologías de la información y de redes
Machine learning (ML) technology may discriminate toward specific social groups. For example, recent research have revealed that ML applications are more likely to fail in identifying women than males in hospitals. Recent research has identified the data used to train these models as one of the causes of these issues. The research community has proposed guidelines to detect the dimensions that can generate these discriminatory behaviors. However, these proposals lack a set structure, restricting their computation and the creation of engineering approaches built upon them. This thesis presents a domain-specific language to document data for ML. This language has served as a basis for creating the responsible AI extension of \emph{Croissant}, a standard adopted by major search engines, such as \emph{Google Dataset Search}. Moreover, this thesis studies the use of large language models (LLM) to automatically create data documentation and the readiness of scientific data for its use in ML.
Las aplicaciones de inteligencia artificial (IA), pueden mostrar sesgos discriminatorios hacia sectores sociales específicos. Por ejemplo, se ha detectado que algunas fallan más en diagnosticar mujeres que hombres en hospitales. Parte de estos sesgos proviene de los datos que entrenan estas y la comunidad está proponiendo guías para identificar qué aspectos de estos pueden comprometer estas aplicaciones. Sin embargo, estas guías carecen de estructura consistente, lo que dificulta su computación y la creación de técnicas de ingeniería sobre ellas. Esta tesis presenta un lenguaje específico de dominio para documentar datos para IA. El lenguaje ha servido de base para la extensión de IA responsable de \emph{Croissant}, un estándar de datos adoptado por los principales buscadores como \emph{Google Dataset Search}. Además, esta tesis estudia el uso de grandes modelos de lenguaje (LLM), en la creación automática de documentación, así como el estado de los datos científicos en relación con estas guías.
Les aplicacions d'intel·ligència artificial (IA) poden mostrar biaixos discriminatius cap a sectors socials específics. Per exemple, s'ha detectat que algunes fallen més en diagnosticar dones que homes als hospitals. Part d'aquests biaixos provenen de les dades usades per entrenar aquestes, i recentment, la comunitat de recerca està proposant guies per identificar quins aspectes d'aquestes dades que poden comprometre aquestes aplicacions. Malauradament, aquestes guies manquen d'estructura consistent, dificultant la seva computació i la creació de tècniques d'enginyeria sobre aquestes. Aquesta tesi proposa un llenguatge específic de domini (DSL) per documentar conjunts de dades per IA. El llenguatge ha servit de base per l'extensió d'IA responsable de \emph{Croissant}, un estàndard de dades adoptat pels principals buscadors com \emph{Google Dataset Search}. A més a més, aquesta tesi estudia l'ús de grans models de llenguatge (LLM) en la creació automàtica de documentació, i l'estat de les dades científiques en relació amb aquestes guies.
compartició de dades; compartición de datos; data-sharing practices; aprenentatge automàtic; aprendizaje automático; machine learning; IA confiable; IA confiable; trustworthy AI; equitat a la IA; equidad en la IA; fairness; documentació de dades; documentación de datos; data documentation
004 - Informática
Ciencies de la computació