Natural language processing methods for document-based requirements specification and validation tasks

Autor/a

Motger de la Encarnación, Joaquim

Director/a

Franch Gutiérrez, Javier

Codirector/a

Marco Gómez, Jordi

Fecha de defensa

2024-11-04

Páginas

249 p.



Departamento/Instituto

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

Programa de doctorado

DOCTORAT EN COMPUTACIÓ (Pla 2012)

Resumen

(English) Requirements engineering (RE) is fundamental to successful software development, especially in modern, large-scale projects. Efficient management of text-based artefacts is key to accurate elicitation, refinement, and validation of requirements. Despite the industrial trend towards adopting natural language processing (NLP) methods, challenges in their pervasiveness, reliability, scalability, and reusability persist. Moreover, the advent of large language models (LLMs) has set the groundwork for further research in automated document analysis in the field of RE. This thesis explores the integration of NLP methods and tools to automate and enhance RE tasks (NLP4RE) in three document-oriented areas: requirements traceability, requirements analysis for information retrieval, and requirements feedback gathering. For requirements traceability, methods for dependency and duplicate detection in text-based requirements documents are proposed and evaluated. In requirements analysis, a knowledge graph-based approach is developed to create adaptive, crowdsourced repositories of RE-related documents. For requirements feedback gathering, techniques for extracting features from user reviews and analyzing feedback are presented and evaluated. This research is shaped in the context of multiple case and sample studies validated empirically, demonstrating their effectiveness in real-world scenarios. The contributions presented in this thesis entail advancements in streamlining RE tasks and improving the accuracy, efficiency and adoption of NLP4RE tools and methods. Ultimately, this thesis aims to provide novel insights, methodologies and technical contributions to the NLP4RE field.


(Català) L'enginyeria de requisits (RE) és fonamental per a l'èxit del desenvolupament de programari, especialment en projectes moderns i de gran escala. La gestió eficient dels documents de text generats durant aquesta fase és clau per a la correcta obtenció, refinament i validació dels requisits. Tot i la tendència industrial cap a l'adopció de mètodes de processament del llenguatge natural (NLP), encara persisteixen diversos reptes relacionats amb la seva presència, fiabilitat, escalabilitat i reutilització. A més, l'aparició de grans models de llenguatge (LLMs) ha establert les bases per a una recerca dedicada a l'anàlisi automàtica de documents en el camp de la RE. Aquesta tesi explora la integració de mètodes i eines de NLP per automatitzar i millorar les tasques de RE (NLP4RE) en tres àrees orientades a documents: traçabilitat de requisits, anàlisi i recuperació d'informació de requisits, i recollida de retroalimentació sobre els requisits. Per a la traçabilitat de requisits, es proposen i s'avaluen mètodes per a la detecció de dependències i duplicats en documents de requisits basats en text. En l'anàlisi de requisits, es proposa un desenvolupament basat en grafs de coneixement per crear repositoris adaptables de documents de proveïment participatiu relacionats amb la RE. Per a la recollida de retroalimentació, es presenten tècniques per extreure característiques i funcionalitats dels comentaris dels usuaris i analitzar-los. Aquesta investigació es basa en múltiples casos d'estudi validats empíricament, demostrant la seva efectivitat en escenaris del món real. Les contribucions presentades en aquesta tesi inclouen avenços en l'automatització de tasques de RE i la millora de l'exactitud, l'eficiència i l'adopció d'eines i mètodes en el camp de NLP4RE. En definitiva, aquesta tesi pretén oferir noves perspectives, metodologies i contribucions tècniques al camp de NLP4RE.


(Español) La ingeniería de requisitos (RE) es fundamental para el desarrollo exitoso de software, especialmente en proyectos modernos a gran escala. La gestión eficiente de artefactos basados en texto es clave para la correcta obtención, refinamiento y validación de los requisitos. A pesar de la tendencia industrial hacia la adopción de métodos de procesamiento de lenguaje natural (NLP), persisten desafíos en cuanto a su adopción, fiabilidad, escalabilidad y reutilización. Además, la aparición de grandes modelos de lenguaje (LLMs) ha sentado las bases para futuras investigaciones en análisis automatizado de documentos en el campo de la RE. Esta tesis explora la integración de métodos y herramientas de NLP para automatizar y mejorar las tareas de RE (NLP4RE) en tres áreas orientadas a documentos: trazabilidad de requisitos, análisis de requisitos para la recuperación de información y recopilación de retroalimentación de requisitos. Para la trazabilidad de requisitos, se proponen y evalúan métodos para la detección de dependencias y duplicados en documentos de requisitos basados en texto. En el análisis de requisitos, se desarrolla un enfoque basado en grafos de conocimiento para crear repositorios adaptativos y colaborativos de documentos relacionados con RE. Para la recopilación de retroalimentación de requisitos, se presentan y evalúan técnicas para la extracción de características de reseñas de usuarios y el análisis de dicha retroalimentación. Esta investigación se enmarca en el contexto de múltiples casos de estudio y estudios de muestra validados empíricamente, demostrando su efectividad en escenarios del mundo real. Las contribuciones presentadas en esta tesis implican avances en la optimización de las tareas de RE y la mejora en la precisión, eficiencia y adopción de herramientas y métodos NLP4RE. En última instancia, esta tesis tiene como objetivo proporcionar nuevas perspectivas, metodologías y contribuciones técnicas al campo de NLP4RE.

Materias

004 - Informática

Área de conocimiento

Àrees temàtiques de la UPC::Informàtica

Nota

Tesi amb menció de Doctorat Internacional

Tesi en modalitat de compendi de publicacions

In reference to IEEE copyrighted material which is used with permission in this thesis, the IEEE does not endorse any of Universitat Politècnica de Catalunya's products or services. Internal or personal use of this material is permitted. If interested in reprinting/republishing IEEE copyrighted material for advertising or promotional purposes or for creating new collective works for resale or redistribution, please go to http://www.ieee.org/publications_standards/publications/rights/rights_link.html to learn how to obtain a License from RightsLink

Documentos

TJME1de1.pdf

21.54Mb

 

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)