Universitat de Barcelona. Departament de Lingüística General
Paraphrasing is generally understood as approximate sameness of meaning between snippets of text with a different wording. Paraphrases are omnipresent in natural languages demonstrating all the aspects of its multifaceted nature. The pervasiveness of paraphrasing has made it a focus of several tasks in computational linguistics; its complexity has in turn resulted in paraphrase remaining a still unresolved challenge. Two basic issues, directly linked to the complex nature of paraphrasing, make its computational treatment particularly difficult, namely the absence of a precise and commonly accepted definition and the lack of reference corpora for paraphrasing. Based on the assumption that linguistic knowledge should underlie computational-linguistics research, this thesis aims to go a step forward in these two questions: paraphrase characterization and paraphrase-corpus building and annotation. The knowledge and resources created are then applied to natural language processing and, in concrete, to automatic plagiarism detection in order to empirically analyse their potential. This thesis is built as an article compendium comprising six core articles divided in three blocks: (i) paraphrase scope and typology, (ii) paraphrase-corpus creation and annotation, and (iii) paraphrasing in automatic plagiarism detection. In the first block, assuming that paraphrase boundaries are not fixed but depend on the field, task, and objectives, three borderline paraphrase cases are presented: paraphrases involving content loss, pragmatic knowledge, and certain grammatical features. The limits between paraphrasing and related phenomena such as coreference are also analysed. Paraphrase characterization takes on a new dimension if we look at it in extensional terms. We have built a general and linguistically-grounded paraphrase typology in line with this approach. The third issue addressed in this block is paraphrase representation, which we consider to be essential in order to formally apprehend paraphrasing. In the second block, the Wikipedia-based Relational Paraphrase Acquisition method (WRPA) is presented. It allows for the automatic extraction of paraphrases expressing a concrete relation from Wikipedia. Using this method, the WRPA corpus, covering different relations and two languages (English and Spanish), was built. A subset of the Spanish WRPA corpus, together with paraphrases in two English paraphrase corpora that are different in nature were annotated applying a new annotation scheme derived from our paraphrase typology. These annotations were validated applying the Inter-annotator Agreement for Paraphrase-Type Annotation measures (IAPTA), also developed in the framework of this thesis. In the third and final block, our typology is applied to the field of automatic plagiarism detection, demonstrating that more complex paraphrase phenomena and a high density of paraphrase mechanisms make plagiarism detection more difficult, and that lexical substitutions and text-snippet additions/deletions are the most widely used paraphrase mechanisms when plagiarizing. This provides insights for future research in automatic plagiarism detection and demonstrates, through a concrete example, the value of the knowledge and data provided in this thesis to computational-linguistics research.
S'entén per paràfrasi la igualtat aproximada de significat entre fragments de text que difereixen en la forma. La paràfrasi és omnipresent en les llengües naturals, on es troba expressada de múltiples maneres. D'una banda, la ubiqüitat de la paràfrasi l'ha convertit en el centre d’interès de moltes tasques específiques dins de la lingüística computacional; de l'altra, la seva complexitat ha fet de la paràfrasi un problema que encara no té una solució definitiva. Dues qüestions bàsiques, lligades a la naturalesa complexa de la paràfrasi, fan el seu tractament computacional particularment difícil: l'absència d'una definició precisa i comunament acceptada i la manca de corpus de paràfrasis de referència. Assumint que el coneixement lingüístic ha de ser a la base de la recerca en lingüística computacional, aquesta tesi pretén avançar en dues línies de treball: en la delimitació i comprensió del que s’entén per paràfrasi, i en la creació i anotació de corpus de paràfrasis que proporcionin dades sobre les quals fonamentar tant la recerca com futurs recursos i aplicacions. Amb l'objectiu d’avaluar empíricament el seu potencial, el coneixement i els recursos creats com a resultat d'aquest treball han estat aplicats a la detecció automàtica de plagi. Aquesta tesi consisteix en un compendi de publicacions i comprèn sis articles principals dividits en tres blocs: (i) abast i tipologia de la paràfrasi, (ii) creació i anotació de corpus de paràfrasis i (iii) la paràfrasi en la detecció automàtica de plagi. En el primer bloc, partint de la base que els límits de la paràfrasi no són fixos, sinó que depenen de l'àrea de treball, la tasca i els objectius, es presenten tres casos límit de la paràfrasi: la pèrdua de contingut, el coneixement pragmàtic i la variació en determinats trets gramaticals. La caracterització de la paràfrasi pren una nova dimensió si l'observem des d'una perspectiva extensional. En aquesta línia, s'ha construït una tipologia general de la paràfrasi lingüísticament fonamentada. La tercera qüestió tractada en aquest bloc és la representació de la paràfrasi, essencial a l'hora de tractar-la formalment. En el segon bloc, es presenta un mètode per a l’adquisició de paràfrasis relacionals a partir de la Wikipedia (Wikipedia-based Relational Paraphrase Acquistion, WRPA). Aquest mètode permet extreure automàticament de la Wikipedia paràfrasis que expressen una relació concreta. Utilitzant aquest mètode, s'ha creat el corpus WRPA, que cobreix diverses relacions i dues llengües (anglès i espanyol). Un subconjunt del corpus WRPA en espanyol i exemples extrets de dos corpus de paràfrasis en anglès s'han anotat amb els tipus de paràfrasis que es proposen en aquesta tesi. Aquesta anotació ha estat validada aplicant les mesures d’acord entre anotadors (Inter-annotator Agreement for Paraphrase-Type Annotation, IAPTA), també desenvolupades en el marc d'aquesta tesi. En el tercer i últim bloc, la tipologia proposada s'ha aplicat a l'àmbit de la detecció automàtica de plagi i s'ha demostrat que els tipus de paràfrasis més complexos i l'alta concentració de mecanismes de paràfrasi fan més difícil la detecció del plagi. També s'ha demostrat que les substitucions lèxiques i l'addició/eliminació de fragments de text són els mecanismes de paràfrasi més utilitzats en el plagi. Així, es demostra el potencial del coneixement parafràstic en la detecció automàtica de plagi i en la recerca en lingüística computacional en general.
Paràfrasi; Paráfrasis; Paraphrase; Corpus (Lingüística); Corpora (Linguistics); Tipologia (Lingüística); Tipología (Lingüística); Typology (Linguistics); Anotació de corpus; Anotación de corpus; Corpus annotation; Detecció de plagis; Detección de plagios; Plagiarism detection
81 - Lingüística i llengües
Ciències Humanes i Socials
The contents of the first article in this PhD thesis (from page 30), namely "Is this a paraphrase? What kind? Paraphrase boundaries and typology" by Marta Vila, M. Antònia Martí, and Horacio Rodríguez, were finally published at the Open Journal of Modern Linguistics journal. Vila, Marta, M. Antònia Martí, and Horacio Rodríguez. 2014. Is this a paraphrase? What kind? Paraphrase boundaries and typology. Open Journal of Modern Linguistics, 4:205-218. http://dx.doi.org/10.4236/ojml.2014.41016
Els continguts del primer article d'aquesta tesi doctoral (des de la pàgina 30), titulat "Is this a paraphrase? What kind? Paraphrase boundaries and typology" de Marta Vila, M. Antònia Martí i Horacio Rodríguez, van ser finalment publicats a la revista Open Journal of Modern Linguistics. Vila, Marta, M. Antònia Martí i Horacio Rodríguez. 2014. Is this a paraphrase? What kind? Paraphrase boundaries and typology. Open Journal of Modern Linguistics, 4:205-218. http://dx.doi.org/10.4236/ojml.2014.41016
Los contenidos del primer artículo de esta tesis doctoral (desde la página 30), titulado "Is this a paraphrase? What kind? Paraphrase boundaries and typology" de Marta Vila, M. Antònia Martí y Horacio Rodríguez, fueron finalmente publicados en la revista Open Journal of Modern Linguistics. Vila, Marta, M. Antònia Martí y Horacio Rodríguez. 2014. Is this a paraphrase? What kind? Paraphrase boundaries and typology. Open Journal of Modern Linguistics, 4:205-218. http://dx.doi.org/10.4236/ojml.2014.41016
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.