Universitat Jaume I. Departament de Llenguatges i Sistemes Informàtics
Background Despite the dissemination of scientific publications, most of their information remains locked up in discrete documents, not always interconnected or machine-readable. This, together with the continuous growth of scientific literature, makes difficult simple tasks such as categorizing and finding similar documents. Results Biotea provides both a semantic model and workflow to represent metadata, references and contents from publications, adding on top of it an enriched level where biomedical expressions are semantically annotated (i.e., identified, extracted and associated to ontological concepts). We have applied our model to the full-text, open-access subset of PubMed Central. We take advantage from such a semantic infrastructure by applying Biolinks principles. Biolinks proposes a reclassification of the Unified Medical Language System semantic groups. Such reclassification is later used to semantically characterize and compare publications. Conclusions Biotea and Biolinks embed publications in the Linked Open Data cloud facilitating interoperability and querability, and contributing to enable literature-based knowledge discovery.
Motivación A pesar de la diseminación de publicaciones científicas, la mayor parte de la información no está necesariamente interconectada ni es procesable por máquinas. Esto, junto con el continuo crecimiento de la producción científica, dificulta tareas como categorizar y comparar documentos científicos. Resultados Biotea ofrece un modelo semántico junto con los procedimientos para representar metadatos, referencias y contenido, enriqueciéndolos con anotaciones semánticas en el área de la Biomedicina (es decir identificación y extracción de expresiones asociadas con conceptos ontológicos). Biotea se utilizó para modelar artículos completos del subconjunto abierto de PubMed Central. Para aprovechar esta infraestructura semántica desarrollamos Biolinks. Biolinks propone una reclasificación de los grupos semánticos del Unified Medical Language System utilizada para caracterizar y comparar publicaciones desde un punto de vista semántico. Conclusiones Biotea y Biolinks posicionan las publicaciones en la nube del Linked Open Data, facilitando interoperabilidad y consultas, contribuyendo además al descubrimiento de conocimiento basado en literatura.
Semantic web; Linked open data; Scientific publications; Semantic similarity; Semantic categorization; Data enrichment
004 - Computer science; 02 - Librarianship
Tecnologies de la Informació i les Comunicacions (TIC)
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.