Descripción
|
Para poder aplicar técnicas de PLN y aprendizaje profundo capaces de reconocer de forma automática las menciones de las enfermedades raras y sus manifestaciones clínicas en textos es imprescindible contar con un dataset (colección de textos anotados con enfermedades y síntomas / signos) que pueda ser utilizado par entrenar y evaluar los distintos modelos. Con ese objetivo, dentro del proyecto NLP4RARE-CM-UC3M, creamos el corpus RAre4Dis, formado por 1.041 textos seleccionados de una de las principales bases de datos con información sobre enfermedades raras, Orphanet (https://www.orpha.net/consor/cgi-bin/index.php). Una vez definidas una metodología y guías de anotación, se anotaron las entidades (enfermedad, enfermedad rara, síntoma, signo y anáfora). El corpus de RareDis contiene más de 5.000 enfermedades raras y unas 6.000 manifestaciones clínicas. Para garantizar la calidad del corpus, se midió el acuerdo entre anotadores, alcanzando una medida F1 de 83.5%. El dataset, que es distribuido con particiones para entrenamiento, validación y evaluación, puede ser utilizado para entrenar y evaluar enfoques basados en aprendizaje automático y dirigido al reconocimiento de este tipo de entidades en textos médicos. A continuación, se presentan algunas tablas con información del número de textos y entidades más importantes del dataset:
Training Validación Test Total
Textos 729 - 104 - 208 - 1.041
Oraciones 6.451 - 903 - 1.787 - 9.141
Tokens 135.656 - 18.492 - 37.893 - 192.041
Training Validación Test Total
Disease 1.647 - 230 - 471 - 2.348
Rare Disease 3.608 - 525 - 1.088 - 5.221
Symptom 319 - 24 - 53 - 396
Sign 3.744 - 528 - 1.061 - 5.333
produces 4.106 - 556 - 1.131 - 5.793
increase-risk-of 169 - 22 - 54 - 245
|
Notas
| Descripción del proyecto:
El proyecto NLP4RARE-CM-UC3M, financiado por la Comunidad de Madrid y la UC3M, en la Convocatoria del Programa de Apoyo a la Realización de Proyectos Interdisciplinares de I+D para jóvenes investigadores de la UC3M 2019-2020.
El proyecto tiene como objetivo aplicar técnicas de Procesamiento de Lenguaje Natural (PLN) para analizar la literatura biomédica con el fin de aumentar el conocimiento relativo a las enfermedades raras y desvelar relaciones complejas presentes en estas enfermedades. El tratamiento y diagnóstico de estas enfermedades es un reto para nuestra sociedad actual. Gracias a la investigación biomédica, se ha generado una gran cantidad de conocimiento sobre enfermedades raras en los últimos años. Sin embargo, debido al elevado coste de los análisis moleculares y la existencia de una bibliografía reducida, en ocasiones inaccesible o dispersa, dificulta el avance en el diagnóstico y tratamiento de estas patologías. Frecuentemente, los pacientes afectos, a pesar de que sus condiciones son mortales o crónicamente incapacitantes, carecen de tratamiento. Aunque las bases genéticas hayan sido dilucidadas, en muchos casos la pérdida de función de los genes causantes no explica la complejidad fenotípica observada. Estas enfermedades comparten manifestaciones clínicas y predisposición al cáncer, a pesar de tener diferentes bases genéticas. Gracias a la identificación automática de estas manifestaciones, en el proyecto, se tratará de identificar biomarcadores precisos, dianas terapéuticas de estas patologías, así como facilitar su diagnóstico a clínicos no especialistas.
Metolodogía (empleada para la recogida o generación de los datos):
La metodología y guías de anotación para la creación del dataset está descrito de forma detallada en el artículo:
Martínez-de Miguel, C., Segura-Bedmar, I., Chacón-Solano, E. & Guerrero-Aspizua, S. (2022). The RareDis corpus: A corpus annotated with rare diseases, their signs and symptoms. Journal of Biomedical Informatics, 125, 103961. https://doi.org/10.1016/j.jbi.2021.103961 URI: http://hdl.handle.net/10016/36462 ISSN: 1532-0464
Diccionario datos:
Para la creación del dataset RareDis, se utilizaron otros recursos que nos ayudaron en la anotación de nuestras entidades y relaciones:
- Disease Ontology (DOID), una ontología sobre enfermedades en seres humanos, creada por la escuela de Medicina de (Institute for Genome Sciences).
- Orphan Rare Disease Ontology (ORDO), desarrollado por Orphanet y el Instituto Europeo de Bioinformática (EBI), contiene una clasificación de enfermedades raras, relaciones de genes y enfermedades y datos epidemiológicos. Además, también está vinculada con otros recursos terminológicos (MeSH, OMIM, UMLS, ICD, MedDRA, UniProtKB, HGNC, ensembl, Reactome, IUPHAR).
- Symptom Ontology (SYMP) es una ontología con información sobre enfermedades, signos y síntomas. |