ID persistente
|
doi:10.21950/SMVFJC |
Fecha de publicación
|
2025-04-02 |
Título
| Lexicon of endometriosis and menopause terms in Spanish and English for fine-tuning language models |
Autor
| Roseti, Sofía Micaelahttps://ror.org/01cby8j38ORCIDhttps://orcid.org/0009-0000-0312-8091
Moreno-Sandoval, Antoniohttps://ror.org/01cby8j38ORCIDhttps://orcid.org/0000-0002-9029-2216
Vargas-Sierra, Chelohttps://ror.org/05t8bcz72ORCIDhttps://orcid.org/0000-0002-4026-4372
González Aranda, Carmenhttps://ror.org/05t8bcz72 |
Contacto
|
Utilice el botón de e-mail de arriba para contactar.
Moreno-Sandoval, Antonio (Universidad Autónoma de Madrid. Laboratorio de Lingüística Informática) |
Descripción
| The project, 'DIGITENDER: Extracción terminológica automática y corpora de dominios específicos para la visibilización de los problemas de salud relacionados con la mujer,' aims to develop an automatic term extractor focused on endometriosis and menopause to enhance the visibility of women's health issues that are often overlooked. To achieve this, a language model is trained using annotated terms within their context. This publication is the manually annotated dataset by linguists. This is a lexicon of terms related to endometriosis and another one related to menopause, both available in Spanish and English (four in total). The terms have been obtained from the gold standard of text annotation for these topics and are intended for training a language model to function as a specialized term extractor. The dataset is designed in plain text format but follows a CSV structure. The first column contains the lemmas, and the second one includes the different forms and variants of each lemma.
El proyecto "DIGITENDER: Extracción terminológica automática y corpora de dominios específicos para la visibilización de los problemas de salud relacionados con la mujer" tiene como objetivo principal crear un extractor automático de términos en los ámbitos de la endometriosis y la menopausia con el fin de visibilizar problemas de salud de la mujer habitualmente invisibilizados. Con este fin, se entrena un modelo de lenguaje con anotaciones previstas de términos en su contexto. Esta publicación se trata del dataset anotado manualmente por lingüistas. Se trata de un lexicón de términos relacionados con la endometriosis y otro con la menopausia, ambos en español y en inglés (cuatro en total). Los términos se han obtenido del Gold Standard de la anotación de textos de dichas temáticas y tienen como fin entrenar un modelo de lenguaje que funcione como extractor de términos de especialidad. El dataset se ha diseñado en formato de texto plano, pero con estructura de csv. En la primera columna aparecen los lemas y, en la siguiente, las distintas formas y variantes de cada lema. |
Materia
| Artes y humanidades; Ciencias médicas, de la salud y de la vida; Ciencias de la información y computación |
Palabra clave
| endometriosis
menopause
women's health
lexicon
computational linguistics |
Publicación relacionada
| IsSupplementTo: Vargas-Sierra, C., Moreno-Sandoval, A. (2024). On Metaphor and Women's Health. Cultura, Lenguajes y Representación, 34, 15-36. https://doi.org/10.6035/clr.8447 handle http://hdl.handle.net/10486/716393
IsSupplementTo: Gozalo Gómez, M.P., Moreno-Sandoval, A. (2024). Biting into the Bitter Reality: A Metaphorical Exploration of Food Disorders. Cultura, Lenguajes y Representación, 34. https://doi.org/10.6035/clr.7877 handle http://hdl.handle.net/10486/716392
IsSupplementTo: Moreno-Sandoval, A., Gozalo Gómez, M.P. (2023). Metáforas en blogs de TCA: comparativa entre inglés y español. En Jordi M. Antolí Martínez, Josep V. Garcia Sebastià, Vicent Martines & Caterina Martínez-Martínez (eds.), Libro de Actas / Proceedings / Llibre d’actes. 2nd International Congress: Humanities and Knowledge, ISBN: 978-84-10054-34-9 handle http://hdl.handle.net/10486/716118
IsSupplementTo: Vargas-Sierra, C., Moreno-Sandoval, A. (2024). Sobre la metáfora y la salud de la mujer. Cultura, Lenguaje y Representación, 34, 7–12. https://doi.org/10.6035/clr.8447 handle http://hdl.handle.net/10486/716393
IsSupplementTo: Vargas-Sierra, C., Moreno-Sandoval, A. (eds). (2024). Women and Metaphors. Terminology, Lexicon and Representations of Women's Health in Biomedical Discourse. Cultura, Lenguaje y Representación (CLR), 34 |
Notas
| The dataset is part of the DIGITENDER project, which aims to bring visibility to women's health issues that are often overlooked, such as endometriosis and menopause, through terminology. To achieve this, a specialized terminology extractor has been developed, trained with annotated text data on both topics. From the annotations made by two annotators, a Gold Standard was created, consisting only of terms that both annotators identified as such and for which they achieved full agreement. Based on these gold standard lists — which first were lists of term forms— four lexicons were developed, containing the lemmas and their corresponding forms found in the texts. The dataset consists of four lexicons: endometriosis in Spanish, endometriosis in English, menopause in Spanish and menopause in English. |
Idioma
| Inglés; Español |
Información de la subvención
| Agencia Estatal de Investigación: TED2021-130040B-C22
Agencia Estatal de Investigación: TED2021-130040B-C21 |
Depositante
| Moreno-Sandoval, Antonio |
Fecha de depósito
| 2025-03-07 |
Dataset relacionado
| Roseti, Sofía Micaela; Moreno-Sandoval, Antonio; Vargas-Sierra, Chelo; González Aranda, Carmen, 2025, "Annotation guidelines for endometriosis and menopause in the DIGITENDER project", https://doi.org/10.21950/VUPNH6 |