LYNEAL (Letras y Números en Análisis Lingüísticos)

Encuesta satisfacción e-cienciaDatos

e-cienciaDatos es el repositorio de datos de investigación de las universidades del Consorcio Madroño. Es aceptado por las principales editoriales científicas

Estamos comprometidos con la mejora de nuestro servicio. Conocer mejor sus expectativas nos ayudará a adaptar nuestros servicios a sus necesidades.

Si desea colaborar con nosotros, seleccione su institución para comenzar la encuesta.

Gracias por su colaboración.

UAH UAM UC3M UNED UPM URJC

Ninguna de las anteriores

Recordármelo más tarde | No volver a mostrar este mensaje

La creación del Léxico de Don Quijote es una investigación pionera enmarcada en el proyecto LYNEAL (Letras y Números en Análisis Lingüísticos), desarrollado principalmente por equipos de la UAM y la Universidad de Tokio. Este proyecto aborda la carencia histórica de una macroestructura lexicográfica que organice de forma sistemática las casi 400.000 palabras que componen las dos partes de la novela, trascendiendo los simples listados de frecuencias para ofrecer una disposición basada en lemas y categorías sintácticas, además asociadas con los personajes principales.

La metodología combina el procesamiento automático con la validación humana. Se utilizó como base la edición, tanto impresa como digital, de Florencio Sevilla y Antonio Rey (1996), La elección de la edición estuvo motivada por su accesibilidad como texto electrónico (Ciencia Abierta). Desde el punto lingüístico, su interés reside en que preserva las formas originales de la edición princeps, asegurando la fidelidad a la realidad lingüística de la época.

El análisis morfosintáctico inicial se realizó con el etiquetador GRAMPAL. En el marco del proyecto del Léxico de Don Quijote, el sistema fue sometido a una adaptación diacrónica para procesar el español del siglo XVII. En las pruebas iniciales, los investigadores encontraron que el lexicón, diseñado para el español actual, no reconocía aproximadamente 4,000 formas presentes en la narrativa de Cervantes, incluyendo arcaísmos (como 'agora'), amalgamas (como 'della', 'desta'), variantes gráficas antiguas (como 'fee', 'experiencia') y tiempos verbales obsoletos. Como resultado, se estimó que era necesario expandir el léxico interno de GRAMPAL añadiendo entre 6.000 y 8.000 nuevas entradas para garantizar una cobertura adecuada de la realidad lingüística del Siglo de Oro. Por razones de tiempo y eficiencia, se decidió apoyar la lematización automática con programas adicionales especializados en el reconocimiento de variantes diacrónicas y en la identificación de nombres propios (antropónimos y topónimos).

El uso de tecnología lingüística permitió reducir considerablemente el tiempo requerido para el etiquetado masivo de las casi 400,000 palabras que componen el corpus de la obra. Sin embargo, dado que el procesamiento automático generalmente tiene una tasa de error aproximada del 10%, el resultado de la herramienta se emplea solo como un borrador inicial. Este análisis preliminar luego pasa por una revisión manual minuciosa de un equipo de lingüistas expertos del proyecto LYNEAL, lo que garantiza la precisión filológica y la casi inexistencia de errores en la base de datos final.

Bajo la dirección de Hiroto Ueda, el corpus lematizado se convirtió en una base de datos tabular estructurada en filas independientes para cada intervención comunicativa, ya fuera del narrador o de cualquiera de los personajes. Esta metodología de segmentación no fue casual; se fundamentó en la experiencia previa del equipo con el corpus C-ORAL-ROM (Guirao et al 2006), adaptando los turnos de hablantes en una conversación espontánea a la estructura dialógica de la novela. La importancia de este proceso reside en la asociación de cada intervención con variables sociolingüísticas específicas de los personajes (sexo, edad y clase social), lo que permite realizar estudios lingüísticos comparativos entre los personajes. Por ejemplo, cuáles son las palabras distintivas de Quijote en relación con Sancho; qué conceptos predominan en los personajes cultos y los de clase baja; o incluso las diferencias y semejanzas entre el lenguaje de las mujeres y los hombres en la obra cervantina. Además, la base de datos es el elemento clave del proyecto, ya que allí se llevan a cabo todas las correcciones y modificaciones, para posteriormente generar el lexicón final.

El análisis lexicográfico identificó un total de 377.417 palabras (formas flexionadas). La distribución del léxico revela que el narrador representa el 35 % del total (133.562 palabras), seguido de Don Quijote (20 %, con 73.874 formas distribuidas en 1.805 lemas) y Sancho Panza (13 %, con 47.823 formas y 713 lemas). Esta estructuración en unidades discretas y enriquecidas no solo ha facilitado la creación de un diccionario de frecuencias de formas y lemas muy preciso, sino que constituye la arquitectura de datos necesaria para la implementación de tecnologías avanzadas, como los grafos de conocimiento y los sistemas de RAG.

Dataverses destacados

Para usar esta funcionalidad ha de tener publicado o enlazado al menos un dataverse.

Publicar dataverse

¿Está seguro de que quiere publicar su dataverse? Una vez hecho esto, deberá permanecer publicado.

Publicar dataverse

Este dataverse no puede publicarse porque el dataverse al que pertenece no se ha publicado.

Eliminar dataverse

¿Está seguro de que quiere eliminar este dataverse? No podrá recuperarlo.

1 a 9 de 9 Resultados

Lema, sublema y forma: formas en orden gramatical 16 mar 2026 Moreno-Sandoval, Antonio; Ueda, Hiroto, 2026, "Lema, sublema y forma: formas en orden gramatical", https://doi.org/10.21950/TDJZIQ, e-cienciaDatos, V1 Este documento es el segundo diccionario de la serie de lexicones que contiene el dataverso "Léxico del Quijote". Contiene todos los lemas, sublemas y formas, con sus correspondientes ocurrencias. Dentro de cada entrada, las formas están ordenadas por categoría gramatical y según...
dq02-lema-lexema-forma-grama.pdf 16 mar 2026 - Lema, sublema y forma: formas en orden gramatical Adobe PDF - 2,8 MB - MD5: ab37a93a3deee3a2f9464ed2823be77e DataDatos
readme-es_dq02-lema-lexema-forma-grama.txt 16 mar 2026 - Lema, sublema y forma: formas en orden gramatical Texto plano - 5,7 KB - MD5: 6a28324b9509e9f2fd6d62d93fb4e71a DocumentaciónDocumentation
Lema, sublema y forma: formas en orden alfabético 16 mar 2026 Moreno-Sandoval, Antonio; Ueda, Hiroto, 2026, "Lema, sublema y forma: formas en orden alfabético", https://doi.org/10.21950/S641LW, e-cienciaDatos, V1 Este documento es el primer diccionaro de la serie de lexicones que contiene el dataverso "Léxico del Quijote". Contiene todos los lemas, sublemas y formas, con sus correspondientes ocurrencias. Dentro de cada entrada, las formas están ordenadas por orden alfabético, no por el or...
dq01-lema-lexema-forma-alfa.pdf 16 mar 2026 - Lema, sublema y forma: formas en orden alfabético Adobe PDF - 3,3 MB - MD5: 28a3ea5dd3839af193166c8821c771c2 DataDatos
readme-es_dq01-lema-lexema-forma-alfa.txt 16 mar 2026 - Lema, sublema y forma: formas en orden alfabético Texto plano - 5,7 KB - MD5: 3cc637d0d1d0f469e294403f7dab6ad2 DocumentaciónDocumentation
Prefacio a la serie Léxico del Quijote 16 mar 2026 Moreno-Sandoval, Antonio; Ueda, Hiroto, 2026, "Prefacio a la serie Léxico del Quijote", https://doi.org/10.21950/O80KQR, e-cienciaDatos, V1 Este documento es la introducción común a la serie de lexicones que contiene el dataverso "Léxico del Quijote". El documento contiene la siguiente información: a. Prefacio b. Autores (en orden alfabético) c. Edición empleada d. Léxico total del corpus e. Notas gramaticales f. Cat...
dq00-prefacio.pdf 16 mar 2026 - Prefacio a la serie Léxico del Quijote Adobe PDF - 3,1 MB - MD5: f17e9c4e23c1b5addde0369dc0311c3b DataDatos
readme-es_prefacio-Q.txt 16 mar 2026 - Prefacio a la serie Léxico del Quijote Texto plano - 5,7 KB - MD5: c6277349fee1f4d90740360b198004ad DocumentaciónDocumentation

Lema, sublema y forma: formas en orden gramatical

16 mar 2026

Moreno-Sandoval, Antonio; Ueda, Hiroto, 2026, "Lema, sublema y forma: formas en orden gramatical", https://doi.org/10.21950/TDJZIQ, e-cienciaDatos, V1

Este documento es el segundo diccionario de la serie de lexicones que contiene el dataverso "Léxico del Quijote". Contiene todos los lemas, sublemas y formas, con sus correspondientes ocurrencias. Dentro de cada entrada, las formas están ordenadas por categoría gramatical y según...

dq02-lema-lexema-forma-grama.pdf

16 mar 2026 - Lema, sublema y forma: formas en orden gramatical

Adobe PDF - 2,8 MB -

DataDatos

readme-es_dq02-lema-lexema-forma-grama.txt

16 mar 2026 - Lema, sublema y forma: formas en orden gramatical

Texto plano - 5,7 KB -

DocumentaciónDocumentation

Lema, sublema y forma: formas en orden alfabético

16 mar 2026

Moreno-Sandoval, Antonio; Ueda, Hiroto, 2026, "Lema, sublema y forma: formas en orden alfabético", https://doi.org/10.21950/S641LW, e-cienciaDatos, V1

Este documento es el primer diccionaro de la serie de lexicones que contiene el dataverso "Léxico del Quijote". Contiene todos los lemas, sublemas y formas, con sus correspondientes ocurrencias. Dentro de cada entrada, las formas están ordenadas por orden alfabético, no por el or...

dq01-lema-lexema-forma-alfa.pdf

16 mar 2026 - Lema, sublema y forma: formas en orden alfabético

Adobe PDF - 3,3 MB -

DataDatos

readme-es_dq01-lema-lexema-forma-alfa.txt

16 mar 2026 - Lema, sublema y forma: formas en orden alfabético

Texto plano - 5,7 KB -

DocumentaciónDocumentation

Prefacio a la serie Léxico del Quijote

16 mar 2026

Moreno-Sandoval, Antonio; Ueda, Hiroto, 2026, "Prefacio a la serie Léxico del Quijote", https://doi.org/10.21950/O80KQR, e-cienciaDatos, V1

Este documento es la introducción común a la serie de lexicones que contiene el dataverso "Léxico del Quijote". El documento contiene la siguiente información: a. Prefacio b. Autores (en orden alfabético) c. Edición empleada d. Léxico total del corpus e. Notas gramaticales f. Cat...

dq00-prefacio.pdf

16 mar 2026 - Prefacio a la serie Léxico del Quijote

Adobe PDF - 3,1 MB -

DataDatos

readme-es_prefacio-Q.txt

16 mar 2026 - Prefacio a la serie Léxico del Quijote

Texto plano - 5,7 KB -

DocumentaciónDocumentation

Añadir datos

Necesita identificarse para crear un dataverse o añadir un dataset.

Iniciar sesión

Compartir dataverse

Enlace al dataverse

Reiniciar modificaciones