La creación del Léxico de Don Quijote es una investigación pionera enmarcada en el proyecto LYNEAL (Letras y Números en Análisis Lingüísticos), desarrollado principalmente por equipos de la UAM y la Universidad de Tokio. Este proyecto aborda la carencia histórica de una macroestructura lexicográfica que organice de forma sistemática las casi 400.000 palabras que componen las dos partes de la novela, trascendiendo los simples listados de frecuencias para ofrecer una disposición basada en lemas y categorías sintácticas, además asociadas con los personajes principales.

La metodología combina el procesamiento automático con la validación humana. Se utilizó como base la edición, tanto impresa como digital, de Florencio Sevilla y Antonio Rey (1996), La elección de la edición estuvo motivada por su accesibilidad como texto electrónico (Ciencia Abierta). Desde el punto lingüístico, su interés reside en que preserva las formas originales de la edición princeps, asegurando la fidelidad a la realidad lingüística de la época.

El análisis morfosintáctico inicial se realizó con el etiquetador GRAMPAL. En el marco del proyecto del Léxico de Don Quijote, el sistema fue sometido a una adaptación diacrónica para procesar el español del siglo XVII. En las pruebas iniciales, los investigadores encontraron que el lexicón, diseñado para el español actual, no reconocía aproximadamente 4,000 formas presentes en la narrativa de Cervantes, incluyendo arcaísmos (como 'agora'), amalgamas (como 'della', 'desta'), variantes gráficas antiguas (como 'fee', 'experiencia') y tiempos verbales obsoletos. Como resultado, se estimó que era necesario expandir el léxico interno de GRAMPAL añadiendo entre 6.000 y 8.000 nuevas entradas para garantizar una cobertura adecuada de la realidad lingüística del Siglo de Oro. Por razones de tiempo y eficiencia, se decidió apoyar la lematización automática con programas adicionales especializados en el reconocimiento de variantes diacrónicas y en la identificación de nombres propios (antropónimos y topónimos).

El uso de tecnología lingüística permitió reducir considerablemente el tiempo requerido para el etiquetado masivo de las casi 400,000 palabras que componen el corpus de la obra. Sin embargo, dado que el procesamiento automático generalmente tiene una tasa de error aproximada del 10%, el resultado de la herramienta se emplea solo como un borrador inicial. Este análisis preliminar luego pasa por una revisión manual minuciosa de un equipo de lingüistas expertos del proyecto LYNEAL, lo que garantiza la precisión filológica y la casi inexistencia de errores en la base de datos final.

Bajo la dirección de Hiroto Ueda, el corpus lematizado se convirtió en una base de datos tabular estructurada en filas independientes para cada intervención comunicativa, ya fuera del narrador o de cualquiera de los personajes. Esta metodología de segmentación no fue casual; se fundamentó en la experiencia previa del equipo con el corpus C-ORAL-ROM (Guirao et al 2006), adaptando los turnos de hablantes en una conversación espontánea a la estructura dialógica de la novela. La importancia de este proceso reside en la asociación de cada intervención con variables sociolingüísticas específicas de los personajes (sexo, edad y clase social), lo que permite realizar estudios lingüísticos comparativos entre los personajes. Por ejemplo, cuáles son las palabras distintivas de Quijote en relación con Sancho; qué conceptos predominan en los personajes cultos y los de clase baja; o incluso las diferencias y semejanzas entre el lenguaje de las mujeres y los hombres en la obra cervantina. Además, la base de datos es el elemento clave del proyecto, ya que allí se llevan a cabo todas las correcciones y modificaciones, para posteriormente generar el lexicón final.

El análisis lexicográfico identificó un total de 377.417 palabras (formas flexionadas). La distribución del léxico revela que el narrador representa el 35 % del total (133.562 palabras), seguido de Don Quijote (20 %, con 73.874 formas distribuidas en 1.805 lemas) y Sancho Panza (13 %, con 47.823 formas y 713 lemas). Esta estructuración en unidades discretas y enriquecidas no solo ha facilitado la creación de un diccionario de frecuencias de formas y lemas muy preciso, sino que constituye la arquitectura de datos necesaria para la implementación de tecnologías avanzadas, como los grafos de conocimiento y los sistemas de RAG.

Más información en la entrevista de RTVE a Antonio Moreno Sandoval.
Featured Dataverses

In order to use this feature you must have at least one published or linked dataverse.

Publish Dataverse

Are you sure you want to publish your dataverse? Once you do so it must remain published.

Publish Dataverse

This dataverse cannot be published because the dataverse it is in has not been published.

Delete Dataverse

Are you sure you want to delete your dataverse? You cannot undelete this dataverse.

Advanced Search

1 to 6 of 6 Results
Adobe PDF - 2,8 MB - MD5: ab37a93a3deee3a2f9464ed2823be77e
DataDatos
Texto plano - 5,7 KB - MD5: 6a28324b9509e9f2fd6d62d93fb4e71a
DocumentaciónDocumentation
Adobe PDF - 3,3 MB - MD5: 28a3ea5dd3839af193166c8821c771c2
DataDatos
Texto plano - 5,7 KB - MD5: 3cc637d0d1d0f469e294403f7dab6ad2
DocumentaciónDocumentation
Adobe PDF - 3,1 MB - MD5: f17e9c4e23c1b5addde0369dc0311c3b
DataDatos
Texto plano - 5,7 KB - MD5: c6277349fee1f4d90740360b198004ad
DocumentaciónDocumentation
Add Data

Log in to create a dataverse or add a dataset.

Share Dataverse

Share this dataverse on your favorite social media networks.

Link Dataverse
Reset Modifications

Are you sure you want to reset the selected metadata fields? If you do this, any customizations (hidden, required, optional) you have done will no longer appear.