La creación del Léxico de Don Quijote es una investigación pionera enmarcada en el proyecto LYNEAL (Letras y Números en Análisis Lingüísticos), desarrollado principalmente por equipos de la UAM y la Universidad de Tokio. Este proyecto aborda la carencia histórica de una macroestructura lexicográfica que organice de forma sistemática las casi 400.000 palabras que componen las dos partes de la novela, trascendiendo los simples listados de frecuencias para ofrecer una disposición basada en lemas y categorías sintácticas, además asociadas con los personajes principales.
La metodología combina el procesamiento automático con la validación humana. Se utilizó como base la edición, tanto impresa como digital, de Florencio Sevilla y Antonio Rey (1996), La elección de la edición estuvo motivada por su accesibilidad como texto electrónico (Ciencia Abierta). Desde el punto lingüístico, su interés reside en que preserva las formas originales de la edición princeps, asegurando la fidelidad a la realidad lingüística de la época.
El análisis morfosintáctico inicial se realizó con el etiquetador GRAMPAL. En el marco del proyecto del Léxico de Don Quijote, el sistema fue sometido a una adaptación diacrónica para procesar el español del siglo XVII. En las pruebas iniciales, los investigadores encontraron que el lexicón, diseñado para el español actual, no reconocía aproximadamente 4,000 formas presentes en la narrativa de Cervantes, incluyendo arcaísmos (como 'agora'), amalgamas (como 'della', 'desta'), variantes gráficas antiguas (como 'fee', 'experiencia') y tiempos verbales obsoletos. Como resultado, se estimó que era necesario expandir el léxico interno de GRAMPAL añadiendo entre 6.000 y 8.000 nuevas entradas para garantizar una cobertura adecuada de la realidad lingüística del Siglo de Oro. Por razones de tiempo y eficiencia, se decidió apoyar la lematización automática con programas adicionales especializados en el reconocimiento de variantes diacrónicas y en la identificación de nombres propios (antropónimos y topónimos).
El uso de tecnología lingüística permitió reducir considerablemente el tiempo requerido para el etiquetado masivo de las casi 400,000 palabras que componen el corpus de la obra. Sin embargo, dado que el procesamiento automático generalmente tiene una tasa de error aproximada del 10%, el resultado de la herramienta se emplea solo como un borrador inicial. Este análisis preliminar luego pasa por una revisión manual minuciosa de un equipo de lingüistas expertos del proyecto LYNEAL, lo que garantiza la precisión filológica y la casi inexistencia de errores en la base de datos final.
Bajo la dirección de Hiroto Ueda, el corpus lematizado se convirtió en una base de datos tabular estructurada en filas independientes para cada intervención comunicativa, ya fuera del narrador o de cualquiera de los personajes. Esta metodología de segmentación no fue casual; se fundamentó en la experiencia previa del equipo con el corpus C-ORAL-ROM (Guirao et al 2006), adaptando los turnos de hablantes en una conversación espontánea a la estructura dialógica de la novela. La importancia de este proceso reside en la asociación de cada intervención con variables sociolingüísticas específicas de los personajes (sexo, edad y clase social), lo que permite realizar estudios lingüísticos comparativos entre los personajes. Por ejemplo, cuáles son las palabras distintivas de Quijote en relación con Sancho; qué conceptos predominan en los personajes cultos y los de clase baja; o incluso las diferencias y semejanzas entre el lenguaje de las mujeres y los hombres en la obra cervantina. Además, la base de datos es el elemento clave del proyecto, ya que allí se llevan a cabo todas las correcciones y modificaciones, para posteriormente generar el lexicón final.
El análisis lexicográfico identificó un total de 377.417 palabras (formas flexionadas). La distribución del léxico revela que el narrador representa el 35% del total, seguido de Don Quijote (20%, con 4.877 lemas) y Sancho Panza (13%, con 3.523 lemas). Esta estructuración en unidades discretas y enriquecidas no solo ha facilitado la creación de un diccionario de frecuencias de muy preciso, sino que constituye la arquitectura de datos necesaria para la implementación de tecnologías avanzadas, como los grafos de conocimiento y los sistemas de generación aumentada por recuperación (RAG).