Synthetic datasets generated by Large Language Models

Versión 1.0

Torterolo Orta, Yanco Amor; Roseti, Sofía Micaela; Moreno-Sandoval, Antonio, 2025, "Synthetic datasets generated by Large Language Models", https://doi.org/10.21950/YXP8Q8, e-cienciaDatos, V1

Revise los Estándares de citas de datos.

Contactar con el propietario

Estadísticas completas del dataset Estadísticas "Make Data Count" (MDC)

desde 2020-03-01

Visualizaciones
129

0 Citas (desde Crossref)

Descripción	This dataset is the result of the work done in the project GRESEL-UAM: About GRESEL: AI Generation Results Enriched with Simplified Explanations Based on Linguistic Features (Resultados de Generación de IA Enriquecidos con Explicaciones Simplificadas Basadas en Características Lingüísticas). This dataset is part of the publication titled "Assessing a Literary RAG System with a Human-Evaluated Synthetic QA Dataset Generated by an LLM: Experiments with Knowledge Graphs," which will be presented in September 2025 in Zaragoza, within the framework of the conference of the Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN). The work has already been accepted for publication in SEPLN’s official journal, Procesamiento del Lenguaje Natural. This dataset consists of three synthetically generated datasets, a process known as Synthetic Data Generation (SDG). We used three different LLMs: deepseek-r1:14b, llama3.1:8b-instruct-q8_0, and mistral:7b-instruct. Each was given a prompt instructing them to generate a question answering (QA) dataset based on context fragments from the novel Trafalgar by Benito Pérez Galdós. These datasets were later used to evaluate a Retrieval-Augmented Generation (RAG) system. Three CSV files are provided, each corresponding to the synthetic dataset generated by one of the models. In total, the dataset contains 359 items. The header includes the following fields: id, context, question, answer, and success. Fields are separated by tabs. The id column is simply an identifier number. The context column contains the text fragment from which the model generated the questions and answers. The question and answer fields contain the generated questions and answers, respectively. The success column indicates whether the model successfully generated the question and answer in the corresponding fields ("yes" or "no").
Materia	Ciencias de la información y computación
Palabra clave	synthetic data generation, LLM, QA dataset, RAG, question answering, digital humanities
Licencia/Acuerdo de uso de los datos	CC-BY-NC-SA-4.0

Filtrado por

	1 a 5 de 5 Ficheros. Seleccionando varios ficheros no se pueden descargar más de 10 GB.	Descargar
	output_deepseek-r1_14b.csv Valores separados por comas - 112,1 KB Publicado 27 may 2025 1 Descargas MD5: 41dd93900bfd7b940afe75aa97dffe42 Synthetic QA dataset generated by the model deepseek-r1:14b DataDatos	Acceso al fichero Acceso al fichero Público Opciones de descarga Valores separados por comas Descargar metadatos Citas de fichero de datos XML de EndNote RIS BibTeX
	output_llama3.1_8b-instruct-q8_0.csv Valores separados por comas - 96,5 KB Publicado 27 may 2025 1 Descargas MD5: c2ffef1b613b54f79165a0b2faaf4469 Synthetic QA dataset generated by the model llama3.1:8b-instruct-q8_0 DataDatos	Acceso al fichero Acceso al fichero Público Opciones de descarga Valores separados por comas Descargar metadatos Citas de fichero de datos XML de EndNote RIS BibTeX
	output_mistral_7b-instruct.csv Valores separados por comas - 112,3 KB Publicado 27 may 2025 1 Descargas MD5: 2d1dc985f80d6ce1a3a261967bd49bd3 Synthetic QA dataset generated by the model mistral:7b-instruct DataDatos	Procesamiento en curso... Acceso al fichero Acceso al fichero Público Opciones de descarga Valores separados por comas Descargar metadatos Citas de fichero de datos XML de EndNote RIS BibTeX
	readme-en.txt Texto plano - 7,3 KB Publicado 27 may 2025 1 Descargas MD5: 5fd383d289fe53e3ac0242abfa883bfd DocumentaciónDocumentation	Vista previa "readme-en.txt" Acceso al fichero Acceso al fichero Público Opciones de descarga Texto plano Descargar metadatos Citas de fichero de datos XML de EndNote RIS BibTeX Opciones de exploración Read Text
	readme-es.txt Texto plano - 8,2 KB Publicado 27 may 2025 1 Descargas MD5: 0a221d46d9ad2f61ce4a49fa52d550c7 DocumentaciónDocumentation	Vista previa "readme-es.txt" Acceso al fichero Acceso al fichero Público Opciones de descarga Texto plano Descargar metadatos Citas de fichero de datos XML de EndNote RIS BibTeX Opciones de exploración Read Text

Metadatos de cita

ID persistente	doi:10.21950/YXP8Q8
Fecha de publicación	2025-05-27
Título	Synthetic datasets generated by Large Language Models
Autor	https://ror.org/01cby8j38https://orcid.org/0000-0002-3688-3293 https://ror.org/01cby8j38https://orcid.org/0009-0000-0312-8091 https://ror.org/01cby8j38https://orcid.org/0000-0002-9029-2216
Contacto	Utilice el botón de e-mail de arriba para contactar. Moreno-Sandoval, Antonio (Universidad Autónoma de Madrid. Laboratorio de Lingüística Informática)
Descripción	This dataset is the result of the work done in the project GRESEL-UAM: About GRESEL: AI Generation Results Enriched with Simplified Explanations Based on Linguistic Features (Resultados de Generación de IA Enriquecidos con Explicaciones Simplificadas Basadas en Características Lingüísticas). This dataset is part of the publication titled "Assessing a Literary RAG System with a Human-Evaluated Synthetic QA Dataset Generated by an LLM: Experiments with Knowledge Graphs," which will be presented in September 2025 in Zaragoza, within the framework of the conference of the Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN). The work has already been accepted for publication in SEPLN’s official journal, Procesamiento del Lenguaje Natural. This dataset consists of three synthetically generated datasets, a process known as Synthetic Data Generation (SDG). We used three different LLMs: deepseek-r1:14b, llama3.1:8b-instruct-q8_0, and mistral:7b-instruct. Each was given a prompt instructing them to generate a question answering (QA) dataset based on context fragments from the novel Trafalgar by Benito Pérez Galdós. These datasets were later used to evaluate a Retrieval-Augmented Generation (RAG) system. Three CSV files are provided, each corresponding to the synthetic dataset generated by one of the models. In total, the dataset contains 359 items. The header includes the following fields: id, context, question, answer, and success. Fields are separated by tabs. The id column is simply an identifier number. The context column contains the text fragment from which the model generated the questions and answers. The question and answer fields contain the generated questions and answers, respectively. The success column indicates whether the model successfully generated the question and answer in the corresponding fields ("yes" or "no").
Materia	Ciencias de la información y computación
Palabra clave	synthetic data generation LLM QA dataset RAG question answering digital humanities
Idioma	Español
Información de la subvención	Agencia Estatal de Investigación: PID2023-151280OB-C21
Depositante	Moreno-Sandoval, Antonio
Fecha de depósito	2025-05-22
Software	Ollama Library
Dataset relacionado	Torterolo Orta, Yanco Amor; Roseti, Sofía Micaela; Moreno-Sandoval, Antonio, 2025, "Trafalgar Neo4j Database", https://doi.org/10.21950/DXGRTE, e-cienciaDatos, v.1
Fuentes de datos	Pérez Galdós, Benito. "Trafalgar". Madrid: Nuestro Pueblo, 1938, http://bdh.bne.es/bnesearch/detalle/bdh0000201280
Origen de las fuentes	Biblioteca Digital Hispánica

Condiciones de uso del dataset

Licencia/Acuerdo de uso de los datos

Tanto por nuestras Normas de la comunidad como por las buenas prácticas científicas, se espera que se acredite su uso de forma correcta mediante una cita. Por favor, use la cita de datos mostrada en la página del dataset.

CC-BY-NC-SA-4.0

Versión del dataset	Resumen	Colaboradores	Publicado en
No se encontraron registros.

Editar fichero

Este fichero ha sido eliminado (o sustituído) en la versión actual. No puede editarse.

Acceso restringido

Añadiendo límites de acceso a los ficheros publicados. Quien quiera solicitar el acceso a los dato puede hacerlo por defecto.If you disable request access, you must add information about access to the Terms of Access field.

Learn about restricting files and dataset access in the User Guide.

Pedir acceso

Habilitar la solicitud de acceso

Debe habilitar la solicitud de acceso o añadir condiciones de uso a los ficheros restringidos.

Condiciones de acceso para ficheros restringidos

Guardar cambios

Editar Embargo

El fichero o ficheros seleccionados ya se han publicado. Contacte con un administrador para cambiar la razón o la fecha del embargo del fichero o ficheros.

Editar el periodo de retención

El fichero o ficheros seleccionado se ha publicado. Contacte un administrador para cambiar la fecha del periodo de retención del fichero o ficheros o su razón.

Borrar ficheros

Se borrará el fichero después de que pulse el botón Borrar.

Los ficheros no se eliminarán de las versiones publicadas previamente en el dataset.

Fichero(s) seleccionado(s)

Por favor, seleccione uno o más ficheros.

Compartir dataset

Compartir este dataset en sus redes sociales favoritas.

Continuar

Citas del dataset

Las citas de este dataset son recolectadas desde Crossref mediante DataCite usando el estándar Make Data Count. Si quiere más información sobre estas estadísticas, puede mirar en la Guía de Usuario.

Lo siento, no se encontraron citas.

Ficheros inaccesibles seleccionados

El/los fichero(s) seleccionado(s) no puede(n) descargarse porque no tiene derechos de acceso o tienen un periodo de retención o solo pueden transferirse usando Globus.

Puede solicitar acceso a cualquier fichero de uso restringido mediante el botón Solicitar acceso.

Seleccionados ficheros no elegibles

El/los fichero(s) seleccionado(s) no puede(n) transferirse porque no tiene derechos de acceso o tienen un periodo de retención o no son accesibles usando Globus.

Puede solicitar acceso a cualquier fichero de uso restringido mediante el botón Solicitar acceso.

Opciones de descarga

Los ficheros seleccionados son demasiado grandes para descargarlos en un ZIP.

Puede seleccionar ficheros individuales que ocupen menos del límite de 9,3 GB en la tabla de ficheros, o usar el API de acceso a los datos para acceder a los ficheros mediante un programa.

Fichero(s) seleccionado(s)

Por favor seleccione el fichero o ficheros que quiere descargar.

Ficheros inaccesibles seleccionados

El/los fichero(s) seleccionado(s) no puede(n) transferirse porque no tiene derechos de acceso o tienen un periodo de retención.

Pulse en Continuar para descargar los ficheros a los que tiene acceso.

Seleccionados ficheros no elegibles

Algún fichero(s) no puede transferirse. (Está restringido, embargado, tiene un período de retención o no es accesible mediante Globus).

Pulse en Continuar para transferir los ficheros elegibles.

Eliminar dataset

¿Está seguro de que quiere eliminar el dataset?. No podrá deshacer la operación.

Eliminar versión preliminar

¿Está seguro de que quiere eliminar esta versión preliminar? No podrá deshacer la operación.

URL de previsualizació del dataset sin publicar

Las URLs de previsualización solo pueden usarse con versiones sin publicar de datasets.

URL de previsualizació del dataset sin publicar

¿Está seguro de que quiere deshabilitar la URL de previsualización? Si ha compartido esta URL de previsualización con otras personas, su dataset sin publicar dejará de estar accesible para ellos.

Borrar ficheros

Se borrará/n el/los fichero/s después de que pulse el botón Borrar.

Los ficheros no se eliminarán de las versiones publicadas previamente en el dataset.

Procesar

Este dataset contiene ficheros de acceso restringido que no puede procesar porque no tiene derechos de acceso.

Eliminar acceso al dataset

¿Está seguro de que quiere realizar la retirada? La retirada es permanente y la(s) versión(es) seleccionada(s) no volverá(n) a estar disponible(s) para el público.

Eliminar acceso al dataset

¿Está seguro de que quiere retirar este dataset? La retierada es permanente y no volverá a estar disponible para el público.

Detalles de las diferencias de versión

Por favor, seleccione dos versiones para ver sus diferencias.

Detalles de las diferencias de versión

Versión:
última modificación:

Fichero(s) seleccionado(s)

Por favor seleccione el fichero o ficheros a los que quiere pedir acceso.

Fichero(s) seleccionado(s)

No se puede acceder a los ficheros embargados. Puede seleccionar fichero(s) sin embargo en su petición de acceso.

Editar etiquetas

Seleccionar etiquetas existentes o crear otras nuevas que describan sus ficheros. Cuando se crea una etiqueta nueva, ésta se añade como una opción de etiqueta para todos los ficheros de este dataset. Cada fichero puede tener más de una etiqueta.

Petición de acceso

Tiene que Identificarse para solicitar acceso.

Condiciones de uso del dataset

Puede confirmar y/o completar la información pedida para solicitar el acceso a los ficheros de este dataset.

Este dataset está disponible con las siguientes condiciones. Por favor, confirme y/o complete la siguiente información para continuar.

Licencia/Acuerdo de uso de los datos

CC-BY-NC-SA-4.0

Nombre

E-mail

Institución

Cargo

Previsualizar libro de visitas

Tras descargar los ficheros del libro de visitas pregunta por la información siguiente.

Nombre del libro de visitas

Datos recogidos

Información de la cuenta

Descarga de fichero empaquetado

Use la URL de descarga con el comando wget o un gestor de descargas para descargar este fichero empaquetado. La descarga mediante un navegador web no se recomienda. Guía de usuario - Descarga de un archivo empaquetado de e-cienciaDatos mediante su URL

URL de descarga

https://edatos.consorciomadrono.es/api/access/datafile/

Procesar lotes de trabajo

Limpiar procesos por lotes

Dataset	ID persistente	Cambiar lotes de trabajo

Procesar lotes de trabajo

Enviar a revisión

Enviar este dataset a revisión por el conservador/revisor de esta dataverse para su posible publicación.

Publicar dataset

¿Está seguro de que quiere volver a publicar este dataset?

Indique si es una actualización de versión mayor o menor.

Revisión menor (1.1)

Revisión mayor (2.0)

Publicar dataset

Este dataset no se puede publicar hasta que GRESEL-UAM: Narrativas Financieras y Literatura sea publicado por su administrador.

Publicar dataset

Este dataset no se puede publicar hasta que GRESEL-UAM: Narrativas Financieras y Literatura y Universidad Autónoma de Madrid sean publicados.

Devolver al autor

Enviar este dataset al colaborador para su modificación. La razón para devolver el fichero se enviará por email al autor.