Spanish tweet datasets encoded for sentiment analysis based on context of words

Versión 1.0

Pilar, Garcia Diaz; Sánchez-Berriel, Isabel; González Ávila, José Luis, 2026, "Spanish tweet datasets encoded for sentiment analysis based on context of words", https://doi.org/10.21950/XEV9IC, e-cienciaDatos, V1

Revise los Estándares de citas de datos.

Contactar con el propietario

Estadísticas completas del dataset Estadísticas "Make Data Count" (MDC)

desde 2020-03-01

Visualizaciones
103

0 Citas (desde Crossref)

Descripción	Description of the project This dataset compiles and organizes the data used in the article “A novel flexible feature extraction algorithm for Spanish tweet sentiment analysis based on the context of words”, focusing on Spanish-language tweets annotated into four polarity categories: positive (P), neutral (NEU), negative (N), and no opinion (NONE). (2026)
Materia	Ingeniería; Ciencias de la información y computación
Palabra clave	Sentiment analysis, Context semantics, Grouping Genetic Algorithm, Flexible feature extraction, Twitter
Publicación relacionada	Pilar, G.-D. et al. (2023) ‘A novel flexible feature extraction algorithm for Spanish tweet sentiment analysis based on the context of words’, Expert Systems with Applications, 2023, v. 212, n. 118817, p. 1-11handle: 10017/64090
Notas	Description of the dataset The texts originate from two corpora published by TASS (Workshop on Semantic Analysis at SEPLN): (1) InterTASS. 3,413 tweets (years 2016–2017), each containing at least one adjective and more than three words, partitioned into training (C_Train), development (C_Dev), and test (C_Test) sets; the test set comprises 1,899 tweets. (2) General corpus. 57,832 tweets (years 2011–2012) covering multiple topics (e.g., politics, economics, communication, and culture). The original six‑class annotation was reduced to four classes by merging P+ with P and N+ with N. Class distribution: (1) In InterTASS, training and development are imbalanced (N and P are predominant), and the C_Test set (1,899 tweets) maintains a similar profile. (2) In the General corpus (after mapping to four classes): P = 21,262 (36.76%), NEU = 1,300 (2.25%), N = 15,124 (26.15%), NONE = 20,146 (34.83%); the pronounced underrepresentation of NEU (<3%) is relevant for analysis and model evaluation. Labels and partitions. The dataset adopts four document-level labels (P, NEU, N, NONE). For reproducibility, the C_Train, C_Dev, and C_Test partitions from InterTASS are preserved, as is the complete General corpus with the six‑to‑four class mapping.
Licencia/Acuerdo de uso de los datos	CC-BY-4.0

Evaluación FAIR

Evaluando cumplimiento FAIR...

Filtrado por

	1 a 2 de 2 Ficheros. Seleccionando varios ficheros no se pueden descargar más de 10 GB.	Descargar
	Data.zip Archivo ZIP - 10,2 MB Publicado 9 mar 2026 17 Descargas MD5: be4e86c8b22d272f7d35b393e131c7f9	Acceso al fichero Acceso al fichero Público Opciones de descarga Archivo ZIP Descargar metadatos Citas de fichero de datos XML de EndNote RIS BibTeX
	Readme-en_Spanish_Garcia.txt Texto plano - 6,3 KB Publicado 9 mar 2026 18 Descargas MD5: d0b7d02c96096a1594c57d6c9d7c3a79	Vista previa "Readme-en_Spanish_Garcia.txt" Acceso al fichero Acceso al fichero Público Opciones de descarga Texto plano Descargar metadatos Citas de fichero de datos XML de EndNote RIS BibTeX Opciones de exploración Read Text

Metadatos de cita

ID persistente	doi:10.21950/XEV9IC
Fecha de publicación	2026-03-09
Título	Spanish tweet datasets encoded for sentiment analysis based on context of words
Autor	https://ror.org/04pmn0e78https://orcid.org/0000-0002-5361-6947 https://ror.org/01r9z8p25https://orcid.org/0000-0003-3279-9438 https://ror.org/01r9z8p25https://orcid.org/0000-0001-9412-2022
Contacto	Utilice el botón de e-mail de arriba para contactar. Garcia-Diaz, Pilar (Universidad de Alcalá. Departamento de Teoría de la Señal y Comunicaciones)
Descripción	Description of the project This dataset compiles and organizes the data used in the article “A novel flexible feature extraction algorithm for Spanish tweet sentiment analysis based on the context of words”, focusing on Spanish-language tweets annotated into four polarity categories: positive (P), neutral (NEU), negative (N), and no opinion (NONE). (2026)
Materia	Ingeniería; Ciencias de la información y computación
Palabra clave	Sentiment analysis Context semantics Grouping Genetic Algorithm Flexible feature extraction Twitter
Publicación relacionada	Pilar, G.-D. et al. (2023) ‘A novel flexible feature extraction algorithm for Spanish tweet sentiment analysis based on the context of words’, Expert Systems with Applications, 2023, v. 212, n. 118817, p. 1-11 handle 10017/64090
Notas	Description of the dataset The texts originate from two corpora published by TASS (Workshop on Semantic Analysis at SEPLN): (1) InterTASS. 3,413 tweets (years 2016–2017), each containing at least one adjective and more than three words, partitioned into training (C_Train), development (C_Dev), and test (C_Test) sets; the test set comprises 1,899 tweets. (2) General corpus. 57,832 tweets (years 2011–2012) covering multiple topics (e.g., politics, economics, communication, and culture). The original six‑class annotation was reduced to four classes by merging P+ with P and N+ with N. Class distribution: (1) In InterTASS, training and development are imbalanced (N and P are predominant), and the C_Test set (1,899 tweets) maintains a similar profile. (2) In the General corpus (after mapping to four classes): P = 21,262 (36.76%), NEU = 1,300 (2.25%), N = 15,124 (26.15%), NONE = 20,146 (34.83%); the pronounced underrepresentation of NEU (<3%) is relevant for analysis and model evaluation. Labels and partitions. The dataset adopts four document-level labels (P, NEU, N, NONE). For reproducibility, the C_Train, C_Dev, and C_Test partitions from InterTASS are preserved, as is the complete General corpus with the six‑to‑four class mapping.
Idioma	Inglés
Lugar de producción	Spain
Depositante	Garcia-Diaz, Pilar
Fecha de depósito	2026-03-09

Condiciones de uso del dataset

Licencia/Acuerdo de uso de los datos

Tanto por nuestras Normas de la comunidad como por las buenas prácticas científicas, se espera que se acredite su uso de forma correcta mediante una cita. Por favor, use la cita de datos mostrada en la página del dataset.

CC-BY-4.0

Versión del dataset	Resumen	Colaboradores	Publicado en
No se encontraron registros.

Editar fichero

Este fichero ha sido eliminado (o sustituído) en la versión actual. No puede editarse.

Acceso restringido

Añadiendo límites de acceso a los ficheros publicados. Quien quiera solicitar el acceso a los dato puede hacerlo por defecto.If you disable request access, you must add information about access to the Terms of Access field.

Learn about restricting files and dataset access in the User Guide.

Pedir acceso

Habilitar la solicitud de acceso

Debe habilitar la solicitud de acceso o añadir condiciones de uso a los ficheros restringidos.

Condiciones de acceso para ficheros restringidos

Guardar cambios

Editar Embargo

El fichero o ficheros seleccionados ya se han publicado. Contacte con un administrador para cambiar la razón o la fecha del embargo del fichero o ficheros.

Editar el periodo de retención

El fichero o ficheros seleccionado se ha publicado. Contacte un administrador para cambiar la fecha del periodo de retención del fichero o ficheros o su razón.

Borrar ficheros

Se borrará el fichero después de que pulse el botón Borrar.

Los ficheros no se eliminarán de las versiones publicadas previamente en el dataset.

Fichero(s) seleccionado(s)

Por favor, seleccione uno o más ficheros.

Compartir dataset

Compartir este dataset en sus redes sociales favoritas.

Continuar

Citas del dataset

Las citas de este dataset son recolectadas desde Crossref mediante DataCite usando el estándar Make Data Count. Si quiere más información sobre estas estadísticas, puede mirar en la Guía de Usuario.

Lo siento, no se encontraron citas.

Ficheros inaccesibles seleccionados

El/los fichero(s) seleccionado(s) no puede(n) descargarse porque no tiene derechos de acceso o tienen un periodo de retención o solo pueden transferirse usando Globus.

Puede solicitar acceso a cualquier fichero de uso restringido mediante el botón Solicitar acceso.

Seleccionados ficheros no elegibles

El/los fichero(s) seleccionado(s) no puede(n) transferirse porque no tiene derechos de acceso o tienen un periodo de retención o no son accesibles usando Globus.

Puede solicitar acceso a cualquier fichero de uso restringido mediante el botón Solicitar acceso.

Opciones de descarga

Los ficheros seleccionados son demasiado grandes para descargarlos en un ZIP.

Puede seleccionar ficheros individuales que ocupen menos del límite de 9,3 GB en la tabla de ficheros, o usar el API de acceso a los datos para acceder a los ficheros mediante un programa.

Fichero(s) seleccionado(s)

Por favor seleccione el fichero o ficheros que quiere descargar.

Ficheros inaccesibles seleccionados

El/los fichero(s) seleccionado(s) no puede(n) transferirse porque no tiene derechos de acceso o tienen un periodo de retención.

Pulse en Continuar para descargar los ficheros a los que tiene acceso.

Seleccionados ficheros no elegibles

Algún fichero(s) no puede transferirse. (Está restringido, embargado, tiene un período de retención o no es accesible mediante Globus).

Pulse en Continuar para transferir los ficheros elegibles.

Eliminar dataset

¿Está seguro de que quiere eliminar el dataset?. No podrá deshacer la operación.

Creacion del fichero README

Si el fichero README ya existe en el idioma seleccionado se sobreescribirá. Cancele si ha modificado el fichero manualmente.

Eliminar versión preliminar

¿Está seguro de que quiere eliminar esta versión preliminar? No podrá deshacer la operación.

URL de previsualizació del dataset sin publicar

Las URLs de previsualización solo pueden usarse con versiones sin publicar de datasets.

URL de previsualizació del dataset sin publicar

¿Está seguro de que quiere deshabilitar la URL de previsualización? Si ha compartido esta URL de previsualización con otras personas, su dataset sin publicar dejará de estar accesible para ellos.

Borrar ficheros

Se borrará/n el/los fichero/s después de que pulse el botón Borrar.

Los ficheros no se eliminarán de las versiones publicadas previamente en el dataset.

Procesar

Este dataset contiene ficheros de acceso restringido que no puede procesar porque no tiene derechos de acceso.

Eliminar acceso al dataset

¿Está seguro de que quiere realizar la retirada? La retirada es permanente y la(s) versión(es) seleccionada(s) no volverá(n) a estar disponible(s) para el público.

Eliminar acceso al dataset

¿Está seguro de que quiere retirar este dataset? La retierada es permanente y no volverá a estar disponible para el público.

Detalles de las diferencias de versión

Por favor, seleccione dos versiones para ver sus diferencias.

Detalles de las diferencias de versión

Versión:
última modificación:

Fichero(s) seleccionado(s)

Por favor seleccione el fichero o ficheros a los que quiere pedir acceso.

Fichero(s) seleccionado(s)

No se puede acceder a los ficheros embargados. Puede seleccionar fichero(s) sin embargo en su petición de acceso.

Editar etiquetas

Seleccionar etiquetas existentes o crear otras nuevas que describan sus ficheros. Cuando se crea una etiqueta nueva, ésta se añade como una opción de etiqueta para todos los ficheros de este dataset. Cada fichero puede tener más de una etiqueta.

Petición de acceso

Tiene que Identificarse para solicitar acceso.

Condiciones de uso del dataset

Puede confirmar y/o completar la información pedida para solicitar el acceso a los ficheros de este dataset.

Este dataset está disponible con las siguientes condiciones. Por favor, confirme y/o complete la siguiente información para continuar.

Licencia/Acuerdo de uso de los datos

CC-BY-4.0

Nombre

E-mail

Institución

Cargo

Previsualizar libro de visitas

Tras descargar los ficheros del libro de visitas pregunta por la información siguiente.

Nombre del libro de visitas

Datos recogidos

Información de la cuenta

Descarga de fichero empaquetado

Use la URL de descarga con el comando wget o un gestor de descargas para descargar este fichero empaquetado. La descarga mediante un navegador web no se recomienda. Guía de usuario - Descarga de un archivo empaquetado de e-cienciaDatos mediante su URL

URL de descarga

https://edatos.consorciomadrono.es/api/access/datafile/

Evaluación FAIR detallada

Esta evaluación se ha realizado con F-UJI, el servicio automatizado de evaluación FAIR desarrollado por FAIRsFAIR.

Mide el grado de cumplimiento de los principios FAIR de este conjunto de datos (Localizable, Accesible, Interoperable y Reutilizable) a partir de la información que expone el repositorio (metadatos y servicios); por tanto, refleja principalmente la capacidad del repositorio y puede no representar completamente las características del conjunto de datos en sí.

El nivel FAIR indica el grado de cumplimiento de las pruebas de cada principio: inicial (cumplimiento básico), moderado (cumplimiento parcial pero consistente) y avanzado (cumplimiento alto o casi completo).

Resumen de la evaluación

PID del conjunto de datos: -

Puntuación FAIR: -

Nivel de madurez: -

Fecha de evaluación: -

	Puntuación obtenida	Nivel FAIR
Encontrable:	-	-
Accesible:	-	-
Interoperable:	-	-
Reutilizable:	-	-

Desglose de los principios FAIR

Encontrable (F)

Accesible (A)

Interoperable (I)

Reutilizable (R)

Procesar lotes de trabajo

Limpiar procesos por lotes

Dataset	ID persistente	Cambiar lotes de trabajo

Procesar lotes de trabajo

Enviar a revisión

Enviar este dataset a revisión por el conservador/revisor de esta dataverse para su posible publicación.
Antes de enviar para revisión asegúrate de que el dataset incluya un archivo README actualizado. Si no lo tienes, utiliza el botón para añadirlo automáticamente.

Publicar dataset

¿Está seguro de que quiere volver a publicar este dataset?
Antes de publicar asegúrate de que el dataset incluya un archivo README actualizado. Si no lo tienes, utiliza el botón para añadirlo automáticamente.

Indique si es una actualización de versión mayor o menor.

Revisión menor (1.1)

Revisión mayor (2.0)

Publicar dataset

Este dataset no se puede publicar hasta que Universidad de Alcalá sea publicado por su administrador.

Publicar dataset

Este dataset no se puede publicar hasta que Universidad de Alcalá y e-cienciaDatos sean publicados.

Devolver al autor

Enviar este dataset al colaborador para su modificación. La razón para devolver el fichero se enviará por email al autor.