Este proyecto se trata de un TFM enmarcado en las prácticas del alumno Yanco Amor Torterolo Orta en el LLI-UAM. Pertenece al proyecto CLARA-FINT, que se centra en el lenguaje claro. Más específicamente, se exploran diversas técnicas de simplificación en el ámbito financiero. Esto está motivado por la complejidad de la realidad financiera y la carga semántica especializada de sus texto. Por tanto, se antoja necesario simplificar para poder difundir el mensaje a un público más amplio.
SIMFIN es un programa que pretende cumplir esta finalidad mediante la simplificación léxica de los términos (referidos como "unidades terminológicas", "UT") del ámbito financiero. Consiste en una página web de acceso al público (http://leptis.lllf.uam.es/simfin) en la que el usuario introduce su texto financiero/económico. Tras ello, el programa le devuelve el mismo texto pero etiquetado con colores para destacar las UT. Algunas de las UT ofrecen en una ventana pop-up su versión simplificada al pinchar con el ratón sobre ellas (azul oscuro), lo cual ocurre cuando la sustitución es multipalabra; y otras muestran la UT por el que ha sido sustituido directamente (verde), lo cual ocurre cuando la sustitución directa es viable debido a que solo están formadas por una palabra. Adicionalmente, destaca en amarillo tanto las UT de las listas (que aún no tienen sustitución) como posibles UT debido a su estructura, y en azul turquesa los anglicismos y palabras inglesas. El programa cuenta con una leyenda y un texto de prueba a modo explicativo para entenderlo todo con un ejemplo práctico.
El dataset:
Por un lado, está la carpeta con todos los archivos y estructura necesarios para hacer funcionar el programa. Cuenta con los siguientes archivos: app.py, es_dicc.db, static/icons/*.png, ut_detect.txt, en_dicc.db, sample.txt, templates/index.html, ut_sust.csv.
Es un programa mayormente escrito en Python, pero tiene elementos de HTML y CSS, que interactúan con Python gracias a la biblioteca Flask. No obstante, los archivos ut_detect.txt y ut_sust.csv no se adjuntan en esta publicación debido a que pertenecen a otra publicación. El primero es la lista de UT que se tienen que detectar y el segundo es la lista de UT que se tienen que simplificar.
Por otro lado, se proporciona acceso al TFM que describe la creación del programa.