Spaces:
Running
on
Zero
Running
on
Zero
Update README.md
Browse files
README.md
CHANGED
@@ -12,18 +12,30 @@ short_description: Evaluación, análisis, generación, corrección y adecuació
|
|
12 |
|
13 |
# 💬 LeIA GO: Explorando las variedades del español con NLP
|
14 |
|
15 |
-
|
16 |
|
17 |
-
|
18 |
|
19 |
-
---
|
20 |
|
21 |
### 🚀 Motivación
|
22 |
-
|
23 |
|
24 |
|
25 |
### 🌍 Impacto
|
26 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
27 |
|
28 |
|
29 |
### 🧪 Funcionalidades actuales
|
@@ -35,11 +47,22 @@ Actualmente, la mayoría de los recursos y modelos de NLP están centrados en el
|
|
35 |
### 🎯 Objetivo de desarrollo sostenible (ODS)
|
36 |
Este proyecto contribuye al ODS 4: Educación de Calidad, promoviendo el acceso a recursos lingüísticos diversos que favorezcan la educación y la inclusión cultural a través del lenguaje.
|
37 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
38 |
|
39 |
### 👥 Equipo
|
40 |
- Susana Zhou (Español peninsular)
|
41 |
- Constanza Jeldres (Español de Chile)
|
42 |
-
- Gabriel Schwartzmann (Español de Perú)
|
43 |
|
44 |
### 💻 Datasets y modelos utilizados
|
45 |
- Dataset: [https://huggingface.co/datasets/somosnlp-hackathon-2025/dataset-preferencias-v0]
|
|
|
12 |
|
13 |
# 💬 LeIA GO: Explorando las variedades del español con NLP
|
14 |
|
15 |
+
El proyecto **LeIA GO** surge con la visión de impulsar una inteligencia artificial que refleje la riqueza y diversidad del idioma español en todas sus formas. Aunque el español es una de las lenguas más habladas a nivel global, sus múltiples variantes regionales y culturales no siempre están bien representadas en los modelos de lenguaje actuales, que tienden a centrarse en el inglés o en una versión estándar del español.
|
16 |
|
17 |
+
Buscamos crear una herramienta accesible y práctica que permita explorar y entender las diferentes variedades dialectales del español, desde expresiones coloquiales hasta estructuras gramaticales específicas de distintas regiones. Así, pretendemos democratizar el acceso a recursos lingüísticos avanzados, fomentando el conocimiento, la educación y la preservación cultural en las comunidades hispanohablantes.
|
18 |
|
|
|
19 |
|
20 |
### 🚀 Motivación
|
21 |
+
El proyecto nace con el propósito de analizar y representar las diferencias lingüísticas y culturales entre las distintas variedades del español. Al entender mejor estas variaciones, aspiramos a desarrollar modelos de lenguaje natural que sean más precisos, inclusivos y adaptados a las necesidades reales de los hablantes de español en todas sus formas.
|
22 |
|
23 |
|
24 |
### 🌍 Impacto
|
25 |
+
En la actualidad, gran parte del desarrollo en procesamiento del lenguaje natural está dominado por el inglés, dejando al español y sus múltiples variantes con recursos limitados. **LeIA GO** busca contribuir a cerrar esta brecha, mejorando la calidad y diversidad de los datos disponibles en español. Esto facilitará la creación de tecnologías lingüísticas más justas, inclusivas y efectivas, beneficiando a millones de usuarios en todo el mundo y apoyando la diversidad cultural y lingüística del idioma.
|
26 |
+
|
27 |
+
|
28 |
+
## 🧠 Proceso de entrenamiento y pruebas
|
29 |
+
|
30 |
+
Para el desarrollo de LeIA GO, utilizamos el modelo preentrenado **BSC-LT/salamandra-7b-instruct**, una arquitectura de lenguaje causal basada en 7 mil millones de parámetros especializada en español.
|
31 |
+
|
32 |
+
El entrenamiento y ajuste fino se realizaron usando técnicas de LoRA (Low-Rank Adaptation) mediante la librería `peft`, configurando un `LoraConfig` para adaptar el modelo sin necesidad de reentrenarlo completamente. La librería `transformers` se usó para cargar el modelo y el tokenizador, mientras que `datasets` sirvió para gestionar los datos de entrenamiento.
|
33 |
+
|
34 |
+
Los datos consistieron en **prompts creados manualmente por nuestro equipo**, diseñados para capturar diversidad lingüística y estructural del español.
|
35 |
+
|
36 |
+
El proceso de entrenamiento se ejecutó con `DPOTrainer` y configuración `DPOConfig` de la librería `trl`, optimizando el modelo para mejor desempeño en tareas instructivas. Además, se implementó optimización con `BitsAndBytesConfig` para manejo eficiente de memoria y velocidad.
|
37 |
+
|
38 |
+
Como herramientas de soporte utilizamos `transformers`, `datasets`, `gradio` para la interfaz, y `jupyterlab` para el desarrollo y experimentación.
|
39 |
|
40 |
|
41 |
### 🧪 Funcionalidades actuales
|
|
|
47 |
### 🎯 Objetivo de desarrollo sostenible (ODS)
|
48 |
Este proyecto contribuye al ODS 4: Educación de Calidad, promoviendo el acceso a recursos lingüísticos diversos que favorezcan la educación y la inclusión cultural a través del lenguaje.
|
49 |
|
50 |
+
## 📜 Licencia
|
51 |
+
|
52 |
+
Este proyecto está licenciado bajo la Licencia Apache 2.0, que permite el uso, modificación y distribución libres, garantizando al mismo tiempo protección legal y reconocimiento a los autores. Puedes consultar el texto completo de la licencia en el archivo [LICENSE](./LICENSE).
|
53 |
+
|
54 |
+
## ⚖️ Evaluación de sesgos del modelo
|
55 |
+
|
56 |
+
En **LeIA GO**, somos conscientes de que los modelos de lenguaje pueden reflejar sesgos presentes en los datos de entrenamiento. Para minimizar estos riesgos:
|
57 |
+
|
58 |
+
- Los datos de entrenamiento consistieron en prompts creados manualmente por nuestro equipo, intentando cubrir diversidad lingüística y cultural dentro del español, para evitar la predominancia de un solo dialecto o registro.
|
59 |
+
- Reconocemos que, pese a estas precauciones, el modelo puede reflejar sesgos por la naturaleza limitada y selectiva del dataset.
|
60 |
+
- Estamos abiertos a retroalimentación para identificar y corregir posibles sesgos en futuras iteraciones.
|
61 |
+
- Próximamente planeamos implementar análisis cuantitativos más formales para evaluar sesgos específicos en el modelo.
|
62 |
|
63 |
### 👥 Equipo
|
64 |
- Susana Zhou (Español peninsular)
|
65 |
- Constanza Jeldres (Español de Chile)
|
|
|
66 |
|
67 |
### 💻 Datasets y modelos utilizados
|
68 |
- Dataset: [https://huggingface.co/datasets/somosnlp-hackathon-2025/dataset-preferencias-v0]
|