susanazhou commited on
Commit
f1aad0a
·
verified ·
1 Parent(s): 14bdb7b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +29 -6
README.md CHANGED
@@ -12,18 +12,30 @@ short_description: Evaluación, análisis, generación, corrección y adecuació
12
 
13
  # 💬 LeIA GO: Explorando las variedades del español con NLP
14
 
15
- ¿Sabías que más casi todos los modelos de NLP están entrenados principalmente en inglés? Mientras tanto, el español —hablado por más de 500 millones de personas— sigue estando subrepresentado, especialmente en sus variedades regionales.
16
 
17
- **LeIA GO** nace para abordar este problema: un asistente lingüístico que analiza, genera, corrige y adapta textos teniendo en cuenta diferencias culturales y lingüísticas de distintas variedades del español.
18
 
19
- ---
20
 
21
  ### 🚀 Motivación
22
- Nuestro proyecto nace con el objetivo de estudiar las diferencias lingüísticas entre las distintas variedades del español y sus normas culturales asociadas. Buscamos comprender mejor cómo varía el idioma en diferentes regiones para mejorar el procesamiento del lenguaje natural en español.
23
 
24
 
25
  ### 🌍 Impacto
26
- Actualmente, la mayoría de los recursos y modelos de NLP están centrados en el inglés, mientras que el español, especialmente en sus múltiples variedades, cuenta con menos datos y herramientas de calidad. Nuestro proyecto pretende contribuir a mejorar la calidad y diversidad de los datos disponibles en español, facilitando el desarrollo de tecnologías más inclusivas y precisas para esta lengua.
 
 
 
 
 
 
 
 
 
 
 
 
 
27
 
28
 
29
  ### 🧪 Funcionalidades actuales
@@ -35,11 +47,22 @@ Actualmente, la mayoría de los recursos y modelos de NLP están centrados en el
35
  ### 🎯 Objetivo de desarrollo sostenible (ODS)
36
  Este proyecto contribuye al ODS 4: Educación de Calidad, promoviendo el acceso a recursos lingüísticos diversos que favorezcan la educación y la inclusión cultural a través del lenguaje.
37
 
 
 
 
 
 
 
 
 
 
 
 
 
38
 
39
  ### 👥 Equipo
40
  - Susana Zhou (Español peninsular)
41
  - Constanza Jeldres (Español de Chile)
42
- - Gabriel Schwartzmann (Español de Perú)
43
 
44
  ### 💻 Datasets y modelos utilizados
45
  - Dataset: [https://huggingface.co/datasets/somosnlp-hackathon-2025/dataset-preferencias-v0]
 
12
 
13
  # 💬 LeIA GO: Explorando las variedades del español con NLP
14
 
15
+ El proyecto **LeIA GO** surge con la visión de impulsar una inteligencia artificial que refleje la riqueza y diversidad del idioma español en todas sus formas. Aunque el español es una de las lenguas más habladas a nivel global, sus múltiples variantes regionales y culturales no siempre están bien representadas en los modelos de lenguaje actuales, que tienden a centrarse en el inglés o en una versión estándar del español.
16
 
17
+ Buscamos crear una herramienta accesible y práctica que permita explorar y entender las diferentes variedades dialectales del español, desde expresiones coloquiales hasta estructuras gramaticales específicas de distintas regiones. Así, pretendemos democratizar el acceso a recursos lingüísticos avanzados, fomentando el conocimiento, la educación y la preservación cultural en las comunidades hispanohablantes.
18
 
 
19
 
20
  ### 🚀 Motivación
21
+ El proyecto nace con el propósito de analizar y representar las diferencias lingüísticas y culturales entre las distintas variedades del español. Al entender mejor estas variaciones, aspiramos a desarrollar modelos de lenguaje natural que sean más precisos, inclusivos y adaptados a las necesidades reales de los hablantes de español en todas sus formas.
22
 
23
 
24
  ### 🌍 Impacto
25
+ En la actualidad, gran parte del desarrollo en procesamiento del lenguaje natural está dominado por el inglés, dejando al español y sus múltiples variantes con recursos limitados. **LeIA GO** busca contribuir a cerrar esta brecha, mejorando la calidad y diversidad de los datos disponibles en español. Esto facilitará la creación de tecnologías lingüísticas más justas, inclusivas y efectivas, beneficiando a millones de usuarios en todo el mundo y apoyando la diversidad cultural y lingüística del idioma.
26
+
27
+
28
+ ## 🧠 Proceso de entrenamiento y pruebas
29
+
30
+ Para el desarrollo de LeIA GO, utilizamos el modelo preentrenado **BSC-LT/salamandra-7b-instruct**, una arquitectura de lenguaje causal basada en 7 mil millones de parámetros especializada en español.
31
+
32
+ El entrenamiento y ajuste fino se realizaron usando técnicas de LoRA (Low-Rank Adaptation) mediante la librería `peft`, configurando un `LoraConfig` para adaptar el modelo sin necesidad de reentrenarlo completamente. La librería `transformers` se usó para cargar el modelo y el tokenizador, mientras que `datasets` sirvió para gestionar los datos de entrenamiento.
33
+
34
+ Los datos consistieron en **prompts creados manualmente por nuestro equipo**, diseñados para capturar diversidad lingüística y estructural del español.
35
+
36
+ El proceso de entrenamiento se ejecutó con `DPOTrainer` y configuración `DPOConfig` de la librería `trl`, optimizando el modelo para mejor desempeño en tareas instructivas. Además, se implementó optimización con `BitsAndBytesConfig` para manejo eficiente de memoria y velocidad.
37
+
38
+ Como herramientas de soporte utilizamos `transformers`, `datasets`, `gradio` para la interfaz, y `jupyterlab` para el desarrollo y experimentación.
39
 
40
 
41
  ### 🧪 Funcionalidades actuales
 
47
  ### 🎯 Objetivo de desarrollo sostenible (ODS)
48
  Este proyecto contribuye al ODS 4: Educación de Calidad, promoviendo el acceso a recursos lingüísticos diversos que favorezcan la educación y la inclusión cultural a través del lenguaje.
49
 
50
+ ## 📜 Licencia
51
+
52
+ Este proyecto está licenciado bajo la Licencia Apache 2.0, que permite el uso, modificación y distribución libres, garantizando al mismo tiempo protección legal y reconocimiento a los autores. Puedes consultar el texto completo de la licencia en el archivo [LICENSE](./LICENSE).
53
+
54
+ ## ⚖️ Evaluación de sesgos del modelo
55
+
56
+ En **LeIA GO**, somos conscientes de que los modelos de lenguaje pueden reflejar sesgos presentes en los datos de entrenamiento. Para minimizar estos riesgos:
57
+
58
+ - Los datos de entrenamiento consistieron en prompts creados manualmente por nuestro equipo, intentando cubrir diversidad lingüística y cultural dentro del español, para evitar la predominancia de un solo dialecto o registro.
59
+ - Reconocemos que, pese a estas precauciones, el modelo puede reflejar sesgos por la naturaleza limitada y selectiva del dataset.
60
+ - Estamos abiertos a retroalimentación para identificar y corregir posibles sesgos en futuras iteraciones.
61
+ - Próximamente planeamos implementar análisis cuantitativos más formales para evaluar sesgos específicos en el modelo.
62
 
63
  ### 👥 Equipo
64
  - Susana Zhou (Español peninsular)
65
  - Constanza Jeldres (Español de Chile)
 
66
 
67
  ### 💻 Datasets y modelos utilizados
68
  - Dataset: [https://huggingface.co/datasets/somosnlp-hackathon-2025/dataset-preferencias-v0]