susanazhou commited on
Commit
7c8ecc7
·
verified ·
1 Parent(s): f1aad0a

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +42 -11
app.py CHANGED
@@ -41,32 +41,63 @@ def respond(message, history, system_message, max_tokens, temperature, top_p):
41
 
42
  # Descripción del proyecto
43
  descripcion = """
 
44
  # 💬 LeIA GO: Explorando las variedades del español con NLP
45
 
46
- ¿Sabías que casi todos los modelos de NLP están entrenados principalmente en inglés? Mientras tanto, el español —hablado por más de 500 millones de personas— sigue estando subrepresentado, especialmente en sus variedades regionales.
47
- *LeIA GO* nace para abordar este problema: un asistente lingüístico que analiza, genera, corrige y adapta textos teniendo en cuenta diferencias culturales y lingüísticas de distintas variedades del español.
 
48
 
49
- ---
50
 
51
  ### 🚀 Motivación
52
- Nuestro proyecto nace con el objetivo de estudiar las diferencias lingüísticas entre las distintas variedades del español y sus normas culturales asociadas. Buscamos comprender mejor cómo varía el idioma en diferentes regiones para mejorar el procesamiento del lenguaje natural en español.
 
53
 
54
  ### 🌍 Impacto
55
- Actualmente, la mayoría de los recursos y modelos de NLP están centrados en el inglés, mientras que el español, especialmente en sus múltiples variedades, cuenta con menos datos y herramientas de calidad. Nuestro proyecto pretende contribuir a mejorar la calidad y diversidad de los datos disponibles en español, facilitando el desarrollo de tecnologías más inclusivas y precisas para esta lengua.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
56
 
57
  ### 🧪 Funcionalidades actuales
58
- - Corrección y evaluación de textos según variedad lingüística
59
- - Generación y análisis con enfoque cultural
60
- - Adaptación del lenguaje a contextos regionales
61
  - Demo interactiva con Gradio
62
 
63
  ### 🎯 Objetivo de desarrollo sostenible (ODS)
64
  Este proyecto contribuye al ODS 4: Educación de Calidad, promoviendo el acceso a recursos lingüísticos diversos que favorezcan la educación y la inclusión cultural a través del lenguaje.
65
 
 
 
 
 
 
 
 
 
 
 
 
 
 
66
  ### 👥 Equipo
67
- Susana Zhou (Español peninsular)
68
- Constanza Jeldres (Español de Chile)
69
- – ⁠Gabriel Schwartzmann (Español de Perú)
 
 
70
  """
71
 
72
  # Interfaz Gradio
 
41
 
42
  # Descripción del proyecto
43
  descripcion = """
44
+
45
  # 💬 LeIA GO: Explorando las variedades del español con NLP
46
 
47
+ El proyecto **LeIA GO** surge con la visión de impulsar una inteligencia artificial que refleje la riqueza y diversidad del idioma español en todas sus formas. Aunque el español es una de las lenguas más habladas a nivel global, sus múltiples variantes regionales y culturales no siempre están bien representadas en los modelos de lenguaje actuales, que tienden a centrarse en el inglés o en una versión estándar del español.
48
+
49
+ Buscamos crear una herramienta accesible y práctica que permita explorar y entender las diferentes variedades dialectales del español, desde expresiones coloquiales hasta estructuras gramaticales específicas de distintas regiones. Así, pretendemos democratizar el acceso a recursos lingüísticos avanzados, fomentando el conocimiento, la educación y la preservación cultural en las comunidades hispanohablantes.
50
 
 
51
 
52
  ### 🚀 Motivación
53
+ El proyecto nace con el propósito de analizar y representar las diferencias lingüísticas y culturales entre las distintas variedades del español. Al entender mejor estas variaciones, aspiramos a desarrollar modelos de lenguaje natural que sean más precisos, inclusivos y adaptados a las necesidades reales de los hablantes de español en todas sus formas.
54
+
55
 
56
  ### 🌍 Impacto
57
+ En la actualidad, gran parte del desarrollo en procesamiento del lenguaje natural está dominado por el inglés, dejando al español y sus múltiples variantes con recursos limitados. **LeIA GO** busca contribuir a cerrar esta brecha, mejorando la calidad y diversidad de los datos disponibles en español. Esto facilitará la creación de tecnologías lingüísticas más justas, inclusivas y efectivas, beneficiando a millones de usuarios en todo el mundo y apoyando la diversidad cultural y lingüística del idioma.
58
+
59
+
60
+ ## 🧠 Proceso de entrenamiento y pruebas
61
+
62
+ Para el desarrollo de LeIA GO, utilizamos el modelo preentrenado **BSC-LT/salamandra-7b-instruct**, una arquitectura de lenguaje causal basada en 7 mil millones de parámetros especializada en español.
63
+
64
+ El entrenamiento y ajuste fino se realizaron usando técnicas de LoRA (Low-Rank Adaptation) mediante la librería `peft`, configurando un `LoraConfig` para adaptar el modelo sin necesidad de reentrenarlo completamente. La librería `transformers` se usó para cargar el modelo y el tokenizador, mientras que `datasets` sirvió para gestionar los datos de entrenamiento.
65
+
66
+ Los datos consistieron en **prompts creados manualmente por nuestro equipo**, diseñados para capturar diversidad lingüística y estructural del español.
67
+
68
+ El proceso de entrenamiento se ejecutó con `DPOTrainer` y configuración `DPOConfig` de la librería `trl`, optimizando el modelo para mejor desempeño en tareas instructivas. Además, se implementó optimización con `BitsAndBytesConfig` para manejo eficiente de memoria y velocidad.
69
+
70
+ Como herramientas de soporte utilizamos `transformers`, `datasets`, `gradio` para la interfaz, y `jupyterlab` para el desarrollo y experimentación.
71
+
72
 
73
  ### 🧪 Funcionalidades actuales
74
+ - Evaluación y corrección de textos
75
+ - Análisis lingüístico con enfoque cultural
76
+ - Adaptación del lenguaje a regiones
77
  - Demo interactiva con Gradio
78
 
79
  ### 🎯 Objetivo de desarrollo sostenible (ODS)
80
  Este proyecto contribuye al ODS 4: Educación de Calidad, promoviendo el acceso a recursos lingüísticos diversos que favorezcan la educación y la inclusión cultural a través del lenguaje.
81
 
82
+ ## 📜 Licencia
83
+
84
+ Este proyecto está licenciado bajo la Licencia Apache 2.0, que permite el uso, modificación y distribución libres, garantizando al mismo tiempo protección legal y reconocimiento a los autores. Puedes consultar el texto completo de la licencia en el archivo [LICENSE](./LICENSE).
85
+
86
+ ## ⚖️ Evaluación de sesgos del modelo
87
+
88
+ En **LeIA GO**, somos conscientes de que los modelos de lenguaje pueden reflejar sesgos presentes en los datos de entrenamiento. Para minimizar estos riesgos:
89
+
90
+ - Los datos de entrenamiento consistieron en prompts creados manualmente por nuestro equipo, intentando cubrir diversidad lingüística y cultural dentro del español, para evitar la predominancia de un solo dialecto o registro.
91
+ - Reconocemos que, pese a estas precauciones, el modelo puede reflejar sesgos por la naturaleza limitada y selectiva del dataset.
92
+ - Estamos abiertos a retroalimentación para identificar y corregir posibles sesgos en futuras iteraciones.
93
+ - Próximamente planeamos implementar análisis cuantitativos más formales para evaluar sesgos específicos en el modelo.
94
+
95
  ### 👥 Equipo
96
+ - Susana Zhou (Español peninsular)
97
+ - Constanza Jeldres (Español de Chile)
98
+
99
+ ### 💻 Datasets y modelos utilizados
100
+ - Dataset: [https://huggingface.co/datasets/somosnlp-hackathon-2025/dataset-preferencias-v0]
101
  """
102
 
103
  # Interfaz Gradio