Spaces:

Hamed744
/

Ttspro

Running

App Files Files Community

Hamed744 commited on May 27

Commit

169ec87

verified ·

1 Parent(s): 59d09f0

Update app.py

Browse files

Files changed (1) hide show

app.py +62 -33

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import os
 import io
 from scipy.io.wavfile import write as write_wav
 import numpy as np
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
 if not GOOGLE_API_KEY:
@@ -14,9 +15,6 @@ genai.configure(api_key=GOOGLE_API_KEY)
 TTS_MODEL_NAME = "gemini-2.5-flash-preview-tts"
-# نام‌های گوینده‌ها باید از مستندات دقیق مدل TTS گرفته شود.
-# این‌ها فقط مثال هستند و ممکن است برای این مدل معتبر نباشند.
-# فعلاً یک لیست ساده با "پیش‌فرض" می‌گذاریم.
 AVAILABLE_VOICES = ["پیش‌فرض (مدل انتخاب کند)"]
 # اگر نام‌های واقعی را پیدا کردید، اینجا اضافه کنید:
 # AVAILABLE_VOICES.extend(["voice-name-1", "voice-name-2"])
@@ -30,26 +28,20 @@ def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل
     try:
         model = genai.GenerativeModel(f"models/{TTS_MODEL_NAME}")
-        # --- اصلاح کلیدی: تنظیم صریح response_modalities ---
         generation_config_params = {
-            "response_modalities": ["AUDIO"] # درخواست صریح خروجی صوتی
         }
-        # اگر کاربر یک گوینده خاص انتخاب کرده (و "پیش‌فرض" نیست)
-        # و ما نام پارامتر صحیح را برای voice در generation_config بدانیم:
         if selected_voice_name != "پیش‌فرض (مدل انتخاب کند)":
-            # نام پارامتر برای voice ممکن است "voice_name", "voice", "speaker" یا چیز دیگری باشد.
-            # این را باید از مستندات TTS API برای این مدل پیدا کنید.
-            # فرض می‌کنیم "voice" است:
-            # generation_config_params["voice"] = selected_voice_name
-            # یا اگر ساختار speech_config مانند Live API است:
             # generation_config_params["speech_config"] = types.SpeechConfig(
             #     voice_config=types.VoiceConfig(
             #         prebuilt_voice_config=types.PrebuiltVoiceConfig(voice_name=selected_voice_name)
             #     )
             # )
-            print(f"توجه: انتخاب گوینده هنوز پیاده‌سازی نشده است. از گوینده پیش‌فرض مدل استفاده می‌شود.")
         generation_config = genai.types.GenerationConfig(**generation_config_params)
@@ -59,21 +51,18 @@ def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل
             text_to_speak,
             generation_config=generation_config
         )
-        # --- پایان اصلاح ---
         audio_bytes = None
         generated_mime_type = None
-        sample_rate = 24000 # پیش‌فرض برای TTS گوگل، از مستندات چک شود
         if hasattr(response, 'candidates') and response.candidates and \
            response.candidates[0].content and response.candidates[0].content.parts:
             for part in response.candidates[0].content.parts:
                 if hasattr(part, 'inline_data') and part.inline_data and \
-                   part.inline_data.mime_type.startswith("audio/"):
                     audio_bytes = part.inline_data.data
                     generated_mime_type = part.inline_data.mime_type
-                    # برخی API ها ممکن است نرخ نمونه‌برداری را در mime_type بفرستند
                     if ";rate=" in generated_mime_type:
                         try:
                             sample_rate = int(generated_mime_type.split(";rate=")[1])
@@ -83,10 +72,10 @@ def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل
                     print(f"داده صوتی با MIME type: {generated_mime_type} دریافت شد.")
                     break
-        if audio_bytes is None: # fallback اگر ساختار بالا نبود
             if hasattr(response, 'audio_content'):
                 audio_bytes = response.audio_content
-                generated_mime_type = "audio/wav" # فرض
                 print("داده ��وتی از فیلد audio_content دریافت شد.")
             else:
                 print("پاسخ کامل مدل (برای دیباگ):", response)
@@ -94,32 +83,66 @@ def generate_audio(text_to_speak, selected_voice_name="پیش‌فرض (مدل
                 raise gr.Error(f"پاسخ صوتی از مدل دریافت نشد. پاسخ مدل: {error_text}")
         output_filename = "output.wav"
-        # فرض می‌کنیم API بایت‌های خام PCM برمی‌گرداند اگر mime_type شامل pcm باشد
-        # یا یک فایل WAV کامل.
         if "pcm" in (generated_mime_type or "").lower():
             print(f"داده PCM خام ({len(audio_bytes)} بایت) با نرخ نمونه‌برداری {sample_rate} Hz دریافت شد، در حال تبدیل به WAV...")
-            audio_np = np.frombuffer(audio_bytes, dtype=np.int16) # فرض بر 16-bit PCM
             wav_io = io.BytesIO()
             write_wav(wav_io, sample_rate, audio_np)
             wav_io.seek(0)
             with open(output_filename, "wb") as f:
                 f.write(wav_io.read())
-        elif audio_bytes: # اگر PCM نیست، فرض می‌کنیم خود فایل صوتی است (مثلاً WAV از API)
              print(f"داده صوتی با فرمت {generated_mime_type} ({len(audio_bytes)} بایت) دریافت شد، مستقیم ذخیره می‌شود.")
              with open(output_filename, "wb") as f:
                 f.write(audio_bytes)
         else:
             raise gr.Error("هیچ داده صوتی برای ذخیره وجود ندارد.")
         print(f"فایل صوتی در {output_filename} ذخیره شد.")
         return output_filename
-    except genai.types.BlockedPromptException as bpe: # ... بدون تغییر ...
-    except Exception as e: # ... بدون تغییر ...
-# ایجاد رابط کاربری Gradio
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# تبدیل متن به صدا ب�� Gemini ♊")
     gr.Markdown("متن خود را وارد کنید تا با استفاده از مدل‌های جدید Gemini به صدا تبدیل شود.")
@@ -127,12 +150,19 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     with gr.Row():
         with gr.Column(scale=2):
             text_input = gr.Textbox(lines=5, label="متن ورودی", placeholder="متن خود را اینجا بنویسید...")
-            # voice_dropdown = gr.Dropdown(choices=AVAILABLE_VOICES, value=AVAILABLE_VOICES[0], label="انتخاب گوینده") # فعال کردن Dropdown
             submit_button = gr.Button("🔊 تبدیل به صدا", variant="primary")
         with gr.Column(scale=1):
             audio_output = gr.Audio(label="خروجی صدا", type="filepath")
-    gr.Examples( /* ... بدون تغییر ... */ )
     submit_button.click(
         fn=generate_audio,
@@ -146,6 +176,5 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown(f"مدل مورد استفاده: `models/{TTS_MODEL_NAME}`")
     gr.Markdown("توجه: برای انتخاب گوینده‌های مختلف، نیاز به بررسی مستندات دقیق مدل TTS و بروزرسانی کد است.")
 if __name__ == "__main__":
-    demo.launch(debug=True)

 import io
 from scipy.io.wavfile import write as write_wav
 import numpy as np
+import traceback # برای چاپ کامل خطا
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
 if not GOOGLE_API_KEY:
 TTS_MODEL_NAME = "gemini-2.5-flash-preview-tts"
 AVAILABLE_VOICES = ["پیش‌فرض (مدل انتخاب کند)"]
 # اگر نام‌های واقعی را پیدا کردید، اینجا اضافه کنید:
 # AVAILABLE_VOICES.extend(["voice-name-1", "voice-name-2"])
     try:
         model = genai.GenerativeModel(f"models/{TTS_MODEL_NAME}")
         generation_config_params = {
+            "response_modalities": ["AUDIO"]
         }
+        # برای انتخاب گوینده، این بخش نیاز به اطلاعات از مستندات دارد
         if selected_voice_name != "پیش‌فرض (مدل انتخاب کند)":
+            # مثال: generation_config_params["voice"] = selected_voice_name
+            # یا اگر ساختار speech_config لازم است:
             # generation_config_params["speech_config"] = types.SpeechConfig(
             #     voice_config=types.VoiceConfig(
             #         prebuilt_voice_config=types.PrebuiltVoiceConfig(voice_name=selected_voice_name)
             #     )
             # )
+            print(f"توجه: انتخاب گوینده ('{selected_voice_name}') هنوز به طور کامل پیاده‌سازی نشده است. از تنظیمات پیش‌فرض مدل برای گوینده استفاده می‌شود.")
         generation_config = genai.types.GenerationConfig(**generation_config_params)
             text_to_speak,
             generation_config=generation_config
         )
         audio_bytes = None
         generated_mime_type = None
+        sample_rate = 24000 # پیش‌فرض، از مستندات چک شود
         if hasattr(response, 'candidates') and response.candidates and \
            response.candidates[0].content and response.candidates[0].content.parts:
             for part in response.candidates[0].content.parts:
                 if hasattr(part, 'inline_data') and part.inline_data and \
+                   hasattr(part.inline_data, 'mime_type') and part.inline_data.mime_type.startswith("audio/"):
                     audio_bytes = part.inline_data.data
                     generated_mime_type = part.inline_data.mime_type
                     if ";rate=" in generated_mime_type:
                         try:
                             sample_rate = int(generated_mime_type.split(";rate=")[1])
                     print(f"داده صوتی با MIME type: {generated_mime_type} دریافت شد.")
                     break
+        if audio_bytes is None:
             if hasattr(response, 'audio_content'):
                 audio_bytes = response.audio_content
+                generated_mime_type = "audio/wav"
                 print("داده ��وتی از فیلد audio_content دریافت شد.")
             else:
                 print("پاسخ کامل مدل (برای دیباگ):", response)
                 raise gr.Error(f"پاسخ صوتی از مدل دریافت نشد. پاسخ مدل: {error_text}")
         output_filename = "output.wav"
         if "pcm" in (generated_mime_type or "").lower():
             print(f"داده PCM خام ({len(audio_bytes)} بایت) با نرخ نمونه‌برداری {sample_rate} Hz دریافت شد، در حال تبدیل به WAV...")
+            audio_np = np.frombuffer(audio_bytes, dtype=np.int16)
             wav_io = io.BytesIO()
             write_wav(wav_io, sample_rate, audio_np)
             wav_io.seek(0)
             with open(output_filename, "wb") as f:
                 f.write(wav_io.read())
+        elif audio_bytes:
              print(f"داده صوتی با فرمت {generated_mime_type} ({len(audio_bytes)} بایت) دریافت شد، مستقیم ذخیره می‌شود.")
              with open(output_filename, "wb") as f:
                 f.write(audio_bytes)
         else:
             raise gr.Error("هیچ داده صوتی برای ذخیره وجود ندارد.")
         print(f"فایل صوتی در {output_filename} ذخیره شد.")
         return output_filename
+    except genai.types.BlockedPromptException as bpe:
+        print(f"درخواست توسط مدل بلاک شد: {bpe}")
+        raise gr.Error(f"محتوای شما توسط مدل پذیرفته نشد. لطفاً متن دیگری را امتحان کنید. دلیل: {bpe}")
+    except Exception as e: # این بلوک except باید دارای بدنه با تورفتگی باشد
+        print(f"خطای کلی در تولید صدا: {e}")
+        traceback.print_exc() # چاپ کامل traceback برای دیباگ
+        error_message_from_api = ""
+        # تلاش برای استخراج پیام خطای دقیق‌تر از آبجکت خطای google-generativeai
+        if hasattr(e, 'args') and e.args:
+            # خطاهای API گوگل معمولاً جزئیات را در e.args[0] یا یک ساختار پیچیده‌تر دارند
+            # برای خطای 400 که قبلاً دیدیم، پیام در e.args[0] بود.
+            if isinstance(e.args[0], str) and "HttpError" in e.args[0]:
+                try:
+                    # پیام خطا ممکن است شامل یک رشته JSON باشد
+                    msg_str = str(e.args[0])
+                    # استخراج بخش JSON مانند قبل
+                    details_start = msg_str.find('{')
+                    if details_start != -1:
+                        error_details_json = msg_str[details_start:]
+                        # حذف کاراکترهای کنترلی احتمالی و تلاش برای parse
+                        cleaned_json_str = ''.join(c for c in error_details_json if ord(c) >= 32 or c in ('\t', '\n', '\r'))
+                        error_obj = json.loads(cleaned_json_str)
+                        if 'error' in error_obj and 'message' in error_obj['error']:
+                            error_message_from_api = error_obj['error']['message']
+                        elif 'message' in error_obj: # گاهی اوقات پیام مستقیم در آبجکت خطا است
+                            error_message_from_api = error_obj['message']
+                except Exception as json_e:
+                    print(f"خطا در parse کردن جزئیات خطای API: {json_e}")
+                    error_message_from_api = str(e.args[0]) # اگر parse نشد، خود پیام اصلی را بگیر
+            else:
+                 error_message_from_api = str(e.args[0])
+        final_error_message = f"خطا در ارتباط با Gemini API یا پردازش صدا: {str(e)}"
+        if error_message_from_api and error_message_from_api not in final_error_message:
+            final_error_message += f" | پیام دقیق‌تر API: {error_message_from_api}"
+        elif not error_message_from_api and hasattr(e, 'message') and isinstance(e.message, str): # fallback
+             final_error_message += f" | {e.message}"
+        raise gr.Error(final_error_message)
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# تبدیل متن به صدا ب�� Gemini ♊")
     gr.Markdown("متن خود را وارد کنید تا با استفاده از مدل‌های جدید Gemini به صدا تبدیل شود.")
     with gr.Row():
         with gr.Column(scale=2):
             text_input = gr.Textbox(lines=5, label="متن ورودی", placeholder="متن خود را اینجا بنویسید...")
+            # voice_dropdown = gr.Dropdown(choices=AVAILABLE_VOICES, value=AVAILABLE_VOICES[0], label="انتخاب گوینده") # در آینده فعال شود
             submit_button = gr.Button("🔊 تبدیل به صدا", variant="primary")
         with gr.Column(scale=1):
             audio_output = gr.Audio(label="خروجی صدا", type="filepath")
+    gr.Examples(
+        examples=[
+            ["سلام، حال شما چطور است؟"],
+            ["به دنیای هوش مصنوعی خوش آمدید."],
+            ["این یک تست برای تبدیل متن به صدا با استفاده از جیمینای است."]
+        ],
+        inputs=[text_input]
+    )
     submit_button.click(
         fn=generate_audio,
     gr.Markdown(f"مدل مورد استفاده: `models/{TTS_MODEL_NAME}`")
     gr.Markdown("توجه: برای انتخاب گوینده‌های مختلف، نیاز به بررسی مستندات دقیق مدل TTS و بروزرسانی کد است.")
 if __name__ == "__main__":
+    demo.launch(debug=True) # debug=True برای دیدن لاگ‌های دقیق‌تر در کنسول هاگینگ فیس