Spaces:

Hamed744
/

Ttspro

Running

App Files Files Community

Hamed744 commited on Jun 5

Commit

b914b1f

verified ·

1 Parent(s): 6381681

Update app.py

Browse files

Files changed (1) hide show

app.py +95 -154

app.py CHANGED Viewed

@@ -31,7 +31,7 @@ OUTPUT_DIR = "generated_audio"
 if not os.path.exists(OUTPUT_DIR):
     os.makedirs(OUTPUT_DIR)
-# --- Helper functions (unchanged from previous correct version) ---
 def log_message(msg, current_logs):
     print(msg)
     return f"{current_logs}\n{msg}".strip()
@@ -39,8 +39,7 @@ def log_message(msg, current_logs):
 def save_binary_file(file_name, data, log_func, current_logs):
     full_path = os.path.join(OUTPUT_DIR, file_name)
     try:
-        with open(full_path, "wb") as f:
-            f.write(data)
         current_logs = log_func(f"✅ فایل در مسیر زیر ذخیره شد: {full_path}", current_logs)
         return full_path, current_logs
     except Exception as e:
@@ -49,10 +48,8 @@ def save_binary_file(file_name, data, log_func, current_logs):
 def convert_to_wav(audio_data: bytes, mime_type: str) -> bytes:
     parameters = parse_audio_mime_type(mime_type)
-    bits_per_sample = parameters["bits_per_sample"]
-    sample_rate = parameters["rate"]
-    num_channels = 1
-    data_size = len(audio_data)
     bytes_per_sample = bits_per_sample // 8
     block_align = num_channels * bytes_per_sample
     byte_rate = sample_rate * block_align
@@ -61,9 +58,8 @@ def convert_to_wav(audio_data: bytes, mime_type: str) -> bytes:
     return header + audio_data
 def parse_audio_mime_type(mime_type: str) -> dict[str, int | None]:
-    bits_per_sample = 16; rate = 24000
-    parts = mime_type.split(";")
-    for param in parts:
         param = param.strip()
         if param.lower().startswith("rate="):
             try: rate = int(param.split("=", 1)[1])
@@ -74,29 +70,24 @@ def parse_audio_mime_type(mime_type: str) -> dict[str, int | None]:
     return {"bits_per_sample": bits_per_sample, "rate": rate}
 def load_text_from_file(file_obj, log_func, current_logs):
-    if file_obj is None:
-        current_logs = log_func("❌ هیچ فایلی آپلود نشد.", current_logs)
-        return "", current_logs
     file_path = file_obj.name
-    current_logs = log_func(f"✅ فایل '{os.path.basename(file_path)}' با موفقیت دریافت شد.", current_logs)
     try:
         with open(file_path, 'r', encoding='utf-8') as f: content = f.read().strip()
-        current_logs = log_func(f"📖 متن بارگذاری شده: {len(content)} کاراکتر", current_logs)
-        current_logs = log_func(f"📝 نمونه متن: '{content[:100]}{'...' if len(content) > 100 else ''}'", current_logs)
         return content, current_logs
-    except Exception as e:
-        current_logs = log_func(f"❌ خطا در خواندن فایل: {e}", current_logs)
-        return "", current_logs
 def smart_text_split(text, max_size=3800):
     if len(text) <= max_size: return [text]
-    chunks = []; current_chunk = ""
     sentences = re.split(r'(?<=[.!?؟۔])\s+', text)
     for sentence in sentences:
         if len(current_chunk) + len(sentence) + 1 > max_size:
             if current_chunk: chunks.append(current_chunk.strip())
             if len(sentence) > max_size:
-                words = sentence.split(); temp_word_chunk = ""
                 for word in words:
                     if len(temp_word_chunk) + len(word) + 1 > max_size:
                         if temp_word_chunk: chunks.append(temp_word_chunk.strip())
@@ -113,33 +104,26 @@ def smart_text_split(text, max_size=3800):
     return [c for c in chunks if c]
 def merge_audio_files_func(file_paths, output_filename, log_func, current_logs):
-    if not PYDUB_AVAILABLE:
-        current_logs = log_func("❌ pydub در دسترس نیست. نمی‌توان فایل‌ها را ادغام کرد.", current_logs)
-        return None, current_logs
     output_path = os.path.join(OUTPUT_DIR, output_filename)
     try:
-        current_logs = log_func(f"🔗 در حال ادغام {len(file_paths)} فایل صوتی...", current_logs)
         combined = AudioSegment.empty()
         for i, file_path in enumerate(file_paths):
             if os.path.exists(file_path):
-                current_logs = log_func(f"📎 اضافه کردن فایل {i+1}: {file_path}", current_logs)
                 try:
                     audio = AudioSegment.from_file(file_path)
                     combined += audio
                     if i < len(file_paths) - 1: combined += AudioSegment.silent(duration=500)
                 except Exception as e_pydub:
-                    current_logs = log_func(f"⚠️ خطا در خواندن فایل صوتی {file_path} با pydub: {e_pydub}. از این فایل صرف نظر شد.", current_logs)
                     continue
-            else: current_logs = log_func(f"⚠️ فایل پیدا نشد: {file_path}", current_logs)
-        if not combined:
-            current_logs = log_func("❌ هیچ فایل صوتی معتبری برای ادغام یافت نشد.", current_logs)
-            return None, current_logs
         combined.export(output_path, format="wav")
-        current_logs = log_func(f"✅ فایل ادغام شده ذخیره شد: {output_path}", current_logs)
-        return output_path, current_logs
-    except Exception as e:
-        current_logs = log_func(f"❌ خطا در ادغام فایل‌ها: {e}", current_logs)
-        return None, current_logs
 def create_zip_file(file_paths, zip_name_base, log_func, current_logs):
     zip_filename = os.path.join(OUTPUT_DIR, f"{zip_name_base}.zip")
@@ -147,89 +131,64 @@ def create_zip_file(file_paths, zip_name_base, log_func, current_logs):
         with zipfile.ZipFile(zip_filename, 'w') as zipf:
             for file_path in file_paths:
                 if os.path.exists(file_path): zipf.write(file_path, os.path.basename(file_path))
-        current_logs = log_func(f"📦 فایل ZIP ایجاد شد: {zip_filename}", current_logs)
-        return zip_filename, current_logs
-    except Exception as e:
-        current_logs = log_func(f"❌ خطا در ایجاد فایل ZIP: {e}", current_logs)
-        return None, current_logs
-# --- Main generation function for Gradio ---
 def generate_audio_from_text_gradio(
-    api_key_hf_secret,
-    input_method,
-    text_to_speak_ui,
-    uploaded_file_ui,
-    speech_prompt_ui,
-    model_name_ui,
-    speaker_voice_ui,
-    temperature_ui,
-    max_chunk_size_ui,
-    sleep_between_requests_ui,
-    output_filename_base_ui,
-    merge_audio_files_ui,
-    delete_partial_files_ui
 ):
     logs = "⏳ شروع فرآیند..."
     if not api_key_hf_secret:
-        logs = log_message("❌ کلید API جمینای (GEMINI_API_KEY) در Secrets این اسپیس تنظیم نشده است. لطفاً آن را اضافه کنید.", logs)
-        return logs, None, None, gr.update(visible=False)
-    # Set API key in environment for genai.Client() to pick up
     os.environ["GEMINI_API_KEY"] = api_key_hf_secret
-    logs = log_message("🔑 کلید API از Hugging Face Secrets بارگذاری و در متغیر محیطی تنظیم شد.", logs)
     client = None
     try:
-        logs = log_message("🛠️ در حال ایجاد کلاینت جمینای با `genai.Client()`...", logs)
-        client = genai.Client(api_key=api_key_hf_secret) # Explicitly pass API key
-        logs = log_message("✅ کلاینت جمینای با موفقیت ایجاد شد.", logs)
     except Exception as e:
-        logs = log_message(f"❌ خطا در ایجاد کلاینت جمینای: {type(e).__name__} - {e}", logs)
-        logs = log_message("   ممکن است نیاز به تنظیم نسخه کتابخانه `google-genai` در `requirements.txt` باشد.", logs)
-        return logs, None, None, gr.update(visible=False)
     text_input_content = ""
     if input_method == "آپلود فایل":
-        if uploaded_file_ui is None:
-            logs = log_message("❌ حالت آپلود فایل انتخاب شده اما فایلی آپلود نشده است.", logs)
-            return logs, None, None, gr.update(visible=False)
         text_input_content, logs = load_text_from_file(uploaded_file_ui, log_message, logs)
-        if not text_input_content:
-            return logs, None, None, gr.update(visible=False)
     else:
         text_input_content = text_to_speak_ui
-    if not text_input_content or text_input_content.strip() == "":
-        logs = log_message("❌ خطا: متن ورودی برای تبدیل به گفتار خالی است.", logs)
-        return logs, None, None, gr.update(visible=False)
     text_chunks = smart_text_split(text_input_content, max_chunk_size_ui)
     logs = log_message(f"📊 متن به {len(text_chunks)} قطعه تقسیم شد.", logs)
-    for i, chunk in enumerate(text_chunks):
-        logs = log_message(f"📝 قطعه {i+1}: {len(chunk)} کاراکتر", logs)
     generated_files = []
-    for i, chunk in enumerate(text_chunks):
-        logs = log_message(f"\n🔊 تولید صدا برای قطعه {i+1}/{len(text_chunks)}...", logs)
-        final_text_for_api = f'"{speech_prompt_ui}"\n{chunk}' if speech_prompt_ui and speech_prompt_ui.strip() else chunk
-        # Using the structure from Colab for `client.models.generate_content_stream`
         api_contents = [
-            genai_types.Content( # Use the aliased import
                 role="user",
-                parts=[
-                    genai_types.Part.from_text(text=final_text_for_api),
-                ],
             ),
         ]
         genai_speech_config = genai_types.SpeechConfig(
             voice_config=genai_types.VoiceConfig(
-                prebuilt_voice_config=genai_types.PrebuiltVoiceConfig(
-                    voice_name=speaker_voice_ui
-                )
             )
         )
@@ -241,59 +200,41 @@ def generate_audio_from_text_gradio(
         try:
             if not hasattr(client, 'models') or not hasattr(client.models, 'generate_content_stream'): # type: ignore
-                logs = log_message(f"❌ کلاینت (`{type(client)}`) متد `models.generate_content_stream` را ندارد.", logs)
-                logs = log_message("   این روش برای مدل‌های preview-tts در Colab استفاده شده بود. ممکن است نسخه کتابخانه متفاوت باشد.", logs)
-                # As a last resort, try to see if the client itself has generate_content (unlikely for this path)
-                if hasattr(client, 'generate_content_stream'):
-                     logs = log_message("   تلاش برای استفاده از `client.generate_content_stream`...", logs)
-                     # This would need a different config structure, might fail.
-                     # This part is highly speculative.
-                     stream_iterator = client.generate_content_stream( # type: ignore
-                         model=model_name_ui,
-                         contents=api_contents,
-                         generation_config=stream_generation_config # Older API might use 'config'
-                     )
-                else:
-                    logs = log_message("   هیچ روش شناخته شده‌ای برای تولید محتوای استریم با این کلاینت یافت نشد.", logs)
-                    continue # Skip to next chunk
-            else:
-                # This is the path that matches the Colab notebook structure
-                stream_iterator = client.models.generate_content_stream( # type: ignore
-                    model=model_name_ui,
-                    contents=api_contents,
-                    config=stream_generation_config, # `config` was used in Colab's `generate_content_stream`
-                )
             chunk_filename_base = f"{output_filename_base_ui}_part_{i+1:03d}"
-            audio_data_buffer = b""
-            mime_type_from_api = "audio/wav"
             for chunk_response in stream_iterator:
-                if (
-                    chunk_response.candidates
-                    and chunk_response.candidates[0].content
-                    and chunk_response.candidates[0].content.parts
-                    and chunk_response.candidates[0].content.parts[0].inline_data
-                ):
                     inline_data = chunk_response.candidates[0].content.parts[0].inline_data
                     audio_data_buffer += inline_data.data
                     mime_type_from_api = inline_data.mime_type
                 elif chunk_response.text:
                     if "error" in chunk_response.text.lower() or "failed" in chunk_response.text.lower():
-                        logs = log_message(f"❌ خطای API در قطعه {i+1}: {chunk_response.text}", logs)
                     else:
-                        logs = log_message(f"ℹ️ پیام متنی از API: {chunk_response.text}", logs)
             if audio_data_buffer:
                 file_extension = mimetypes.guess_extension(mime_type_from_api)
                 final_audio_data = audio_data_buffer
                 if file_extension is None or file_extension.lower() not in ['.wav', '.mp3', '.ogg', '.aac']:
                     if "audio/L" in mime_type_from_api or "audio/raw" in mime_type_from_api:
-                        logs = log_message(f"ℹ️ API MimeType: {mime_type_from_api}. تبدیل به WAV...", logs)
                         final_audio_data = convert_to_wav(audio_data_buffer, mime_type_from_api)
                         file_extension = ".wav"
                     else:
-                        logs = log_message(f"ℹ️ MimeType ناشناخته: {mime_type_from_api}. ذخیره با پسوند .bin.", logs)
                         file_extension = ".bin"
                 if mime_type_from_api == "audio/wav" and (file_extension != ".wav" and file_extension != ".wave"): file_extension = ".wav"
                 elif mime_type_from_api == "audio/mpeg" and file_extension != ".mp3": file_extension = ".mp3"
@@ -305,17 +246,17 @@ def generate_audio_from_text_gradio(
                     generated_files.append(saved_file_path)
                     logs = log_message(f"✅ قطعه {i+1} تولید شد: {saved_file_path}", logs)
             else:
-                if not f"❌ خطای API در قطعه {i+1}" in logs:
-                    logs = log_message(f"❌ قطعه {i+1} بدون داده صوتی بازگردانده شد.", logs)
         except Exception as e:
-            error_msg = f"❌ خطا در تولید قطعه {i+1}: {type(e).__name__} - {e}"
-            # logs = log_message(f"Traceback: {traceback.format_exc()}", logs) # Uncomment for detailed debug
-            if "API_KEY_INVALID" in str(e) or "API key not valid" in str(e): error_msg += "\n🔑 کلید API نامعتبر است."
-            elif "permission" in str(e).lower() or "access" in str(e).lower() or "403" in str(e): error_msg += f"\n🚫 عدم دسترسی به مدل {model_name_ui}."
-            elif "429" in str(e) or "rate limit" in str(e).lower() or "quota" in str(e).lower(): error_msg += f"\n🐢 محدودیت تعداد درخواست (Quota)."
-            elif "DeadlineExceeded" in str(e) or "504" in str(e): error_msg += f"\n⏱️ درخواست Timeout."
             logs = log_message(error_msg, logs)
             continue
         if i < len(text_chunks) - 1 and sleep_between_requests_ui > 0:
@@ -323,46 +264,44 @@ def generate_audio_from_text_gradio(
             time.sleep(sleep_between_requests_ui)
     if not generated_files:
-        logs = log_message("❌ هیچ فایل صوتی تولید نشد!", logs)
-        return logs, None, None, gr.update(visible=False)
-    logs = log_message(f"\n🎉 {len(generated_files)} فایل صوتی با موفقیت تولید شد!", logs)
-    final_audio_path = None; zip_file_path = None; zip_visible = False
     if merge_audio_files_ui and len(generated_files) > 1:
         if not PYDUB_AVAILABLE:
-            logs = log_message("⚠️ pydub برای ادغام در دسترس نیست...", logs)
-            zip_file_path, logs = create_zip_file(generated_files, f"{output_filename_base_ui}_all_parts", log_message, logs)
             if zip_file_path: zip_visible = True
             if generated_files: final_audio_path = generated_files[0]
         else:
-            merged_filename = f"{output_filename_base_ui}_merged.wav"
-            final_audio_path, logs = merge_audio_files_func(generated_files, merged_filename, log_message, logs)
             if final_audio_path:
-                logs = log_message(f"🎵 فایل نهایی ادغام شده: {final_audio_path}", logs)
                 if delete_partial_files_ui:
                     for fp_del in generated_files:
                         if fp_del != final_audio_path:
-                            try: os.remove(fp_del); logs = log_message(f"🗑️ فایل جزئی حذف شد: {fp_del}", logs)
-                            except Exception as e_del: logs = log_message(f"⚠️ خطا در حذف {fp_del}: {e_del}", logs)
             else:
-                logs = log_message("⚠️ ادغام ناموفق. ارائه ZIP...", logs)
-                zip_file_path, logs = create_zip_file(generated_files, f"{output_filename_base_ui}_all_parts", log_message, logs)
                 if zip_file_path: zip_visible = True
                 if generated_files: final_audio_path = generated_files[0]
     elif len(generated_files) == 1:
         final_audio_path = generated_files[0]
         logs = log_message(f"🎵 فایل نهایی: {final_audio_path}", logs)
-    elif len(generated_files) > 1:
-        zip_file_path, logs = create_zip_file(generated_files, f"{output_filename_base_ui}_all_parts", log_message, logs)
         if zip_file_path: zip_visible = True
-        final_audio_path = generated_files[0] if generated_files else None
     if not final_audio_path and not zip_file_path:
-         logs = log_message("🛑 هیچ خروجی صوتی برای نمایش یا دانلود وجود ندارد.", logs)
     return logs, final_audio_path, zip_file_path, gr.update(visible=zip_visible)
-# --- Gradio UI (unchanged from previous correct version) ---
 css = """
 body { direction: rtl; }
 .rtl_override { direction: rtl !important; text-align: right !important; }
@@ -372,17 +311,16 @@ footer { display: none !important; }
 .gradio-container { max-width: 800px !important; margin: auto !important; }
 """
 API_KEY_FROM_ENV = os.environ.get("GEMINI_API_KEY")
 with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="orange"), css=css) as demo:
     gr.Markdown(
         """
         <div style='text-align: center; font-family: "Arial", sans-serif;'>
             <h1 class='rtl_override'>تبدیل متن به گفتار با Gemini API</h1>
-            <p class='rtl_override'>این ابزار متن شما را با استفاده از مدل‌های پیشرفته گوگل به گفتار تبدیل می‌کند.</p>
-            <p class='rtl_override'>بر اساس نوت‌بوک کولب ارائه شده توسط شما، با استفاده از مدل‌های دقیق و تنظیمات مشخص شده.</p>
-            <p class='rtl_override'>ساخته شده توسط: <a href="https://github.com/aigolden" target="_blank">aigolden</a> (با راهنمایی شما)</p>
         </div>
         """
-    )
     api_key_status_text = "⚠️ کلید API جمینای (GEMINI_API_KEY) در Secrets این اسپیس تنظیم نشده است."
     if API_KEY_FROM_ENV: api_key_status_text = "✅ کلید API جمینای از Secrets بارگذاری شد."
     gr.Markdown(f"<p style='text-align:center; color: {'green' if API_KEY_FROM_ENV else 'red'};' class='rtl_override'>{api_key_status_text}</p>")
@@ -393,12 +331,14 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="orange"),
             input_method_radio = gr.Radio(["ورودی متنی", "آپلود فایل"], label="روش ورودی", value="ورودی متنی", elem_classes="rtl_override")
             text_to_speak_area = gr.Textbox(label="متن مورد نظر", placeholder="متن خود را اینجا وارد کنید...", lines=5, visible=True, elem_classes="rtl_override")
             uploaded_file_input = gr.File(label="فایل متنی (.txt)", file_types=[".txt"], visible=False, elem_classes="rtl_override") # type: ignore
-            speech_prompt_area = gr.Textbox(label="پرامپت سبک گفتار (اختیاری)", placeholder="مثال: از زبان یک یوتوبر پر انرژی...", lines=2, elem_classes="rtl_override")
             gr.Markdown("<h3 class='rtl_override'>تنظیمات مدل و خروجی</h3>", elem_classes="rtl_override")
             model_name_dropdown = gr.Dropdown(MODELS_LIST, label="مدل", value=MODELS_LIST[0], elem_classes="rtl_override")
-            speaker_voice_dropdown = gr.Dropdown(SPEAKER_VOICES_LIST, label="گوینده", value="Charon", elem_classes="rtl_override")
             temperature_slider = gr.Slider(minimum=0, maximum=2, step=0.05, value=1.0, label="دما", elem_classes="rtl_override")
             output_filename_base_input = gr.Textbox(value="gemini_tts_output", label="نام پایه فایل خروجی", elem_classes="rtl_override")
         with gr.Column(scale=1):
             gr.Markdown("<h3 class='rtl_override'>تنظیمات پیشرفته</h3>", elem_classes="rtl_override")
             max_chunk_size_slider = gr.Slider(minimum=2000, maximum=4000, step=100, value=3800, label="حداکثر کاراکتر در قطعه", elem_classes="rtl_override")
@@ -411,6 +351,7 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="orange"),
     submit_button = gr.Button("🎤 تولید صدا", variant="primary", elem_id="submit_button_custom")
     gr.Markdown("<h3 class='rtl_override'>خروجی</h3>", elem_classes="rtl_override")
     status_output_area = gr.Textbox(label="پیام‌های وضعیت", lines=10, interactive=False, elem_classes="rtl_override")
     with gr.Row():
         audio_player_output = gr.Audio(label="فایل صوتی نهایی/اولین قطعه", type="filepath", elem_classes="rtl_override") # type: ignore
         zip_file_output = gr.File(label="دانلود همه قطعات (ZIP)", type="filepath", visible=False, elem_classes="rtl_override") # type: ignore

 if not os.path.exists(OUTPUT_DIR):
     os.makedirs(OUTPUT_DIR)
+# --- Helper functions (unchanged) ---
 def log_message(msg, current_logs):
     print(msg)
     return f"{current_logs}\n{msg}".strip()
 def save_binary_file(file_name, data, log_func, current_logs):
     full_path = os.path.join(OUTPUT_DIR, file_name)
     try:
+        with open(full_path, "wb") as f: f.write(data)
         current_logs = log_func(f"✅ فایل در مسیر زیر ذخیره شد: {full_path}", current_logs)
         return full_path, current_logs
     except Exception as e:
 def convert_to_wav(audio_data: bytes, mime_type: str) -> bytes:
     parameters = parse_audio_mime_type(mime_type)
+    bits_per_sample, sample_rate = parameters["bits_per_sample"], parameters["rate"]
+    num_channels, data_size = 1, len(audio_data)
     bytes_per_sample = bits_per_sample // 8
     block_align = num_channels * bytes_per_sample
     byte_rate = sample_rate * block_align
     return header + audio_data
 def parse_audio_mime_type(mime_type: str) -> dict[str, int | None]:
+    bits_per_sample, rate = 16, 24000
+    for param in mime_type.split(";"):
         param = param.strip()
         if param.lower().startswith("rate="):
             try: rate = int(param.split("=", 1)[1])
     return {"bits_per_sample": bits_per_sample, "rate": rate}
 def load_text_from_file(file_obj, log_func, current_logs):
+    if file_obj is None: return "", log_func("❌ هیچ فایلی آپلود نشد.", current_logs)
     file_path = file_obj.name
+    current_logs = log_func(f"✅ فایل '{os.path.basename(file_path)}' دریافت شد.", current_logs)
     try:
         with open(file_path, 'r', encoding='utf-8') as f: content = f.read().strip()
+        current_logs = log_func(f"📖 متن: {len(content)} کاراکتر. نمونه: '{content[:100]}{'...' if len(content) > 100 else ''}'", current_logs)
         return content, current_logs
+    except Exception as e: return "", log_func(f"❌ خطا در خواندن فایل: {e}", current_logs)
 def smart_text_split(text, max_size=3800):
     if len(text) <= max_size: return [text]
+    chunks, current_chunk = [], ""
     sentences = re.split(r'(?<=[.!?؟۔])\s+', text)
     for sentence in sentences:
         if len(current_chunk) + len(sentence) + 1 > max_size:
             if current_chunk: chunks.append(current_chunk.strip())
             if len(sentence) > max_size:
+                words, temp_word_chunk = sentence.split(), ""
                 for word in words:
                     if len(temp_word_chunk) + len(word) + 1 > max_size:
                         if temp_word_chunk: chunks.append(temp_word_chunk.strip())
     return [c for c in chunks if c]
 def merge_audio_files_func(file_paths, output_filename, log_func, current_logs):
+    if not PYDUB_AVAILABLE: return None, log_func("❌ pydub نیست.", current_logs)
     output_path = os.path.join(OUTPUT_DIR, output_filename)
     try:
+        current_logs = log_func(f"🔗 ادغام {len(file_paths)} فایل...", current_logs)
         combined = AudioSegment.empty()
         for i, file_path in enumerate(file_paths):
             if os.path.exists(file_path):
+                current_logs = log_func(f"📎 فایل {i+1}: {file_path}", current_logs)
                 try:
                     audio = AudioSegment.from_file(file_path)
                     combined += audio
                     if i < len(file_paths) - 1: combined += AudioSegment.silent(duration=500)
                 except Exception as e_pydub:
+                    current_logs = log_func(f"⚠️ خطا pydub {file_path}: {e_pydub}. رد شد.", current_logs)
                     continue
+            else: current_logs = log_func(f"⚠️ فایل نیست: {file_path}", current_logs)
+        if not combined: return None, log_func("❌ فایل معتبری برای ادغام نبود.", current_logs)
         combined.export(output_path, format="wav")
+        return output_path, log_func(f"✅ ادغام شد: {output_path}", current_logs)
+    except Exception as e: return None, log_func(f"❌ خطا ادغام: {e}", current_logs)
 def create_zip_file(file_paths, zip_name_base, log_func, current_logs):
     zip_filename = os.path.join(OUTPUT_DIR, f"{zip_name_base}.zip")
         with zipfile.ZipFile(zip_filename, 'w') as zipf:
             for file_path in file_paths:
                 if os.path.exists(file_path): zipf.write(file_path, os.path.basename(file_path))
+        return zip_filename, log_func(f"📦 ZIP شد: {zip_filename}", current_logs)
+    except Exception as e: return None, log_func(f"❌ خطا ZIP: {e}", current_logs)
+# --- Main generation function ---
 def generate_audio_from_text_gradio(
+    api_key_hf_secret, input_method, text_to_speak_ui, uploaded_file_ui,
+    speech_prompt_ui, model_name_ui, speaker_voice_ui, temperature_ui,
+    max_chunk_size_ui, sleep_between_requests_ui, output_filename_base_ui,
+    merge_audio_files_ui, delete_partial_files_ui
 ):
     logs = "⏳ شروع فرآیند..."
     if not api_key_hf_secret:
+        return log_message("❌ کلید API جمینای در Secrets نیست.", logs), None, None, gr.update(visible=False)
     os.environ["GEMINI_API_KEY"] = api_key_hf_secret
+    logs = log_message("🔑 کلید API از Secrets بارگذاری شد.", logs)
     client = None
     try:
+        logs = log_message("🛠️ ایجاد کلاینت `genai.Client()`...", logs)
+        client = genai.Client(api_key=api_key_hf_secret)
+        logs = log_message("✅ کلاینت ایجاد شد.", logs)
     except Exception as e:
+        return log_message(f"❌ خطا ایجاد کلاینت: {type(e).__name__} - {e}", logs), None, None, gr.update(visible=False)
     text_input_content = ""
     if input_method == "آپلود فایل":
         text_input_content, logs = load_text_from_file(uploaded_file_ui, log_message, logs)
+        if not text_input_content: return logs, None, None, gr.update(visible=False)
     else:
         text_input_content = text_to_speak_ui
+    if not text_input_content or not text_input_content.strip():
+        return log_message("❌ متن ورودی خالی است.", logs), None, None, gr.update(visible=False)
     text_chunks = smart_text_split(text_input_content, max_chunk_size_ui)
     logs = log_message(f"📊 متن به {len(text_chunks)} قطعه تقسیم شد.", logs)
+    for i, chunk_text in enumerate(text_chunks): # Renamed chunk to chunk_text
+        logs = log_message(f"📝 قطعه {i+1}: {len(chunk_text)} کاراکتر", logs)
     generated_files = []
+    for i, chunk_text_for_api in enumerate(text_chunks): # Use the chunk_text directly
+        logs = log_message(f"\n🔊 تولید صدا قطعه {i+1}/{len(text_chunks)}...", logs)
+        # IMPORTANT CHANGE: final_text_for_api is now just the chunk
+        # The speech_prompt_ui is NOT added to the text for these models/API calls
+        final_text_for_api = chunk_text_for_api
         api_contents = [
+            genai_types.Content(
                 role="user",
+                parts=[genai_types.Part.from_text(text=final_text_for_api)],
             ),
         ]
         genai_speech_config = genai_types.SpeechConfig(
             voice_config=genai_types.VoiceConfig(
+                prebuilt_voice_config=genai_types.PrebuiltVoiceConfig(voice_name=speaker_voice_ui)
             )
         )
         try:
             if not hasattr(client, 'models') or not hasattr(client.models, 'generate_content_stream'): # type: ignore
+                logs = log_message(f"❌ کلاینت (`{type(client)}`) متد `models.generate_content_stream` ندارد.", logs)
+                continue
+            stream_iterator = client.models.generate_content_stream( # type: ignore
+                model=model_name_ui, contents=api_contents, config=stream_generation_config,
+            )
             chunk_filename_base = f"{output_filename_base_ui}_part_{i+1:03d}"
+            audio_data_buffer, mime_type_from_api = b"", "audio/wav"
             for chunk_response in stream_iterator:
+                if (chunk_response.candidates and chunk_response.candidates[0].content and
+                    chunk_response.candidates[0].content.parts and
+                    chunk_response.candidates[0].content.parts[0].inline_data):
                     inline_data = chunk_response.candidates[0].content.parts[0].inline_data
                     audio_data_buffer += inline_data.data
                     mime_type_from_api = inline_data.mime_type
                 elif chunk_response.text:
+                    log_text = f"💬 پیام API قطعه {i+1}: {chunk_response.text}"
                     if "error" in chunk_response.text.lower() or "failed" in chunk_response.text.lower():
+                        logs = log_message(f"❌ {log_text}", logs)
                     else:
+                        logs = log_message(f"ℹ️ {log_text}", logs)
             if audio_data_buffer:
                 file_extension = mimetypes.guess_extension(mime_type_from_api)
                 final_audio_data = audio_data_buffer
                 if file_extension is None or file_extension.lower() not in ['.wav', '.mp3', '.ogg', '.aac']:
                     if "audio/L" in mime_type_from_api or "audio/raw" in mime_type_from_api:
+                        logs = log_message(f"ℹ️ Mime: {mime_type_from_api}. تبدیل به WAV...", logs)
                         final_audio_data = convert_to_wav(audio_data_buffer, mime_type_from_api)
                         file_extension = ".wav"
                     else:
+                        logs = log_message(f"ℹ️ Mime ناشناخته: {mime_type_from_api}. ذخیره .bin.", logs)
                         file_extension = ".bin"
                 if mime_type_from_api == "audio/wav" and (file_extension != ".wav" and file_extension != ".wave"): file_extension = ".wav"
                 elif mime_type_from_api == "audio/mpeg" and file_extension != ".mp3": file_extension = ".mp3"
                     generated_files.append(saved_file_path)
                     logs = log_message(f"✅ قطعه {i+1} تولید شد: {saved_file_path}", logs)
             else:
+                if not f"❌ پیام API قطعه {i+1}" in logs: # Avoid duplicate error if API already sent one
+                    logs = log_message(f"❌ قطعه {i+1} بدون داده صوتی.", logs)
         except Exception as e:
+            error_msg = f"❌ خطا تولید قطعه {i+1}: {type(e).__name__} - {e}"
+            if "API_KEY_INVALID" in str(e): error_msg += "\n🔑 کلید API نامعتبر."
+            elif "permission" in str(e).lower() or "403" in str(e): error_msg += f"\n🚫 عدم دسترسی به {model_name_ui}."
+            elif "429" in str(e) or "quota" in str(e).lower(): error_msg += f"\n🐢 محدودیت Quota."
+            elif "DeadlineExceeded" in str(e) or "504" in str(e): error_msg += f"\n⏱️ Timeout."
             logs = log_message(error_msg, logs)
+            # logs = log_message(traceback.format_exc(), logs) # DEBUG
             continue
         if i < len(text_chunks) - 1 and sleep_between_requests_ui > 0:
             time.sleep(sleep_between_requests_ui)
     if not generated_files:
+        return log_message("❌ هیچ فایل صوتی تولید نشد!", logs), None, None, gr.update(visible=False)
+    logs = log_message(f"\n🎉 {len(generated_files)} فایل صوتی تولید شد!", logs)
+    final_audio_path, zip_file_path, zip_visible = None, None, False
     if merge_audio_files_ui and len(generated_files) > 1:
         if not PYDUB_AVAILABLE:
+            logs = log_message("⚠️ pydub نیست. ارائه ZIP.", logs)
+            zip_file_path, logs = create_zip_file(generated_files, f"{output_filename_base_ui}_all", log_message, logs)
             if zip_file_path: zip_visible = True
             if generated_files: final_audio_path = generated_files[0]
         else:
+            final_audio_path, logs = merge_audio_files_func(generated_files, f"{output_filename_base_ui}_merged.wav", log_message, logs)
             if final_audio_path:
+                logs = log_message(f"🎵 ادغام شده: {final_audio_path}", logs)
                 if delete_partial_files_ui:
                     for fp_del in generated_files:
                         if fp_del != final_audio_path:
+                            try: os.remove(fp_del); logs = log_message(f"🗑️ حذف: {fp_del}", logs)
+                            except Exception as e_del: logs = log_message(f"⚠️ خطا حذف {fp_del}: {e_del}", logs)
             else:
+                logs = log_message("⚠️ ادغام ناموفق. ارائه ZIP.", logs)
+                zip_file_path, logs = create_zip_file(generated_files, f"{output_filename_base_ui}_all", log_message, logs)
                 if zip_file_path: zip_visible = True
                 if generated_files: final_audio_path = generated_files[0]
     elif len(generated_files) == 1:
         final_audio_path = generated_files[0]
         logs = log_message(f"🎵 فایل نهایی: {final_audio_path}", logs)
+    elif len(generated_files) > 1: # Not merging
+        zip_file_path, logs = create_zip_file(generated_files, f"{output_filename_base_ui}_all", log_message, logs)
         if zip_file_path: zip_visible = True
+        if generated_files: final_audio_path = generated_files[0]
     if not final_audio_path and not zip_file_path:
+         return log_message("🛑 خروجی صوتی نیست.", logs), None, None, gr.update(visible=False)
     return logs, final_audio_path, zip_file_path, gr.update(visible=zip_visible)
+# --- Gradio UI (Largely unchanged, ensure default values are correct) ---
 css = """
 body { direction: rtl; }
 .rtl_override { direction: rtl !important; text-align: right !important; }
 .gradio-container { max-width: 800px !important; margin: auto !important; }
 """
 API_KEY_FROM_ENV = os.environ.get("GEMINI_API_KEY")
 with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="orange"), css=css) as demo:
     gr.Markdown(
         """
         <div style='text-align: center; font-family: "Arial", sans-serif;'>
             <h1 class='rtl_override'>تبدیل متن به گفتار با Gemini API</h1>
+            <p class='rtl_override'>توجه: قابلیت "پرامپت سبک گفتار" فعلا برای این مدل‌ها به طور کامل پشتیبانی نمی‌شود.</p>
         </div>
         """
+    ) # Added a note about speech prompt
     api_key_status_text = "⚠️ کلید API جمینای (GEMINI_API_KEY) در Secrets این اسپیس تنظیم نشده است."
     if API_KEY_FROM_ENV: api_key_status_text = "✅ کلید API جمینای از Secrets بارگذاری شد."
     gr.Markdown(f"<p style='text-align:center; color: {'green' if API_KEY_FROM_ENV else 'red'};' class='rtl_override'>{api_key_status_text}</p>")
             input_method_radio = gr.Radio(["ورودی متنی", "آپلود فایل"], label="روش ورودی", value="ورودی متنی", elem_classes="rtl_override")
             text_to_speak_area = gr.Textbox(label="متن مورد نظر", placeholder="متن خود را اینجا وارد کنید...", lines=5, visible=True, elem_classes="rtl_override")
             uploaded_file_input = gr.File(label="فایل متنی (.txt)", file_types=[".txt"], visible=False, elem_classes="rtl_override") # type: ignore
+            speech_prompt_area = gr.Textbox(label="پرامپت سبک گفتار (اختیاری - فعلا تاثیر محدود)", placeholder="مثال: شاد و پر انرژی", lines=2, elem_classes="rtl_override") # Clarified limited effect
             gr.Markdown("<h3 class='rtl_override'>تنظیمات مدل و خروجی</h3>", elem_classes="rtl_override")
             model_name_dropdown = gr.Dropdown(MODELS_LIST, label="مدل", value=MODELS_LIST[0], elem_classes="rtl_override")
+            speaker_voice_dropdown = gr.Dropdown(SPEAKER_VOICES_LIST, label="گوینده", value="Charon", elem_classes="rtl_override") # Default Charon
             temperature_slider = gr.Slider(minimum=0, maximum=2, step=0.05, value=1.0, label="دما", elem_classes="rtl_override")
             output_filename_base_input = gr.Textbox(value="gemini_tts_output", label="نام پایه فایل خروجی", elem_classes="rtl_override")
         with gr.Column(scale=1):
             gr.Markdown("<h3 class='rtl_override'>تنظیمات پیشرفته</h3>", elem_classes="rtl_override")
             max_chunk_size_slider = gr.Slider(minimum=2000, maximum=4000, step=100, value=3800, label="حداکثر کاراکتر در قطعه", elem_classes="rtl_override")
     submit_button = gr.Button("🎤 تولید صدا", variant="primary", elem_id="submit_button_custom")
     gr.Markdown("<h3 class='rtl_override'>خروجی</h3>", elem_classes="rtl_override")
     status_output_area = gr.Textbox(label="پیام‌های وضعیت", lines=10, interactive=False, elem_classes="rtl_override")
     with gr.Row():
         audio_player_output = gr.Audio(label="فایل صوتی نهایی/اولین قطعه", type="filepath", elem_classes="rtl_override") # type: ignore
         zip_file_output = gr.File(label="دانلود همه قطعات (ZIP)", type="filepath", visible=False, elem_classes="rtl_override") # type: ignore