Spaces:

Hamed744
/

Ttspro

Running

App Files Files Community

Hamed744 commited on Jun 5

Commit

a17f9d2

verified ·

1 Parent(s): e4bf7cb

Update app.py

Browse files

Files changed (1) hide show

app.py +247 -274

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ import re
 import struct
 import time
 import zipfile
-from google import genai
 from google.genai import types
 # تلاش برای ایمپورت pydub و تنظیم فلگ در دسترس بودن
@@ -15,6 +15,8 @@ try:
     PYDUB_AVAILABLE = True
 except ImportError:
     PYDUB_AVAILABLE = False
 # --- ثابت‌ها ---
 SPEAKER_VOICES = [
@@ -24,18 +26,26 @@ SPEAKER_VOICES = [
     "Rasalthgeti", "Orus", "Aoede", "Callirrhoe", "Autonoe", "Enceladus",
     "Iapetus", "Zephyr", "Puck", "Charon", "Kore", "Fenrir", "Leda"
 ]
-MODEL_NAMES = ["gemini-2.5-flash-preview-tts", "gemini-2.5-pro-preview-tts"]
-# --- توابع کمکی (سازگار شده برای لاگ‌نویسی در Gradio) ---
-def save_binary_file(file_name, data, log_messages_list):
     try:
         with open(file_name, "wb") as f:
             f.write(data)
-        log_messages_list.append(f"✅ فایل در مسیر زیر ذخیره شد: {file_name}")
         return file_name
     except Exception as e:
-        log_messages_list.append(f"❌ خطا در ذخیره فایل {file_name}: {e}")
         return None
 def convert_to_wav(audio_data: bytes, mime_type: str) -> bytes:
@@ -48,7 +58,6 @@ def convert_to_wav(audio_data: bytes, mime_type: str) -> bytes:
     block_align = num_channels * bytes_per_sample
     byte_rate = sample_rate * block_align
     chunk_size = 36 + data_size
     header = struct.pack(
         "<4sI4s4sIHHIIHH4sI",
         b"RIFF", chunk_size, b"WAVE", b"fmt ", 16, 1, num_channels,
@@ -58,7 +67,7 @@ def convert_to_wav(audio_data: bytes, mime_type: str) -> bytes:
 def parse_audio_mime_type(mime_type: str) -> dict[str, int | None]:
     bits_per_sample = 16
-    rate = 24000 # Default rate for Gemini TTS
     parts = mime_type.split(";")
     for param in parts:
         param = param.strip()
@@ -66,137 +75,124 @@ def parse_audio_mime_type(mime_type: str) -> dict[str, int | None]:
             try:
                 rate_str = param.split("=", 1)[1]
                 rate = int(rate_str)
-            except (ValueError, IndexError):
-                pass
-        elif param.startswith("audio/L"): # e.g., audio/L16
             try:
                 bits_per_sample = int(param.split("L", 1)[1])
-            except (ValueError, IndexError):
-                pass
     return {"bits_per_sample": bits_per_sample, "rate": rate}
-def smart_text_split(text, max_size=3800):
     if len(text) <= max_size:
         return [text]
     chunks = []
     current_chunk = ""
-    # Split by sentences, keeping delimiters. Prioritize common Persian sentence enders.
     sentences = re.split(r'(?<=[.!?؟])\s+', text)
     for sentence in sentences:
-        sentence_with_space = sentence + " " # Add potential space for length calculation
         if len(current_chunk) + len(sentence_with_space) > max_size:
-            if current_chunk: # Add the current chunk if it's not empty
                 chunks.append(current_chunk.strip())
-            # Now, current_chunk becomes the new sentence.
-            # If this new sentence itself is too long, it needs to be split further.
             current_chunk = sentence
             while len(current_chunk) > max_size:
-                # Find a good split point (e.g., comma, space) near max_size
-                # Fallback to hard split if no good point found
                 split_idx = -1
-                # Try splitting at Persian/English punctuation within the oversized chunk
                 possible_split_chars = ['،', ',', ';', ':', ' ']
-                for char_idx in range(max_size - 1, max_size // 2, -1): # Search backwards from max_size
                     if current_chunk[char_idx] in possible_split_chars:
                         split_idx = char_idx + 1
                         break
                 if split_idx != -1:
                     chunks.append(current_chunk[:split_idx].strip())
                     current_chunk = current_chunk[split_idx:].strip()
-                else: # Hard split
                     chunks.append(current_chunk[:max_size].strip())
                     current_chunk = current_chunk[max_size:].strip()
         else:
             current_chunk += (" " if current_chunk else "") + sentence
-    if current_chunk: # Add any remaining part
         chunks.append(current_chunk.strip())
-    return [c for c in chunks if c] # Ensure no empty chunks
-def merge_audio_files_func(file_paths, output_path, log_messages_list):
     if not PYDUB_AVAILABLE:
-        log_messages_list.append("❌ pydub در دسترس نیست. نمی‌توان فایل‌ها را ادغام کرد.")
         return False
     try:
-        log_messages_list.append(f"🔗 در حال ادغام {len(file_paths)} فایل صوتی...")
         combined = AudioSegment.empty()
         for i, file_path in enumerate(file_paths):
             if os.path.exists(file_path):
-                log_messages_list.append(f"📎 اضافه کردن فایل {i+1}: {os.path.basename(file_path)}")
-                audio = AudioSegment.from_file(file_path) # pydub usually infers format
                 combined += audio
-                if i < len(file_paths) - 1: # Add short silence between segments
-                    combined += AudioSegment.silent(duration=200) # 200ms silence
             else:
-                log_messages_list.append(f"⚠️ فایل پیدا نشد: {file_path}")
         combined.export(output_path, format="wav")
-        log_messages_list.append(f"✅ فایل ادغام شده ذخیره شد: {output_path}")
         return True
     except Exception as e:
-        log_messages_list.append(f"❌ خطا در ادغام فایل‌ها: {e}")
         return False
-def create_zip_file(file_paths, zip_name, log_messages_list):
     try:
         with zipfile.ZipFile(zip_name, 'w') as zipf:
             for file_path in file_paths:
                 if os.path.exists(file_path):
                     zipf.write(file_path, os.path.basename(file_path))
-        log_messages_list.append(f"📦 فایل ZIP ایجاد شد: {zip_name}")
         return True
     except Exception as e:
-        log_messages_list.append(f"❌ خطا در ایجاد فایل ZIP: {e}")
         return False
-# --- تابع اصلی تولید (سازگار شده برای Gradio) ---
 def core_generate_audio(
     text_input, prompt_input, selected_voice, output_base_name,
-    model, temperature_val,
-    max_chunk, sleep_time, merge_files, delete_partials,
-    log_messages_list  # Pass the list to append logs
 ):
-    log_messages_list.append("🚀 شروع فرآیند تبدیل متن به گفتار...")
-    # دریافت کلید API
-    api_key = os.environ.get("GEMINI_API_KEY")
     if not api_key:
-        log_messages_list.append("❌ خطا: کلید API جمینای (GEMINI_API_KEY) در Secrets این Space تنظیم نشده است.")
-        log_messages_list.append("لطفاً به تنظیمات Space رفته و یک Secret با نام GEMINI_API_KEY و مقدار کلید خود ایجاد کنید.")
-        return None, None # No audio path, no download path
-    # مقداردهی اولیه کلاینت GenAI
     try:
-        log_messages_list.append("🛠️ در حال ایجاد کلاینت جمینای...")
         client = genai.Client(api_key=api_key)
-        log_messages_list.append("✅ کلاینت جمینای با موفقیت ایجاد شد.")
     except Exception as e:
-        log_messages_list.append(f"❌ خطا در ایجاد کلاینت جمینای: {e}")
-        log_messages_list.append("لطفاً از صحت کلید API خود اطمینان حاصل کنید.")
-        return None, None
     if not text_input or text_input.strip() == "":
-        log_messages_list.append("❌ خطا: متن ورودی برای تبدیل به گفتار خالی است.")
-        return None, None
-    text_chunks = smart_text_split(text_input, max_chunk)
-    log_messages_list.append(f"📊 متن به {len(text_chunks)} قطعه تقسیم شد.")
-    for i, chunk in enumerate(text_chunks):
-        log_messages_list.append(f"📝 قطعه {i+1}: {len(chunk)} کاراکتر")
-    text_chunks = [c for c in text_chunks if c] # فیلتر کردن قطعات خالی احتمالی
     if not text_chunks:
-        log_messages_list.append("❌ خطا: پس از تقسیم‌بندی، هیچ قطعه متنی برای پردازش وجود ندارد.")
-        return None, None
     generated_files = []
-    # نامگذاری فایل‌ها بدون مسیر اضافی برای سادگی در محیط Space
-    # فایل‌ها در ریشه فضای کاری Space ذخیره می‌شوند
     for i, chunk in enumerate(text_chunks):
-        log_messages_list.append(f"\n🔊 تولید صدا برای قطعه {i+1}/{len(text_chunks)}...")
         final_text = f'"{prompt_input}"\n{chunk}' if prompt_input and prompt_input.strip() else chunk
         contents = [types.Content(role="user", parts=[types.Part.from_text(text=final_text)])]
@@ -213,8 +209,8 @@ def core_generate_audio(
         current_chunk_filename_base = f"{output_base_name}_part{i+1:03d}"
         try:
-            response = client.models.generate_content( # استفاده از generate_content برای سادگی
-                model=model,
                 contents=contents,
                 config=generate_content_config,
             )
@@ -225,330 +221,307 @@ def core_generate_audio(
                 inline_data = response.candidates[0].content.parts[0].inline_data
                 data_buffer = inline_data.data
-                # حدس پسوند فایل بر اساس MIME type
                 file_extension = mimetypes.guess_extension(inline_data.mime_type)
-                # اگر پسوند قابل تشخیص نبود یا باینری عمومی بود، WAV را در نظر می‌گیریم
-                # و در صورت نیاز (مثلاً برای audio/L16) هدر WAV اضافه می‌کنیم
                 if file_extension is None or "binary" in inline_data.mime_type or file_extension == ".bin":
                     file_extension = ".wav"
-                    if "audio/L" in inline_data.mime_type: # نیاز به هدر WAV
                          data_buffer = convert_to_wav(data_buffer, inline_data.mime_type)
-                elif inline_data.mime_type == "audio/mpeg":
-                    file_extension = ".mp3" # اگر API مستقیما MP3 داد
-                elif inline_data.mime_type == "audio/wav":
-                    file_extension = ".wav" # اگر API مستقیما WAV داد
-                generated_file_path = save_binary_file(f"{current_chunk_filename_base}{file_extension}", data_buffer, log_messages_list)
                 if generated_file_path:
                     generated_files.append(generated_file_path)
-                    log_messages_list.append(f"✅ قطعه {i+1} تولید شد: {os.path.basename(generated_file_path)}")
             elif response.text:
-                 log_messages_list.append(f"ℹ️ پیام متنی از API برای قطعه {i+1}: {response.text}")
                  if "rate limit" in response.text.lower() or "quota" in response.text.lower():
-                    log_messages_list.append(f"⏳ به نظر میرسد به محدودیت تعداد درخواست API (Quota) رسیده‌اید. لطفاً چند دقیقه صبر کنید و دوباره امتحان کنید، یا فاصله زمانی بین درخواست‌ها را افزایش دهید.")
             else:
-                log_messages_list.append(f"⚠️ پاسخ API برای قطعه {i+1} حاوی داده صوتی یا پیام متنی نبود. جزئیات پاسخ: {response.prompt_feedback if response else 'No response'}")
         except types.generation_types.BlockedPromptException as bpe:
-            log_messages_list.append(f"❌ محتوای پرامپت برای قطعه {i+1} مسدود شد: {bpe}")
-            log_messages_list.append(f"علت مسدود شدن: {bpe.response.prompt_feedback if bpe.response else 'نامشخص'}")
-            log_messages_list.append("لطفاً متن ورودی یا پرامپت سبک گفتار را بررسی و اصلاح کنید.")
-            continue
-        except types.generation_types.StopCandidateException as sce:
-            log_messages_list.append(f"❌ تولید محتوا برای قطعه {i+1} به دلیل نامشخصی متوقف شد: {sce}")
-            continue
         except Exception as e:
-            log_messages_list.append(f"❌ خطا در تولید قطعه {i+1}: {e}")
-            if "API key not valid" in str(e):
-                log_messages_list.append("خطای کلید API. لطفاً از معتبر بودن کلید و تنظیم صحیح آن در Secrets مطمئن شوید.")
-            elif "resource has been exhausted" in str(e).lower() or "quota" in str(e).lower():
-                 log_messages_list.append("به نظر میرسد محدودیت استفاده از API (Quota) شما تمام شده است.")
-            continue
         if i < len(text_chunks) - 1 and len(text_chunks) > 1 :
-            log_messages_list.append(f"⏱️ انتظار {sleep_time} ثانیه...")
             time.sleep(sleep_time)
     if not generated_files:
-        log_messages_list.append("❌ هیچ فایل صوتی تولید نشد!")
-        return None, None
-    log_messages_list.append(f"\n🎉 {len(generated_files)} فایل صوتی با موفقیت تولید شد!")
     playback_file = None
     download_file = None
-    if merge_files and len(generated_files) > 1:
-        if not PYDUB_AVAILABLE:
-            log_messages_list.append("⚠️ pydub برای ادغام در دسترس نیست. فایل‌ها به صورت جداگانه در یک فایل ZIP ارائه می‌شوند.")
-            zip_filename = f"{output_base_name}_all_parts.zip"
-            if create_zip_file(generated_files, zip_filename, log_messages_list):
-                download_file = zip_filename
-            if generated_files: playback_file = generated_files[0]
-        else:
-            merged_filename = f"{output_base_name}_merged.wav"
-            if merge_audio_files_func(generated_files, merged_filename, log_messages_list):
                 playback_file = merged_filename
                 download_file = merged_filename
-                log_messages_list.append(f"🎵 فایل نهایی ادغام شده: {os.path.basename(merged_filename)}")
-                if delete_partials:
-                    for file_path in generated_files:
-                        try:
-                            if os.path.abspath(file_path) != os.path.abspath(merged_filename):
-                                os.remove(file_path)
-                                log_messages_list.append(f"🗑️ فایل جزئی حذف شد: {os.path.basename(file_path)}")
-                        except Exception as e:
-                            log_messages_list.append(f"⚠️ خطا در حذف فایل جزئی {os.path.basename(file_path)}: {e}")
             else:
-                log_messages_list.append("⚠️ ادغام ممکن نبود. فایل‌ها به صورت جداگانه در یک فایل ZIP ارائه می‌شوند.")
                 zip_filename = f"{output_base_name}_all_parts.zip"
-                if create_zip_file(generated_files, zip_filename, log_messages_list):
                     download_file = zip_filename
-                if generated_files: playback_file = generated_files[0]
     elif len(generated_files) == 1:
         playback_file = generated_files[0]
         download_file = generated_files[0]
-    else: # Multiple files, no merge requested (or PYDUB_AVAILABLE is False and merge_files was True)
-        zip_filename = f"{output_base_name}_all_parts.zip"
-        if create_zip_file(generated_files, zip_filename, log_messages_list):
-            download_file = zip_filename
-        if generated_files: playback_file = generated_files[0]
     if playback_file and not os.path.exists(playback_file):
-        log_messages_list.append(f"⚠️ فایل پخش {os.path.basename(playback_file)} وجود ندارد!")
         playback_file = None
     if download_file and not os.path.exists(download_file):
-        log_messages_list.append(f"⚠️ فایل دانلود {os.path.basename(download_file)} وجود ندارد!")
         download_file = None
-    return playback_file, download_file
-# --- تابع رابط کاربری Gradio ---
 def gradio_tts_interface(
     use_file_input, uploaded_file, text_to_speak,
     speech_prompt, speaker_voice, output_filename_base_in,
-    model_name, temperature,
-    max_chunk_size, sleep_between_requests,
-    merge_audio_files_flag, delete_partial_files_flag,
-    progress=gr.Progress(track_tqdm=True) # track_tqdm for visual progress if using loops with tqdm
 ):
-    log_messages = []
     actual_text_input = ""
     if use_file_input:
         if uploaded_file is not None:
             try:
-                # Gradio file objects have a .name attribute which is the temp path
                 with open(uploaded_file.name, 'r', encoding='utf-8') as f:
                     actual_text_input = f.read().strip()
-                log_messages.append(f"✅ متن از فایل '{os.path.basename(uploaded_file.name)}' بارگذاری شد: {len(actual_text_input)} کاراکتر.")
-                log_messages.append(f"📝 نمونه متن فایل: '{actual_text_input[:100]}{'...' if len(actual_text_input) > 100 else ''}'")
                 if not actual_text_input:
-                    log_messages.append("❌ خطا: فایل آپلود شده خالی است یا قابل خواندن نیست.")
-                    return None, None, "\n".join(log_messages)
             except Exception as e:
-                log_messages.append(f"❌ خطا در خواندن فایل آپلود شده: {e}")
-                return None, None, "\n".join(log_messages)
         else:
-            log_messages.append("❌ خطا: گزینه 'استفاده از فایل ورودی' انتخاب شده اما هیچ فایلی آپلود نشده است.")
-            return None, None, "\n".join(log_messages)
     else:
         actual_text_input = text_to_speak
         if not actual_text_input or not actual_text_input.strip():
-            log_messages.append("❌ خطا: متن ورودی برای تبدیل به گفتار خالی است. لطفاً متنی را وارد کنید یا گزینه فایل را فعال کنید.")
-            return None, None, "\n".join(log_messages)
-        log_messages.append(f"📖 متن ورودی دستی: {len(actual_text_input)} کاراکتر")
-        log_messages.append(f"📝 نمونه متن ورودی: '{actual_text_input[:100]}{'...' if len(actual_text_input) > 100 else ''}'")
-    # Sanitize output_filename_base to prevent path traversal or invalid characters
-    output_filename_base = re.sub(r'[^\w\-_]', '', output_filename_base_in if output_filename_base_in else "gemini_tts_output")
-    if not output_filename_base: # If sanitization results in empty string
-        output_filename_base = "gemini_tts_output"
-    log_messages.append(f"🏷️ نام پایه فایل خروجی: {output_filename_base}")
-    if not PYDUB_AVAILABLE:
-        log_messages.append("⚠️ کتابخانه pydub در دسترس نیست. امکان ادغام فایل‌های صوتی وجود نخواهد داشت و فایل‌های صوتی به صورت جداگانه (در صورت وجود چند بخش) در یک فایل ZIP ارائه می‌شوند.")
-        current_merge_audio_files = False # Force disable merge if pydub is not available
-    else:
-        current_merge_audio_files = merge_audio_files_flag
-    playback_path, download_path = core_generate_audio(
         actual_text_input, speech_prompt, speaker_voice, output_filename_base,
-        model_name, temperature, max_chunk_size, sleep_between_requests,
-        current_merge_audio_files, delete_partial_files_flag, log_messages
     )
-    log_output_str = "\n".join(log_messages)
-    valid_playback_path = playback_path if playback_path and os.path.exists(playback_path) else None
-    valid_download_path = download_path if download_path and os.path.exists(download_path) else None
-    if not valid_playback_path and not valid_download_path and not actual_text_input.strip():
-        pass # Avoid error message if it was just an empty input from the start
-    elif not valid_playback_path and not valid_download_path and actual_text_input.strip():
-        # Add this only if there was text input but no output files
-        log_output_str += "\n🛑 هیچ فایل صوتی برای پخش یا دانلود در دسترس نیست."
-    return valid_playback_path, valid_download_path, log_output_str
 # --- تعریف رابط کاربری Gradio ---
 css = """
-body { font-family: 'Tahoma', 'Arial', sans-serif; direction: rtl; }
-.gradio-container { max-width: 95% !important; margin: auto !important; padding: 10px !important; }
-@media (min-width: 768px) { .gradio-container { max-width: 800px !important; } }
 footer { display: none !important; }
-.gr-button { background-color: #1d67a3 !important; color: white !important; border-radius: 8px !important; }
-.gr-button:hover { background-color: #164f7e !important; }
-.gr-input, .gr-dropdown, .gr-slider, .gr-checkbox, .gr-textbox, .gr-file { border-radius: 6px !important; }
-.gr-panel { padding: 15px !important; border-radius: 8px !important; box-shadow: 0 2px 4px rgba(0,0,0,0.1) !important; }
-h2, h3 { color: #1d67a3; text-align: center; }
-label { font-weight: bold; color: #333; }
 #output_audio .gallery, #download_file_output .gallery { display: none !important; }
-/* Ensure text inputs and textareas are also LTR for code/API keys if needed, but general UI is RTL */
-textarea, input[type="text"] { direction: rtl; text-align: right; }
-/* Override for specific LTR elements if any, e.g. API key input if it were visible */
 """
 with gr.Blocks(css=css, theme=gr.themes.Soft(primary_hue=gr.themes.colors.blue, secondary_hue=gr.themes.colors.sky)) as demo:
-    gr.Markdown("## 🔊 تبدیل متن به گفتار با Gemini API (فارسی)")
-    gr.Markdown("<p style='text-align:center;'>ساخته شده بر اساس کد کولب توسط: aigolden</p>")
-    gr.HTML("<hr>") # Using HTML for a styled horizontal rule
-    with gr.Accordion("⚠️ راهنمای مهم: تنظیم کلید API جمینای", open=False):
         gr.Markdown(
-            "**برای استفاده از این ابزار، ابتدا باید کلید API جمینای خود را در بخش Secrets این Space در Hugging Face اضافه کنید:**\n"
-            "1. به صفحه اصلی این Space بروید (جایی که این اپلیکیشن را می‌بینید).\n"
-            "2. در بالای صفحه، روی نام Space خود و سپس 'Settings' (آیکن چرخ‌دنده ⚙️) کلیک کنید.\n"
-            "3. در منوی سمت چپ صفحه تنظیمات، به بخش 'Secrets' بروید.\n"
-            "4. روی دکمه '+ New secret' کلیک کنید.\n"
-            "5. در فیلد 'Name'، دقیقاً عبارت `GEMINI_API_KEY` را وارد کنید (با حروف بزرگ).\n"
-            "6. در فیلد 'Value (secret)'، کلید API جمینای خود را که از Google AI Studio یا Google Cloud Console دریافت کرده‌اید، وارد کنید.\n"
-            "7. روی 'Save secret' کلیک کنید.\n"
-            "**توجه:** پس از افزودن یا تغییر Secret، ممکن است لازم باشد Space را یکبار Restart کنید. برای این کار، از منوی سه‌نقطه (⋮) در کنار دکمه 'Settings' در صفحه اصلی Space، گزینه 'Restart this Space' را انتخاب کنید."
         )
-    gr.HTML("<hr>")
-    with gr.Row():
         with gr.Column(scale=3, min_width=300):
-            gr.Markdown("### 📝 تنظیمات ورودی و پرامپت")
-            use_file_input_cb = gr.Checkbox(label="📄 استفاده از فایل متنی ورودی (.txt)", value=False, elem_id="use_file_cb")
-            # فایل ورودی و متن ورودی با توجه به چک‌باکس نمایش داده می‌شوند (منطق در تابع اصلی)
-            uploaded_file_input = gr.File(
-                label="📂 آپلود فایل متنی (فقط شامل متن اصلی، UTF-8)",
-                file_types=['.txt'],
-                visible=False # Initially hidden, controlled by checkbox interaction
-            )
             text_to_speak_tb = gr.Textbox(
-                label="⌨️ متن ورودی (اگر گزینه فایل فعال نیست)",
-                placeholder="متن مورد نظر برای تبدیل به گفتار را اینجا وارد کنید...",
                 lines=8,
-                value="سلام دنیا! این یک آزمایش برای تبدیل متن به گفتار با استفاده از مدل جمینای است.",
-                elem_id="text_input_main",
-                visible=True # Initially visible
             )
-            # JavaScript to toggle visibility
             use_file_input_cb.change(
                 fn=lambda x: (gr.update(visible=x), gr.update(visible=not x)),
                 inputs=use_file_input_cb,
                 outputs=[uploaded_file_input, text_to_speak_tb]
             )
             speech_prompt_tb = gr.Textbox(
-                label="🗣️ پرامپت برای تنظیم سبک گفتار (اختیاری)",
-                placeholder="مثال: از زبان یک یوتوبر پر انرژی و حرفه ای صحبت کن",
-                value="به زبان یک گوینده رادیو با صدای گرم و واضح صحبت کن.",
                 lines=2
             )
         with gr.Column(scale=2, min_width=250):
-            gr.Markdown("### ⚙️ تنظیمات مدل و خروجی")
-            model_name_dd = gr.Dropdown(
-                MODEL_NAMES, label="🤖 انتخاب مدل Gemini TTS", value="gemini-2.5-flash-preview-tts"
-            )
             speaker_voice_dd = gr.Dropdown(
-                SPEAKER_VOICES, label="🎤 انتخاب گوینده", value="Charon"
             )
             temperature_slider = gr.Slider(
-                minimum=0.0, maximum=2.0, step=0.05, value=0.9, label="🌡️ دمای مدل (تنوع خروجی)"
-            ) # Adjusted default temp
             output_filename_base_tb = gr.Textbox(
-                label="📛 نام پایه فایل خروجی (بدون پسوند)", value="gemini_tts_farsi_output"
             )
-            gr.Markdown("#### تنظیمات پیشرفته")
             max_chunk_size_slider = gr.Slider(
-                minimum=1500, maximum=4000, step=100, value=3800, label="📏 حداکثر کاراکتر در هر قطعه"
-            ) # Adjusted min chunk size
             sleep_between_requests_slider = gr.Slider(
-                minimum=3, maximum=25, step=0.5, value=12, label="⏱️ فاصله بین درخواست‌ها (ثانیه)"
-            ) # Adjusted sleep range and default
-            merge_audio_files_cb = gr.Checkbox(label="🔗 ادغام فایل‌های صوتی در یک فایل WAV (نیازمند pydub)", value=True)
-            delete_partial_files_cb = gr.Checkbox(label="🗑️ حذف فایل‌های جزئی پس از ادغام (اگر ادغام فعال باشد)", value=False)
-    generate_button = gr.Button("🎙️ تولید صدا", variant="primary", elem_id="generate_button_main")
-    gr.HTML("<hr>")
-    gr.Markdown("### 🎧 خروجی صوتی و دانلود 📥")
     with gr.Row():
         with gr.Column(scale=1):
-            output_audio = gr.Audio(label="🔊 فایل صوتی تولید شده (قابل پخش)", type="filepath", elem_id="output_audio_player")
         with gr.Column(scale=1):
-            download_file_output = gr.File(label="💾 دانلود فایل نهایی (WAV یا ZIP)", elem_id="download_file_link")
-    gr.Markdown("### 📜 لاگ‌ها و پیام‌های فرآیند")
-    logs_output_tb = gr.Textbox(label=" ", lines=10, interactive=False, autoscroll=True, elem_id="logs_textbox")
     generate_button.click(
         fn=gradio_tts_interface,
         inputs=[
             use_file_input_cb, uploaded_file_input, text_to_speak_tb,
             speech_prompt_tb, speaker_voice_dd, output_filename_base_tb,
-            model_name_dd, temperature_slider,
-            max_chunk_size_slider, sleep_between_requests_slider,
-            merge_audio_files_cb, delete_partial_files_cb
         ],
-        outputs=[output_audio, download_file_output, logs_output_tb]
     )
     gr.Examples(
         examples=[
-            [False, None, "سلام، این یک تست کوتاه است.", "یک صدای دوستانه و واضح.", "Charon", "test_output_1", "gemini-2.5-flash-preview-tts", 0.9, 3800, 12, True, False],
-            [False, None, "به دنیای شگفت‌انگیز هوش مصنوعی خوش آمدید. امیدوارم از این ابزار لذت ببرید و برایتان مفید باشد.", "با هیجان و انرژی زیاد صحبت کن، انگار که یک خبر فوق‌العاده را اعلام می‌کنی.", "Zephyr", "ai_voice_farsi", "gemini-2.5-flash-preview-tts", 1.1, 3500, 10, True, True],
-            [False, None, "این یک نمونه متن طولانی‌تر است که برای آزمایش تقسیم‌بندی هوشمند به کار می‌رود. باید دید که چگونه به قطعات کوچکتر تقسیم شده و سپس در صورت انتخاب گزینه ادغام، به یک فایل صوتی واحد تبدیل می‌شود. امیدواریم که همه چیز به خوبی کار کند.", "با لحنی آرام و روایی، مانند یک داستان‌گو.", "Achird", "long_text_sample", "gemini-2.5-pro-preview-tts", 0.8, 2500, 15, True, True],
         ],
         inputs=[
             use_file_input_cb, uploaded_file_input, text_to_speak_tb,
             speech_prompt_tb, speaker_voice_dd, output_filename_base_tb,
-            model_name_dd, temperature_slider,
-            max_chunk_size_slider, sleep_between_requests_slider,
-            merge_audio_files_cb, delete_partial_files_cb
         ],
-        outputs=[output_audio, download_file_output, logs_output_tb],
         fn=gradio_tts_interface,
-        cache_examples=False # Set to True if inputs/outputs are static and pre-computation is desired
     )
     gr.Markdown(
-        "<div style='text-align: center; margin-top: 30px; font-size: 0.9em; color: grey;'>"
-        "این ابزار از Google Gemini API برای تبدیل متن به گفتار استفاده می‌کند. "
-        "لطفاً به محدودیت‌های استفاده و شرایط خدمات Gemini API توجه فرمایید.<br>"
-        "برای بهترین نتیجه، از مرورگرهای به‌روز استفاده کنید."
         "</div>"
     )
 if __name__ == "__main__":
-    # برای اجرای محلی با قابلیت hot-reload و debug
-    # demo.launch(debug=True, share=False)
-    # برای اجرای عادی (مثلا در محیط Hugging Face Spaces، این خط معمولا لازم نیست چون Gradio خودش هندل می‌کنه)
     demo.launch()

 import struct
 import time
 import zipfile
+from google import genai # همچنان برای ارتباط با API لازم است
 from google.genai import types
 # تلاش برای ایمپورت pydub و تنظیم فلگ در دسترس بودن
     PYDUB_AVAILABLE = True
 except ImportError:
     PYDUB_AVAILABLE = False
+    # اگر pydub نباشد، ادغام خودکار ممکن نیست و باید به کاربر اطلاع داده شود یا فقط اولین قطعه ارائه شود.
+    # برای این نسخه، فرض می‌کنیم اگر pydub نباشد، فقط اولین قطعه برگردانده می‌شود یا ZIP ارائه می‌شود.
 # --- ثابت‌ها ---
 SPEAKER_VOICES = [
     "Rasalthgeti", "Orus", "Aoede", "Callirrhoe", "Autonoe", "Enceladus",
     "Iapetus", "Zephyr", "Puck", "Charon", "Kore", "Fenrir", "Leda"
 ]
+# مدل ثابت است و دیگر نیازی به لیست مدل‌ها نیست
+FIXED_MODEL_NAME = "gemini-2.5-flash-preview-tts"
+# --- توابع کمکی (بدون تغییر زیاد، فقط لاگ‌ها دیگر به کاربر نمایش داده نمی‌شوند) ---
+# لاگ‌ها همچنان در لیست جمع‌آوری می‌شوند اما در خروجی نهایی Gradio نمایش داده نمی‌شوند.
+def _log(message, log_list):
+    """تابع داخلی برای افزودن پیام به لیست لاگ‌ها."""
+    # print(message) # برای دیباگ در کنسول Hugging Face Spaces مفید است
+    log_list.append(message)
+def save_binary_file(file_name, data, log_list):
     try:
         with open(file_name, "wb") as f:
             f.write(data)
+        _log(f"✅ فایل در مسیر زیر ذخیره شد: {file_name}", log_list)
         return file_name
     except Exception as e:
+        _log(f"❌ خطا در ذخیره فایل {file_name}: {e}", log_list)
         return None
 def convert_to_wav(audio_data: bytes, mime_type: str) -> bytes:
     block_align = num_channels * bytes_per_sample
     byte_rate = sample_rate * block_align
     chunk_size = 36 + data_size
     header = struct.pack(
         "<4sI4s4sIHHIIHH4sI",
         b"RIFF", chunk_size, b"WAVE", b"fmt ", 16, 1, num_channels,
 def parse_audio_mime_type(mime_type: str) -> dict[str, int | None]:
     bits_per_sample = 16
+    rate = 24000
     parts = mime_type.split(";")
     for param in parts:
         param = param.strip()
             try:
                 rate_str = param.split("=", 1)[1]
                 rate = int(rate_str)
+            except (ValueError, IndexError): pass
+        elif param.startswith("audio/L"):
             try:
                 bits_per_sample = int(param.split("L", 1)[1])
+            except (ValueError, IndexError): pass
     return {"bits_per_sample": bits_per_sample, "rate": rate}
+def smart_text_split(text, max_size=3800, log_list=None):
     if len(text) <= max_size:
         return [text]
     chunks = []
     current_chunk = ""
     sentences = re.split(r'(?<=[.!?؟])\s+', text)
     for sentence in sentences:
+        sentence_with_space = sentence + " "
         if len(current_chunk) + len(sentence_with_space) > max_size:
+            if current_chunk:
                 chunks.append(current_chunk.strip())
             current_chunk = sentence
             while len(current_chunk) > max_size:
                 split_idx = -1
                 possible_split_chars = ['،', ',', ';', ':', ' ']
+                for char_idx in range(max_size - 1, max_size // 2, -1):
                     if current_chunk[char_idx] in possible_split_chars:
                         split_idx = char_idx + 1
                         break
                 if split_idx != -1:
                     chunks.append(current_chunk[:split_idx].strip())
                     current_chunk = current_chunk[split_idx:].strip()
+                else:
                     chunks.append(current_chunk[:max_size].strip())
                     current_chunk = current_chunk[max_size:].strip()
         else:
             current_chunk += (" " if current_chunk else "") + sentence
+    if current_chunk:
         chunks.append(current_chunk.strip())
+    final_chunks = [c for c in chunks if c]
+    if log_list: # Optional logging
+        _log(f"📊 متن به {len(final_chunks)} قطعه تقسیم شد.", log_list)
+        for i, chunk_text in enumerate(final_chunks):
+             _log(f"📝 قطعه {i+1}: {len(chunk_text)} کاراکتر", log_list)
+    return final_chunks
+def merge_audio_files_func(file_paths, output_path, log_list):
     if not PYDUB_AVAILABLE:
+        _log("❌ pydub در دسترس نیست. نمی‌توان فایل‌ها را ادغام کرد.", log_list)
         return False
     try:
+        _log(f"🔗 در حال ادغام {len(file_paths)} فایل صوتی...", log_list)
         combined = AudioSegment.empty()
         for i, file_path in enumerate(file_paths):
             if os.path.exists(file_path):
+                _log(f"📎 اضافه کردن فایل {i+1}: {os.path.basename(file_path)}", log_list)
+                audio = AudioSegment.from_file(file_path)
                 combined += audio
+                if i < len(file_paths) - 1:
+                    combined += AudioSegment.silent(duration=200)
             else:
+                _log(f"⚠️ فایل پیدا نشد: {file_path}", log_list)
         combined.export(output_path, format="wav")
+        _log(f"✅ فایل ادغام شده ذخیره شد: {output_path}", log_list)
         return True
     except Exception as e:
+        _log(f"❌ خطا در ادغام فایل‌ها: {e}", log_list)
         return False
+def create_zip_file(file_paths, zip_name, log_list):
     try:
         with zipfile.ZipFile(zip_name, 'w') as zipf:
             for file_path in file_paths:
                 if os.path.exists(file_path):
                     zipf.write(file_path, os.path.basename(file_path))
+        _log(f"📦 فایل ZIP ایجاد شد: {zip_name}", log_list)
         return True
     except Exception as e:
+        _log(f"❌ خطا در ایجاد فایل ZIP: {e}", log_list)
         return False
+# --- تابع اصلی تولید (با تغییرات درخواستی) ---
 def core_generate_audio(
     text_input, prompt_input, selected_voice, output_base_name,
+    temperature_val, max_chunk, sleep_time,
+    log_list # Pass the list to append internal logs
 ):
+    _log("🚀 شروع فرآیند تبدیل متن به گفتار با هوش مصنوعی آلفا...", log_list)
+    api_key = os.environ.get("GEMINI_API_KEY") # نام Secret در HF Spaces
     if not api_key:
+        _log("❌ خطا: کلید API برای هوش مصنوعی آلفا (GEMINI_API_KEY) در Secrets این Space تنظیم نشده است.", log_list)
+        # چون لاگ نمایش داده نمی‌شود، کاربر فقط خروجی خالی دریافت می‌کند.
+        # بهتر است یک پیام خطا به کاربر نمایش داده شود اگر کلید نیست.
+        # اما طبق درخواست، لاگ حذف شده، پس فعلا اینطور می‌ماند.
+        return None, None, "خطا: کلید API تنظیم نشده است. لطفاً با مدیر تماس بگیرید." # پیام خطا برای کاربر
     try:
+        _log("🛠️ در حال ایجاد کلاینت هوش مصنوعی آلفا...", log_list)
         client = genai.Client(api_key=api_key)
+        _log("✅ کلاینت با موفقیت ایجاد شد.", log_list)
     except Exception as e:
+        _log(f"❌ خطا در ایجاد کلاینت: {e}", log_list)
+        return None, None, "خطا در اتصال به سرویس هوش مصنوعی. لطفاً بعداً تلاش کنید."
     if not text_input or text_input.strip() == "":
+        _log("❌ خطا: متن ورودی خالی است.", log_list)
+        return None, None, "خطا: لطفاً متنی را برای تبدیل وارد کنید."
+    text_chunks = smart_text_split(text_input, max_chunk, log_list)
     if not text_chunks:
+        _log("❌ خطا: هیچ قطعه متنی برای پردازش وجود ندارد.", log_list)
+        return None, None, "خطا: مشکلی در پردازش متن ورودی پیش آمد."
     generated_files = []
+    model_to_use = FIXED_MODEL_NAME # استفاده از مدل ثابت
     for i, chunk in enumerate(text_chunks):
+        _log(f"\n🔊 تولید صدا برای قطعه {i+1}/{len(text_chunks)} با مدل {model_to_use}...", log_list)
         final_text = f'"{prompt_input}"\n{chunk}' if prompt_input and prompt_input.strip() else chunk
         contents = [types.Content(role="user", parts=[types.Part.from_text(text=final_text)])]
         current_chunk_filename_base = f"{output_base_name}_part{i+1:03d}"
         try:
+            response = client.models.generate_content(
+                model=model_to_use,
                 contents=contents,
                 config=generate_content_config,
             )
                 inline_data = response.candidates[0].content.parts[0].inline_data
                 data_buffer = inline_data.data
                 file_extension = mimetypes.guess_extension(inline_data.mime_type)
                 if file_extension is None or "binary" in inline_data.mime_type or file_extension == ".bin":
                     file_extension = ".wav"
+                    if "audio/L" in inline_data.mime_type:
                          data_buffer = convert_to_wav(data_buffer, inline_data.mime_type)
+                elif inline_data.mime_type == "audio/mpeg": file_extension = ".mp3"
+                elif inline_data.mime_type == "audio/wav": file_extension = ".wav"
+                generated_file_path = save_binary_file(f"{current_chunk_filename_base}{file_extension}", data_buffer, log_list)
                 if generated_file_path:
                     generated_files.append(generated_file_path)
+                    _log(f"✅ قطعه {i+1} تولید شد: {os.path.basename(generated_file_path)}", log_list)
             elif response.text:
+                 _log(f"ℹ️ پیام متنی از API برای قطعه {i+1}: {response.text}", log_list)
                  if "rate limit" in response.text.lower() or "quota" in response.text.lower():
+                    _log(f"⏳ محدودیت تعداد درخواست API. افزایش فاصله زمانی.", log_list)
+                    # می‌توان sleep_time را به صورت پویا افزایش داد
             else:
+                _log(f"⚠️ پاسخ API برای قطعه {i+1} حاوی داده صوتی یا پیام متنی نبود. جزئیات: {response.prompt_feedback if response else 'No response'}", log_list)
         except types.generation_types.BlockedPromptException as bpe:
+            _log(f"❌ محتوای پرامپت برای قطعه {i+1} مسدود شد: {bpe}", log_list)
+            return None, None, "خطا: محتوای ورودی شما توسط سیستم ایمنی مسدود شد. لطفاً متن را تغییر دهید."
         except Exception as e:
+            _log(f"❌ خطا در تولید قطعه {i+1}: {e}", log_list)
+            if "API key not valid" in str(e): return None, None, "خطا: کلید API نامعتبر است."
+            elif "quota" in str(e).lower(): return None, None, "خطا: محدودیت استفاده از سرویس به پایان رسیده است."
+            # برای سایر خطاها، یک پیام عمومی
+            # return None, None, "خطا در تولید صدا. لطفاً دوباره ��لاش کنید." # این باعث توقف کل فرآیند می‌شود.
+            # بهتر است ادامه دهد و اگر هیچ فایلی تولید نشد، آنگاه پیام خطا بدهد.
+            continue # ادامه به قطعه بعدی
         if i < len(text_chunks) - 1 and len(text_chunks) > 1 :
+            _log(f"⏱️ انتظار {sleep_time} ثانیه...", log_list)
             time.sleep(sleep_time)
     if not generated_files:
+        _log("❌ هیچ فایل صوتی تولید نشد!", log_list)
+        return None, None, "متاسفانه هیچ فایل صوتی تولید نشد. لطفاً ورودی خود را بررسی کرده و مجدداً تلاش کنید."
+    _log(f"\n🎉 {len(generated_files)} فایل صوتی با موفقیت تولید شد!", log_list)
     playback_file = None
     download_file = None
+    user_message = "صدا با موفقیت تولید شد." # پیام پیش‌فرض
+    # ادغام خودکار و حذف فایل‌های جزئی
+    if len(generated_files) > 1:
+        if PYDUB_AVAILABLE:
+            merged_filename = f"{output_base_name}_final_audio.wav"
+            if merge_audio_files_func(generated_files, merged_filename, log_list):
                 playback_file = merged_filename
                 download_file = merged_filename
+                _log(f"🎵 فایل نهایی ادغام شده: {os.path.basename(merged_filename)}", log_list)
+                # حذف خودکار فایل‌های جزئی
+                for file_path in generated_files:
+                    try:
+                        if os.path.abspath(file_path) != os.path.abspath(merged_filename):
+                            os.remove(file_path)
+                            _log(f"🗑️ فایل جزئی حذف شد: {os.path.basename(file_path)}", log_list)
+                    except Exception as e:
+                        _log(f"⚠️ خطا در حذف فایل جزئی {os.path.basename(file_path)}: {e}", log_list)
             else:
+                _log("⚠️ ادغام ممکن نبود. فایل ZIP از قطعات ارائه می‌شود.", log_list)
+                user_message = "ادغام فایل‌ها ممکن نبود. فایل ZIP از قطعات صوتی برای دانلود آماده شد."
                 zip_filename = f"{output_base_name}_all_parts.zip"
+                if create_zip_file(generated_files, zip_filename, log_list):
                     download_file = zip_filename
+                if generated_files: playback_file = generated_files[0] # پخش اولین قطعه
+        else: # pydub در دسترس نیست
+            _log("⚠️ pydub برای ادغام در دسترس نیست. فایل ZIP از قطعات ارائه می‌شود.", log_list)
+            user_message = "فایل‌های صوتی به صورت جداگانه در یک فایل ZIP آماده شدند (امکان ادغام وجود نداشت)."
+            zip_filename = f"{output_base_name}_all_parts.zip"
+            if create_zip_file(generated_files, zip_filename, log_list):
+                download_file = zip_filename
+            if generated_files: playback_file = generated_files[0]
     elif len(generated_files) == 1:
         playback_file = generated_files[0]
         download_file = generated_files[0]
     if playback_file and not os.path.exists(playback_file):
+        _log(f"⚠️ فایل پخش {os.path.basename(playback_file)} وجود ندارد!", log_list)
         playback_file = None
     if download_file and not os.path.exists(download_file):
+        _log(f"⚠️ فایل دانلود {os.path.basename(download_file)} وجود ندارد!", log_list)
         download_file = None
+    if not playback_file and not download_file:
+        user_message = "خطا در تولید یا آماده‌سازی فایل نهایی."
+    return playback_file, download_file, user_message
+# --- تابع رابط کاربری Gradio (با تغییرات درخواستی) ---
 def gradio_tts_interface(
     use_file_input, uploaded_file, text_to_speak,
     speech_prompt, speaker_voice, output_filename_base_in,
+    temperature, max_chunk_size, sleep_between_requests,
+    progress=gr.Progress(track_tqdm=True)
 ):
+    internal_logs = [] # لیست برای لاگ‌های داخلی، به کاربر نمایش داده نمی‌شود
     actual_text_input = ""
     if use_file_input:
         if uploaded_file is not None:
             try:
                 with open(uploaded_file.name, 'r', encoding='utf-8') as f:
                     actual_text_input = f.read().strip()
+                _log(f"✅ متن از فایل '{os.path.basename(uploaded_file.name)}' بارگذاری شد.", internal_logs)
                 if not actual_text_input:
+                    return None, None, "خطا: فایل آپلود شده خالی است."
             except Exception as e:
+                _log(f"❌ خطا در خواندن فایل آپلود شده: {e}", internal_logs)
+                return None, None, f"خطا در خواندن فایل: {e}"
         else:
+            return None, None, "خطا: گزینه فایل انتخاب شده اما فایلی آپلود نشده."
     else:
         actual_text_input = text_to_speak
         if not actual_text_input or not actual_text_input.strip():
+            return None, None, "خطا: لطفاً متنی را وارد کنید."
+    output_filename_base = re.sub(r'[^\w\-_]', '', output_filename_base_in if output_filename_base_in else "alpha_tts_output")
+    if not output_filename_base: output_filename_base = "alpha_tts_output"
+    playback_path, download_path, user_message_from_core = core_generate_audio(
         actual_text_input, speech_prompt, speaker_voice, output_filename_base,
+        temperature, max_chunk_size, sleep_between_requests, internal_logs
     )
+    # پیام نهایی برای کاربر
+    final_user_message = user_message_from_core
+    if not PYDUB_AVAILABLE and len(smart_text_split(actual_text_input, max_chunk_size)) > 1 and download_path and download_path.endswith(".zip"):
+         final_user_message = "صدا با موفقیت تولید شد. چون قطعات متعدد بودند و امکان ادغام خودکار فراهم نبود، فایل ZIP برای دانلود آماده شد."
+    return playback_path, download_path, final_user_message
 # --- تعریف رابط کاربری Gradio ---
 css = """
+body { font-family: 'Tahoma', 'Arial', sans-serif; direction: rtl; background-color: #f0f2f5; }
+.gradio-container { max-width: 95% !important; margin: 20px auto !important; padding: 15px !important; background-color: #ffffff; border-radius: 12px; box-shadow: 0 4px 12px rgba(0,0,0,0.1); }
+@media (min-width: 768px) { .gradio-container { max-width: 700px !important; } }
 footer { display: none !important; }
+.gr-button { font-weight: bold; background-color: #007bff !important; color: white !important; border-radius: 8px !important; padding: 10px 20px !important; transition: background-color 0.3s ease; }
+.gr-button:hover { background-color: #0056b3 !important; }
+.gr-input, .gr-dropdown, .gr-slider, .gr-checkbox, .gr-textbox, .gr-file { border-radius: 6px !important; border: 1px solid #ced4da; }
+.gr-panel { padding: 15px !important; border-radius: 8px !important; background-color: #f8f9fa; border: 1px solid #e9ecef; margin-bottom:15px; }
+h1, h2, h3 { color: #343a40; text-align: center; }
+h1 { font-size: 1.8em; margin-bottom: 5px;}
+h2 { font-size: 1.2em; margin-bottom: 15px; color: #495057;}
+label { font-weight: 500; color: #495057; margin-bottom: 5px; display: block; }
 #output_audio .gallery, #download_file_output .gallery { display: none !important; }
+textarea, input[type="text"] { direction: rtl; text-align: right; padding: 10px; font-size: 1em; }
+.gr-form { gap: 20px !important; }
+.user_message_output { padding: 10px; margin-top: 15px; border-radius: 6px; text-align: center; font-weight: 500; }
+.user_message_output.success { background-color: #d4edda; color: #155724; border: 1px solid #c3e6cb; }
+.user_message_output.error { background-color: #f8d7da; color: #721c24; border: 1px solid #f5c6cb; }
+"""
+alpha_intro = """
+<div style='text-align:center; padding:10px;'>
+  <img src='https://img.icons8.com/fluency/96/artificial-intelligence.png' alt='AI Icon' style='width:60px; height:60px; margin-bottom:5px;'/>
+  <h1>تبدیل متن به صدا با هوش مصنوعی آلفا</h1>
+  <p style='font-size:1.1em; color:#555;'>به سادگی متن خود را وارد کنید و صدای طبیعی و رسا تحویل بگیرید!</p>
+</div>
 """
 with gr.Blocks(css=css, theme=gr.themes.Soft(primary_hue=gr.themes.colors.blue, secondary_hue=gr.themes.colors.sky)) as demo:
+    gr.HTML(alpha_intro)
+    with gr.Accordion("⚠️ راهنمای مهم: تنظیم کلید API", open=False, elem_id="api_key_accordion"):
         gr.Markdown(
+            "**برای استفاده از این ابزار، نیاز به تنظیم یک کلید API در تنظیمات این Space دارید:**\n"
+            "1. به صفحه اصلی این Space بروید.\n"
+            "2. روی نام Space و سپس 'Settings' (⚙️) کلیک کنید.\n"
+            "3. در منوی سمت چپ، به 'Secrets' بروید.\n"
+            "4. روی '+ New secret' کلیک کنید.\n"
+            "5. نام Secret را `GEMINI_API_KEY` (با حروف بزرگ) وارد کنید.\n"
+            "6. کلید API خود را در فیلد 'Value' وارد کنید.\n"
+            "7. 'Save secret' را بزنید و در صورت نیاز Space را Restart کنید."
         )
+    with gr.Row(elem_classes="gr-form"):
         with gr.Column(scale=3, min_width=300):
+            gr.Markdown("### ۱. متن و سبک گفتار خود را وارد کنید")
+            use_file_input_cb = gr.Checkbox(label="📄 استفاده از فایل متنی ورودی (.txt)", value=False)
+            uploaded_file_input = gr.File(label="📂 آپلود فایل متنی (UTF-8)", file_types=['.txt'], visible=False)
             text_to_speak_tb = gr.Textbox(
+                label="⌨️ متن برای تبدیل به گفتار:",
+                placeholder="اینجا بنویسید...",
                 lines=8,
+                value="سلام! من هوش مصنوعی آلفا هستم و می‌توانم متن شما را به صدا تبدیل کنم.",
+                visible=True
             )
             use_file_input_cb.change(
                 fn=lambda x: (gr.update(visible=x), gr.update(visible=not x)),
                 inputs=use_file_input_cb,
                 outputs=[uploaded_file_input, text_to_speak_tb]
             )
             speech_prompt_tb = gr.Textbox(
+                label="🗣️ سبک گفتار (اختیاری):",
+                placeholder="مثال: یک گوینده خبر حرفه‌ای، یک دوست صمیمی، پرانرژی و شاد",
+                value="با لحنی دوستانه و واضح صحبت کن.",
                 lines=2
             )
         with gr.Column(scale=2, min_width=250):
+            gr.Markdown("### ۲. تنظیمات صدا")
             speaker_voice_dd = gr.Dropdown(
+                SPEAKER_VOICES, label="🎤 انتخاب گوینده:", value="Charon"
             )
             temperature_slider = gr.Slider(
+                minimum=0.1, maximum=1.5, step=0.05, value=0.9, label="🌡️ خلاقیت صدا (دما):"
+            )
             output_filename_base_tb = gr.Textbox(
+                label="📛 نام پایه فایل خروجی (اختیاری):", value="alpha_audio_output"
             )
+            gr.Markdown("#### تنظیمات فنی (پیشرفته)")
             max_chunk_size_slider = gr.Slider(
+                minimum=1500, maximum=4000, step=100, value=3800, label="📏 حداکثر کاراکتر هر بخش:"
+            )
             sleep_between_requests_slider = gr.Slider(
+                minimum=3, maximum=20, step=0.5, value=10, label="⏱️ تاخیر بین بخش‌ها (ثانیه):"
+            )
+    generate_button = gr.Button("🎧 تولید صدا با آلفا", variant="primary", elem_id="generate_button_main")
+    user_message_display = gr.Textbox(
+        label=" ",
+        interactive=False,
+        elem_classes="user_message_output",
+        placeholder="پیام وضعیت اینجا نمایش داده می‌شود..."
+    )
+    gr.HTML("<hr style='margin: 20px 0;'>")
+    gr.Markdown("<h3 style='text-align:center; margin-bottom:10px;'>📢 نتیجه و دانلود 📢</h3>")
     with gr.Row():
         with gr.Column(scale=1):
+            output_audio = gr.Audio(label="🔊 فایل صوتی تولید شده:", type="filepath", elem_id="output_audio_player")
         with gr.Column(scale=1):
+            download_file_output = gr.File(label="💾 دانلود فایل نهایی (WAV یا ZIP):", elem_id="download_file_link")
     generate_button.click(
         fn=gradio_tts_interface,
         inputs=[
             use_file_input_cb, uploaded_file_input, text_to_speak_tb,
             speech_prompt_tb, speaker_voice_dd, output_filename_base_tb,
+            temperature_slider, max_chunk_size_slider, sleep_between_requests_slider
         ],
+        outputs=[output_audio, download_file_output, user_message_display]
+    ).then(
+        # JavaScript to update user_message_display class based on content
+        None, None, None,
+        _js="""
+        (audio, file, msg_text) => {
+            const msg_box = document.querySelector('.user_message_output textarea'); // Gradio Textbox is a textarea
+            if (msg_box) {
+                msg_box.classList.remove('success', 'error'); // Clear previous classes
+                if (msg_text.toLowerCase().includes('خطا') || msg_text.toLowerCase().includes('متاسفانه')) {
+                    msg_box.classList.add('error');
+                } else if (msg_text) {
+                    msg_box.classList.add('success');
+                }
+            }
+            return [audio, file, msg_text]; // Must return all outputs
+        }
+        """
     )
     gr.Examples(
+        label="✨ نمونه‌های آماده برای امتحان کردن ✨",
         examples=[
+            [False, None, "سلام به همه دوستان! امروز می‌خواهیم درباره آخرین دستاوردهای هوش مصنوعی صحبت کنیم.", "با لحنی پر انرژی و هیجان‌زده، مانند یک مجری برنامه علمی.", "Zephyr", "alpha_demo_1", 0.95, 3800, 8],
+            [False, None, "داستان از آنجا شروع شد که در یک شب تاریک و طوفانی، قهرمان ما به کلبه‌ای مرموز رسید.", "با صدایی آرام و داستانی، مناسب برای قصه‌گویی شبانه.", "Achird", "alpha_story_1", 0.8, 3500, 12],
+            [False, None, "آخرین اخبار ورزشی: تیم ملی فوتبال کشورمان با یک بازی درخشان به پیروزی رسید!", "مانند یک گزارشگر ورزشی هیجان‌زده و سریع.", "Orus", "alpha_news_1", 1.0, 3000, 7],
+            [False, None, "آموزش پخت کیک شکلاتی: ابتدا فر را با دمای ۱۸۰ درجه سانتی‌گراد گرم کنید. سپس آرد، شکر و کاکائو را با هم مخلوط نمایید.", "با صدایی واضح، آموزشی و کمی آهسته‌تر از حد معمول.", "Vindemiatrix", "alpha_recipe_1", 0.75, 3800, 10],
+            [False, None, "به پادکست هفتگی ما خوش آمدید. این هفته به بررسی عمیق تاثیرات فناوری بر زندگی روزمره خواهیم پرداخت.", "مانند یک میزبان پادکست، صمیمی و متفکر.", "Laomedeia", "alpha_podcast_1", 0.85, 3600, 11],
+            [False, None, "اعلامیه مهم: پرواز شماره ۳۷۲ به مقصد تهران با یک ساعت تاخیر انجام خواهد شد. از صبر و شکیبایی شما سپاسگزاریم.", "با صدایی رسمی و واضح، مانند اعلانات فرودگاه.", "Schedar", "alpha_announce_1", 0.7, 3200, 9],
+            [False, None, "یک شعر زیبا از حافظ: «یوسف گمگشته بازآید به کنعان غم مخور / کلبه احزان شود روزی گلستان غم مخور».", "با لحنی ادیبانه و احساسی، مناسب برای دکلمه شعر.", "Alnilam", "alpha_poem_1", 0.9, 3700, 13],
+             [False, None, "تماس با پشتیبانی: برای ارتباط با واحد فروش عدد ۱، واحد پشتیبانی فنی عدد ۲ و برای سایر موارد عدد ۳ را شماره‌گیری فرمایید.", "با صدایی ماشینی و راهنما، مانند سیستم پاسخگویی تلفنی.", "Puck", "alpha_ivr_1", 0.6, 3000, 6],
         ],
         inputs=[
             use_file_input_cb, uploaded_file_input, text_to_speak_tb,
             speech_prompt_tb, speaker_voice_dd, output_filename_base_tb,
+            temperature_slider, max_chunk_size_slider, sleep_between_requests_slider
         ],
+        outputs=[output_audio, download_file_output, user_message_display],
         fn=gradio_tts_interface,
+        cache_examples=False
     )
     gr.Markdown(
+        "<div style='text-align: center; margin-top: 30px; padding-top:15px; border-top: 1px solid #eee; font-size: 0.9em; color: #6c757d;'>"
+        "قدرت گرفته از فناوری پیشرفته هوش مصنوعی آلفا.<br>"
+        "لطفاً از این ابزار به صورت مسئولانه استفاده کنید."
         "</div>"
     )
 if __name__ == "__main__":
     demo.launch()