Spaces:

MoJaff
/

Mustalhim_AI

Running

MoJaff commited on Feb 27

Commit

fd20bfc

verified ·

1 Parent(s): 723c2aa

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,9 +1,10 @@
 import torch
 from transformers import AutoModelForCausalLM, LlamaTokenizer, pipeline as transformers_pipeline
-from kokoro import KPipeline
 import soundfile as sf
 import numpy as np
 import gradio as gr
 # Initialize the image-to-text pipeline
 captionImage = transformers_pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
@@ -53,31 +54,23 @@ def Generate_story(textAbout):
     return story
-# Function to generate audio
-def Generate_audio(text, voice='bm_lewis', speed=1):
-    pipeline = KPipeline(lang_code='a')  # Use 'a' for American English
-    generator = pipeline(text, voice=voice, speed=speed, split_pattern=r'\n+')
-    full_audio = []
-    for _, _, audio in generator:
-        if audio is not None:  # Check if audio is not None
-            full_audio.extend(audio)
-    if not full_audio:  # Check if full_audio is empty
-        raise ValueError("No audio data generated.")
-    full_audio = np.array(full_audio)
-    return full_audio, 24000
 # Main function to process the image and generate audio
 def Mustalhim(image):
     caption = Image_Caption(image)
     story = Generate_story(caption)
-    audio = Generate_audio(story)
-    return audio
 # Gradio interface
 def gradio_interface(image):
-    audio_waveform, sampling_rate = Mustalhim(image)
-    audio_file = "output_audio.wav"
-    sf.write(audio_file, audio_waveform, sampling_rate)
     return audio_file
 # Path to the example image

 import torch
 from transformers import AutoModelForCausalLM, LlamaTokenizer, pipeline as transformers_pipeline
+from gtts import gTTS  # Replace KPipeline with gTTS
 import soundfile as sf
 import numpy as np
 import gradio as gr
+import os
 # Initialize the image-to-text pipeline
 captionImage = transformers_pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
     return story
+# Function to generate audio using gTTS
+def Generate_audio(text, lang='en'):
+    tts = gTTS(text=text, lang=lang, slow=False)  # Create a gTTS object
+    audio_file = "output_audio.mp3"  # Save as MP3
+    tts.save(audio_file)  # Save the audio file
+    return audio_file
 # Main function to process the image and generate audio
 def Mustalhim(image):
     caption = Image_Caption(image)
     story = Generate_story(caption)
+    audio_file = Generate_audio(story)
+    return audio_file
 # Gradio interface
 def gradio_interface(image):
+    audio_file = Mustalhim(image)
     return audio_file
 # Path to the example image