Spaces:

Omarrran
/

TTS_DATASET_MAKER

Sleeping

App Files Files Community

Omarrran commited on Nov 10, 2024

Commit

968d3a5

verified ·

1 Parent(s): 0b8958e

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -41

app.py CHANGED Viewed

@@ -145,7 +145,7 @@ class TTSDatasetCollector:
                         continue
                     # Split on common sentence endings
-                    parts = line.replace('!', '.').replace('?', '.').split('.')
                     for part in parts:
                         part = part.strip()
                         if part:
@@ -160,7 +160,7 @@ class TTSDatasetCollector:
             try:
                 # Try NLTK first
-                self.sentences = nltk.sent_tokenize(text.strip())
             except Exception as e:
                 logger.warning(f"NLTK tokenization failed, falling back to simple splitting: {str(e)}")
                 # Fallback to simple splitting
@@ -191,8 +191,7 @@ class TTSDatasetCollector:
             if not file.name.endswith('.txt'):
                 return False, "Only .txt files are supported"
-            with open(file.name, 'r', encoding='utf-8') as f:
-                text = f.read()
             return self.process_text(text)
@@ -214,7 +213,8 @@ class TTSDatasetCollector:
     def set_font(self, font_style: str) -> Tuple[bool, str]:
         """Set the current font style"""
         if font_style not in FONT_STYLES and font_style not in self.custom_fonts:
-            return False, f"Invalid font style. Available styles: {', '.join(FONT_STYLES.keys()) + ', ' + ', '.join(self.custom_fonts.keys())}"
         self.current_font = font_style
         return True, f"Font style set to {font_style}"
@@ -231,7 +231,7 @@ class TTSDatasetCollector:
             # Save the font file
             with open(font_dest, 'wb') as f:
-                f.write(font_file.read())
             # Add to custom fonts
             self.custom_fonts[font_family] = {
@@ -469,7 +469,7 @@ Font_Style: {metadata['font_style']}
                 metadata = json.load(f)
             # Flatten statistics for display
             total_sentences = len(self.sentences)
-            recorded = len(set(metadata['speakers'][list(metadata['speakers'].keys())[0]]['datasets'][list(metadata['speakers'][list(metadata['speakers'].keys())[0]]['datasets'].keys())[0]]['recorded_sentences'])) if metadata['speakers'] else 0
             remaining = total_sentences - recorded
             stats = {
                 "Total Sentences": total_sentences,
@@ -512,8 +512,8 @@ def create_interface():
         max-width: 1200px !important;
     }
     .record-button {
-        font-size: 1.2em !important;
-        padding: 20px !important;
     }
     .sentence-display {
         font-size: 1.4em !important;
@@ -523,6 +523,9 @@ def create_interface():
         margin: 10px 0 !important;
         min-height: 100px !important;
     }
     """
     # Add font-face declarations
@@ -544,38 +547,57 @@ def create_interface():
         with gr.Row():
             # Left column - Configuration and Input
-            with gr.Column():
                 text_input = gr.Textbox(
                     label="Paste Text",
                     placeholder="Paste your text here...",
-                    lines=5
                 )
                 file_input = gr.File(
                     label="Or Upload Text File (.txt)",
-                    file_types=[".txt"]
                 )
                 speaker_id = gr.Textbox(
                     label="Speaker ID",
-                    placeholder="Enter unique speaker identifier (letters and numbers only)"
                 )
                 dataset_name = gr.Textbox(
                     label="Dataset Name",
-                    placeholder="Enter dataset name (letters and numbers only)"
                 )
                 font_select = gr.Dropdown(
                     choices=list(FONT_STYLES.keys()),
                     value="english_serif",
-                    label="Select Font Style"
                 )
                 # Custom font upload
                 font_file_input = gr.File(
                     label="Upload Custom Font (.ttf)",
-                    file_types=[".ttf"]
                 )
                 add_font_btn = gr.Button("Add Custom Font")
             # Right column - Recording
-            with gr.Column():
                 current_text = gr.HTML(
                     label="Current Sentence",
                     elem_classes=["sentence-display"]
@@ -584,7 +606,7 @@ def create_interface():
                     label="Next Sentence",
                     elem_classes=["sentence-display"]
                 )
-                progress = gr.Markdown("")
                 audio_recorder = gr.Audio(
                     label="Record Audio",
@@ -594,26 +616,13 @@ def create_interface():
                 # Controls
                 with gr.Row():
                     prev_btn = gr.Button("Previous", variant="secondary")
-                    save_btn = gr.Button("Save Recording", variant="primary", elem_classes=["record-button"])
                     next_btn = gr.Button("Next", variant="primary")
-            # Status and Progress
-            status = gr.Textbox(
-                label="Status",
-                interactive=False,
-                max_lines=3
-            )
-        # Dataset Info and Download Links
-        with gr.Row():
-            dataset_info = gr.JSON(
-                label="Dataset Statistics",
-                value={}
-            )
-        with gr.Row():
-            download_audio = gr.File(label="Download Audio", interactive=False)
-            download_transcript = gr.File(label="Download Transcript", interactive=False)
         def process_pasted_text(text):
             """Handle pasted text input"""
@@ -637,7 +646,7 @@ def create_interface():
                 }
             nav_info = collector.get_navigation_info()
-            progress_bar = gr.HTML.update(value=f"<progress value='{collector.current_index}' max='{len(collector.sentences)}'></progress>")
             return {
                 current_text: nav_info['current'],
                 next_text: nav_info['next'],
@@ -681,7 +690,7 @@ def create_interface():
                 }
             nav_info = collector.get_navigation_info()
-            progress_bar = gr.HTML.update(value=f"<progress value='{collector.current_index}' max='{len(collector.sentences)}'></progress>")
             return {
                 current_text: nav_info['current'],
                 next_text: nav_info['next'],
@@ -717,7 +726,7 @@ def create_interface():
             # Auto-advance to next sentence after successful save
             nav_info = collector.navigate("next")
-            progress_bar = gr.HTML.update(value=f"<progress value='{collector.current_index}' max='{len(collector.sentences)}'></progress>")
             return {
                 current_text: nav_info['current'],
                 next_text: nav_info['next'],
@@ -731,7 +740,7 @@ def create_interface():
         def navigate_sentences(direction):
             """Handle navigation between sentences"""
             nav_info = collector.navigate(direction)
-            progress_bar = gr.HTML.update(value=f"<progress value='{collector.current_index}' max='{len(collector.sentences)}'></progress>")
             return {
                 current_text: nav_info['current'],
                 next_text: nav_info['next'],
@@ -816,4 +825,4 @@ if __name__ == "__main__":
     except Exception as e:
         logger.error(f"Failed to launch interface: {str(e)}")
         logger.error(traceback.format_exc())
-        raise

                         continue
                     # Split on common sentence endings
+                    parts = re.split(r'[.!?]', line)
                     for part in parts:
                         part = part.strip()
                         if part:
             try:
                 # Try NLTK first
+                self.sentences = nltk.sent_tokenize(text.strip(), language='english')
             except Exception as e:
                 logger.warning(f"NLTK tokenization failed, falling back to simple splitting: {str(e)}")
                 # Fallback to simple splitting
             if not file.name.endswith('.txt'):
                 return False, "Only .txt files are supported"
+            text = file.read().decode('utf-8')
             return self.process_text(text)
     def set_font(self, font_style: str) -> Tuple[bool, str]:
         """Set the current font style"""
         if font_style not in FONT_STYLES and font_style not in self.custom_fonts:
+            available_fonts = ', '.join(list(FONT_STYLES.keys()) + list(self.custom_fonts.keys()))
+            return False, f"Invalid font style. Available styles: {available_fonts}"
         self.current_font = font_style
         return True, f"Font style set to {font_style}"
             # Save the font file
             with open(font_dest, 'wb') as f:
+                f.write(font_file.getvalue())
             # Add to custom fonts
             self.custom_fonts[font_family] = {
                 metadata = json.load(f)
             # Flatten statistics for display
             total_sentences = len(self.sentences)
+            recorded = sum(len(dataset['recorded_sentences']) for speaker in metadata['speakers'].values() for dataset in speaker['datasets'].values())
             remaining = total_sentences - recorded
             stats = {
                 "Total Sentences": total_sentences,
         max-width: 1200px !important;
     }
     .record-button {
+        font-size: 1em !important;
+        padding: 10px !important;
     }
     .sentence-display {
         font-size: 1.4em !important;
         margin: 10px 0 !important;
         min-height: 100px !important;
     }
+    .small-input {
+        max-width: 300px !important;
+    }
     """
     # Add font-face declarations
         with gr.Row():
             # Left column - Configuration and Input
+            with gr.Column(scale=1):
                 text_input = gr.Textbox(
                     label="Paste Text",
                     placeholder="Paste your text here...",
+                    lines=5,
+                    elem_classes=["small-input"]
                 )
                 file_input = gr.File(
                     label="Or Upload Text File (.txt)",
+                    file_types=[".txt"],
+                    elem_classes=["small-input"]
                 )
                 speaker_id = gr.Textbox(
                     label="Speaker ID",
+                    placeholder="Enter unique speaker identifier (letters and numbers only)",
+                    elem_classes=["small-input"]
                 )
                 dataset_name = gr.Textbox(
                     label="Dataset Name",
+                    placeholder="Enter dataset name (letters and numbers only)",
+                    elem_classes=["small-input"]
                 )
                 font_select = gr.Dropdown(
                     choices=list(FONT_STYLES.keys()),
                     value="english_serif",
+                    label="Select Font Style",
+                    elem_classes=["small-input"]
                 )
                 # Custom font upload
                 font_file_input = gr.File(
                     label="Upload Custom Font (.ttf)",
+                    file_types=[".ttf"],
+                    elem_classes=["small-input"]
                 )
                 add_font_btn = gr.Button("Add Custom Font")
+                status = gr.Textbox(
+                    label="Status",
+                    interactive=False,
+                    max_lines=3
+                )
+                # Dataset Info
+                with gr.Accordion("Dataset Statistics", open=False):
+                    dataset_info = gr.JSON(
+                        label="",
+                        value={}
+                    )
             # Right column - Recording
+            with gr.Column(scale=2):
                 current_text = gr.HTML(
                     label="Current Sentence",
                     elem_classes=["sentence-display"]
                     label="Next Sentence",
                     elem_classes=["sentence-display"]
                 )
+                progress = gr.HTML("")
                 audio_recorder = gr.Audio(
                     label="Record Audio",
                 # Controls
                 with gr.Row():
                     prev_btn = gr.Button("Previous", variant="secondary")
+                    save_btn = gr.Button("Save Recording", variant="primary")
                     next_btn = gr.Button("Next", variant="primary")
+                # Download Links
+                with gr.Row():
+                    download_audio = gr.File(label="Download Audio", interactive=False)
+                    download_transcript = gr.File(label="Download Transcript", interactive=False)
         def process_pasted_text(text):
             """Handle pasted text input"""
                 }
             nav_info = collector.get_navigation_info()
+            progress_bar = progress.update(value=f"<progress value='{collector.current_index + 1}' max='{len(collector.sentences)}'></progress> {nav_info['progress']}")
             return {
                 current_text: nav_info['current'],
                 next_text: nav_info['next'],
                 }
             nav_info = collector.get_navigation_info()
+            progress_bar = progress.update(value=f"<progress value='{collector.current_index + 1}' max='{len(collector.sentences)}'></progress> {nav_info['progress']}")
             return {
                 current_text: nav_info['current'],
                 next_text: nav_info['next'],
             # Auto-advance to next sentence after successful save
             nav_info = collector.navigate("next")
+            progress_bar = progress.update(value=f"<progress value='{collector.current_index + 1}' max='{len(collector.sentences)}'></progress> {nav_info['progress']}")
             return {
                 current_text: nav_info['current'],
                 next_text: nav_info['next'],
         def navigate_sentences(direction):
             """Handle navigation between sentences"""
             nav_info = collector.navigate(direction)
+            progress_bar = progress.update(value=f"<progress value='{collector.current_index + 1}' max='{len(collector.sentences)}'></progress> {nav_info['progress']}")
             return {
                 current_text: nav_info['current'],
                 next_text: nav_info['next'],
     except Exception as e:
         logger.error(f"Failed to launch interface: {str(e)}")
         logger.error(traceback.format_exc())
+        raise