Spaces:

fnarudee44
/

aitooortape

Running

App Files Files Community

aliceer commited on Jan 18

Commit

1676524

0 Parent(s):

Initial commit

Browse files

Files changed (5) hide show

.gitattributes +35 -0
README.md +26 -0
app.py +72 -0
packages.txt +1 -0
requirements.txt +6 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,26 @@

+---
+title: Thai Speech Recognition
+emoji: 🎤
+colorFrom: blue
+colorTo: purple
+sdk: gradio
+sdk_version: "4.19.2"
+app_file: app.py
+pinned: false
+---
+# ระบบถอดความเสียงภาษาไทย
+แอปพลิเคชันนี้ใช้โมเดล Whisper ที่ปรับแต่งสำหรับภาษาไทยโดยเฉพาะ (biodatlab/whisper-th-medium-combined) เพื่อถอดความเสียงพูดภาษาไทยเป็นข้อความ
+## วิธีใช้งาน
+1. อัพโหลดไฟล์เสียงของคุณ (รองรับหลายฟอร์แมต เช่น .mp3, .wav)
+2. รอสักครู่ระบบจะประมวลผล
+3. ผลลัพธ์การถอดความจะแสดงในกล่องข้อความด้านล่าง
+## หมายเหตุ
+- รองรับไฟล์เสียงความยาวไม่จำกัด (จะถูกแบ่งเป็นช่วงละ 30 วินาที)
+- เหมาะสำหรับเสียงพูดภาษาไทย
+- คุณภาพการถอดความขึ้นอยู่กับความชัดเจนของเสียงต้นฉบับ

app.py ADDED Viewed

	@@ -0,0 +1,72 @@

+import torch
+import gradio as gr
+from transformers import pipeline
+from pyannote.audio import Pipeline
+import datetime
+from pydub import AudioSegment
+import os
+# โมเดลถอดเสียง
+MODEL_NAME = "biodatlab/whisper-th-medium-combined"
+device = 0 if torch.cuda.is_available() else "cpu"
+pipe = pipeline(
+    task="automatic-speech-recognition",
+    model=MODEL_NAME,
+    chunk_length_s=30,
+    device=device,
+)
+# โมเดลแยกเสียงคนพูด
+HF_TOKEN = os.environ.get("HF_TOKEN")
+if not HF_TOKEN:
+    raise ValueError("กรุณาตั้งค่า HF_TOKEN ใน environment variables")
+diarization = Pipeline.from_pretrained(
+    "pyannote/speaker-diarization@2.1",
+    use_auth_token=HF_TOKEN
+)
+def format_timestamp(seconds):
+    return str(datetime.timedelta(seconds=seconds)).split(".")[0]
+def process_audio(audio_file):
+    if audio_file is None:
+        return "กรุณาอัพโหลดไฟล์เสียง"
+    try:
+        # แยกเสียงคนพูด
+        diarization_result = diarization(audio_file)
+        # ถอดความและจัดรูปแบบผลลัพธ์
+        transcription = pipe(
+            audio_file,
+            generate_kwargs={"language": "<|th|>", "task": "transcribe"},
+            batch_size=16
+        )["text"]
+        # สร้างผลลัพธ์ที่มีการแยกคนพูด
+        result = []
+        for turn, _, speaker in diarization_result.itertracks(yield_label=True):
+            start_time = format_timestamp(turn.start)
+            end_time = format_timestamp(turn.end)
+            result.append(f"[{start_time} - {end_time}] {speaker}:")
+        # รวมผลลัพธ์
+        final_result = "\n".join(result) + "\n\nคำถอดความ:\n" + transcription
+        return final_result
+    except Exception as e:
+        return f"เกิดข้อผิดพลาด: {str(e)}"
+# สร้าง Gradio Interface
+iface = gr.Interface(
+    fn=process_audio,
+    inputs=gr.Audio(type="filepath", label="อัพโหลดไฟล์เสียงของคุณ"),
+    outputs=gr.Textbox(label="ผลการถอดความ"),
+    title="ระบบถอดความเสียงภาษาไทยพร้อมแยกเสียงคนพูด",
+    description="ใช้โมเดล Whisper สำหรับถอดความเสียงภาษาไทย และ pyannote.audio สำหรับแยกเสียงคนพูด"
+)
+# รัน app
+iface.launch()

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ ffmpeg

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+transformers
+torch
+librosa
+gradio
+pyannote.audio
+pydub