kotoba-tech
/

kotoba-whisper-v1.1

Automatic Speech Recognition

hf-asr-leaderboard

Model card Files Files and versions

asahi417 commited on May 7, 2024

Commit

7c7272d

·

verified ·

1 Parent(s): 0c42027

Update pipeline/test_pipeline.py

Files changed (1) hide show

pipeline/test_pipeline.py +63 -1

pipeline/test_pipeline.py CHANGED Viewed

@@ -3,6 +3,8 @@ from datasets import load_dataset
 from transformers.pipelines import pipeline
 model_alias = "kotoba-tech/kotoba-whisper-v1.1"
 pipe = pipeline(model=model_alias,
                 punctuator=True,
                 stable_ts=True,
@@ -19,4 +21,64 @@ for i in dataset:
         generate_kwargs={"language": "japanese", "task": "transcribe"}
     )
     pprint(prediction)
-    input()

 from transformers.pipelines import pipeline
 model_alias = "kotoba-tech/kotoba-whisper-v1.1"
+print("""### P + S ###""")
 pipe = pipeline(model=model_alias,
                 punctuator=True,
                 stable_ts=True,
         generate_kwargs={"language": "japanese", "task": "transcribe"}
     )
     pprint(prediction)
+    input()
+    break
+print("""### P ###""")
+pipe = pipeline(model=model_alias,
+                punctuator=True,
+                stable_ts=False,
+                chunk_length_s=15,
+                batch_size=16,
+                trust_remote_code=True)
+dataset = load_dataset("kotoba-tech/kotoba-whisper-eval", split="train")
+for i in dataset:
+    if i["audio"]["path"] == "long_interview_1.mp3":
+        i["audio"]["array"] = i["audio"]["array"][:7938000]
+    prediction = pipe(
+        i["audio"],
+        return_timestamps=True,
+        generate_kwargs={"language": "japanese", "task": "transcribe"}
+    )
+    pprint(prediction)
+    break
+print("""### S ###""")
+pipe = pipeline(model=model_alias,
+                punctuator=False,
+                stable_ts=True,
+                chunk_length_s=15,
+                batch_size=16,
+                trust_remote_code=True)
+dataset = load_dataset("kotoba-tech/kotoba-whisper-eval", split="train")
+for i in dataset:
+    if i["audio"]["path"] == "long_interview_1.mp3":
+        i["audio"]["array"] = i["audio"]["array"][:7938000]
+    prediction = pipe(
+        i["audio"],
+        return_timestamps=True,
+        generate_kwargs={"language": "japanese", "task": "transcribe"}
+    )
+    pprint(prediction)
+    break
+print("""### RAW ###""")
+pipe = pipeline(model=model_alias,
+                punctuator=False,
+                stable_ts=False,
+                chunk_length_s=15,
+                batch_size=16,
+                trust_remote_code=True)
+dataset = load_dataset("kotoba-tech/kotoba-whisper-eval", split="train")
+for i in dataset:
+    if i["audio"]["path"] == "long_interview_1.mp3":
+        i["audio"]["array"] = i["audio"]["array"][:7938000]
+    prediction = pipe(
+        i["audio"],
+        return_timestamps=True,
+        generate_kwargs={"language": "japanese", "task": "transcribe"}
+    )
+    pprint(prediction)
+    input()
+    break