dev-mode-orpheus

Paused

App Files Files Community

Tomtom84 commited on Apr 21

Commit

0238891

verified ·

1 Parent(s): 2fa4182

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -13

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ import os, json, torch, asyncio
 from fastapi import FastAPI, WebSocket, WebSocketDisconnect
 from huggingface_hub import login
 from transformers import AutoTokenizer, AutoModelForCausalLM, LogitsProcessor
-from transformers.generation.utils import Cache
 from snac import SNAC
 # 0) Login + Device ---------------------------------------------------
@@ -108,27 +107,30 @@ async def tts(ws: WebSocket):
         buf        = []
         while True:
-            # --- Mini‑Generate -------------------------------------------
             gen = model.generate(
-                input_ids       = ids if past is None else torch.tensor([[last_tok]], device=device),
-                attention_mask  = attn if past is None else None,
-                past_key_values = past,
-                max_new_tokens  = CHUNK_TOKENS,
-                logits_processor= [masker],
                 do_sample=True, temperature=0.7, top_p=0.95,
-                use_cache=True,
-                return_dict_in_generate=True, # Added return_dict_in_generate
-                return_legacy_cache=True # Added legacy cache
             )
             # ----- neue Tokens heraus schneiden --------------------------
-            new = gen.sequences[0][offset_len:].tolist() # Access sequences attribute
             if not new:                         # nichts -> fertig
                 break
             offset_len += len(new)
-            # ----- weiter mit Cache (letzte PKV steht im Modell) ---------
-            past     = gen.past_key_values # Corrected cache access
             last_tok = new[-1]
             print("new tokens:", new[:25], flush=True)

 from fastapi import FastAPI, WebSocket, WebSocketDisconnect
 from huggingface_hub import login
 from transformers import AutoTokenizer, AutoModelForCausalLM, LogitsProcessor
 from snac import SNAC
 # 0) Login + Device ---------------------------------------------------
         buf        = []
         while True:
+            # --- Mini‑Generate (Cache Disabled for Debugging) -------------------------------------------
             gen = model.generate(
+                input_ids      = ids, # Always use full sequence
+                attention_mask = attn, # Always use full attention mask
+                # past_key_values= past, # Disabled cache
+                max_new_tokens = CHUNK_TOKENS,
+                logits_processor=[masker],
                 do_sample=True, temperature=0.7, top_p=0.95,
+                use_cache=False, # Disabled cache
+                return_dict_in_generate=True,
+                return_legacy_cache=True
             )
             # ----- neue Tokens heraus schneiden --------------------------
+            seq  = gen.sequences[0].tolist()
+            new  = seq[offset_len:]
             if not new:                         # nichts -> fertig
                 break
             offset_len += len(new)
+            # ----- Update ids and attn with the full sequence (Cache Disabled) ---------
+            ids = torch.tensor([seq], device=device)
+            attn = torch.ones_like(ids)
+            # past = gen.past_key_values # Disabled cache access
             last_tok = new[-1]
             print("new tokens:", new[:25], flush=True)