Real_Time_diarization

Running

App Files Files Community

Real_Time_diarization / realtime_diarize.py

Saiyaswanth007

Code Update

4611564 22 days ago

raw

history blame

18.3 kB

	import os
	import sys
	import time
	import queue
	import threading
	import signal
	import atexit
	from contextlib import contextmanager
	import warnings
	warnings.filterwarnings("ignore", category=UserWarning)

	import numpy as np
	import torch
	import torchaudio
	from scipy.spatial.distance import cosine

	try:
	import soundcard as sc
	except ImportError:
	print("soundcard not found. Install with: pip install soundcard")
	sys.exit(1)

	try:
	from RealtimeSTT import AudioToTextRecorder
	except ImportError:
	print("RealtimeSTT not found. Install with: pip install RealtimeSTT")
	sys.exit(1)

	# Configuration
	class Config:
	# Audio settings
	SAMPLE_RATE = 16000
	BUFFER_SIZE = 1024
	CHANNELS = 1

	# Transcription settings
	FINAL_MODEL = "distil-large-v3"
	REALTIME_MODEL = "distil-small.en"
	LANGUAGE = "en"
	BEAM_SIZE = 5
	REALTIME_BEAM_SIZE = 3

	# Voice activity detection
	SILENCE_THRESHOLD = 0.4
	MIN_RECORDING_LENGTH = 0.5
	PRE_RECORDING_BUFFER = 0.2
	SILERO_SENSITIVITY = 0.4
	WEBRTC_SENSITIVITY = 3

	# Speaker detection
	CHANGE_THRESHOLD = 0.65
	MAX_SPEAKERS = 4
	MIN_SEGMENT_DURATION = 1.0
	EMBEDDING_HISTORY_SIZE = 3
	SPEAKER_MEMORY_SIZE = 20

	# Console colors for speakers
	COLORS = [
	'\033[93m', # Yellow
	'\033[91m', # Red
	'\033[92m', # Green
	'\033[96m', # Cyan
	'\033[95m', # Magenta
	'\033[94m', # Blue
	'\033[97m', # White
	'\033[33m', # Orange
	]
	RESET = '\033[0m'
	LIVE_COLOR = '\033[90m'

	class SpeakerEncoder:
	"""Simplified speaker encoder using torchaudio transforms"""

	def __init__(self, device="cpu"):
	self.device = device
	self.embedding_dim = 128
	self.model_loaded = False
	self._setup_model()

	def _setup_model(self):
	"""Setup a simple MFCC-based feature extractor"""
	try:
	self.mfcc_transform = torchaudio.transforms.MFCC(
	sample_rate=Config.SAMPLE_RATE,
	n_mfcc=13,
	melkwargs={"n_fft": 400, "hop_length": 160, "n_mels": 23}
	).to(self.device)
	self.model_loaded = True
	print("Simple MFCC-based encoder initialized")
	except Exception as e:
	print(f"Error setting up encoder: {e}")
	self.model_loaded = False

	def extract_embedding(self, audio):
	"""Extract speaker embedding from audio"""
	if not self.model_loaded:
	return np.zeros(self.embedding_dim)

	try:
	# Ensure audio is float32 and normalized
	if isinstance(audio, np.ndarray):
	audio = torch.from_numpy(audio).float()

	# Normalize audio
	if audio.abs().max() > 0:
	audio = audio / audio.abs().max()

	# Add batch dimension if needed
	if audio.dim() == 1:
	audio = audio.unsqueeze(0)

	# Extract MFCC features
	with torch.no_grad():
	mfcc = self.mfcc_transform(audio)
	# Simple statistics-based embedding
	embedding = torch.cat([
	mfcc.mean(dim=2).flatten(),
	mfcc.std(dim=2).flatten(),
	mfcc.max(dim=2)[0].flatten(),
	mfcc.min(dim=2)[0].flatten()
	])

	# Pad or truncate to fixed size
	if embedding.size(0) > self.embedding_dim:
	embedding = embedding[:self.embedding_dim]
	elif embedding.size(0) < self.embedding_dim:
	padding = torch.zeros(self.embedding_dim - embedding.size(0))
	embedding = torch.cat([embedding, padding])

	return embedding.cpu().numpy()

	except Exception as e:
	print(f"Error extracting embedding: {e}")
	return np.zeros(self.embedding_dim)

	class SpeakerDetector:
	"""Speaker change detection using embeddings"""

	def __init__(self, threshold=Config.CHANGE_THRESHOLD, max_speakers=Config.MAX_SPEAKERS):
	self.threshold = threshold
	self.max_speakers = max_speakers
	self.current_speaker = 0
	self.speaker_embeddings = [[] for _ in range(max_speakers)]
	self.speaker_centroids = [None] * max_speakers
	self.last_change_time = time.time()
	self.active_speakers = {0}

	def detect_speaker(self, embedding):
	"""Detect current speaker from embedding"""
	current_time = time.time()

	# Initialize first speaker
	if not self.speaker_embeddings[0]:
	self.speaker_embeddings[0].append(embedding)
	self.speaker_centroids[0] = embedding.copy()
	return 0, 1.0

	# Calculate similarity with current speaker
	current_centroid = self.speaker_centroids[self.current_speaker]
	if current_centroid is not None:
	similarity = 1.0 - cosine(embedding, current_centroid)
	else:
	similarity = 0.0

	# Check if enough time has passed for a speaker change
	if current_time - self.last_change_time < Config.MIN_SEGMENT_DURATION:
	self._update_speaker_model(self.current_speaker, embedding)
	return self.current_speaker, similarity

	# Check for speaker change
	if similarity < self.threshold:
	# Find best matching existing speaker
	best_speaker = self.current_speaker
	best_similarity = similarity

	for speaker_id in self.active_speakers:
	if speaker_id == self.current_speaker:
	continue

	centroid = self.speaker_centroids[speaker_id]
	if centroid is not None:
	sim = 1.0 - cosine(embedding, centroid)
	if sim > best_similarity and sim > self.threshold:
	best_similarity = sim
	best_speaker = speaker_id

	# Create new speaker if no good match and slots available
	if (best_speaker == self.current_speaker and
	len(self.active_speakers) < self.max_speakers):
	for new_id in range(self.max_speakers):
	if new_id not in self.active_speakers:
	best_speaker = new_id
	best_similarity = 0.0
	self.active_speakers.add(new_id)
	break

	# Update current speaker if changed
	if best_speaker != self.current_speaker:
	self.current_speaker = best_speaker
	self.last_change_time = current_time
	similarity = best_similarity

	# Update speaker model
	self._update_speaker_model(self.current_speaker, embedding)
	return self.current_speaker, similarity

	def _update_speaker_model(self, speaker_id, embedding):
	"""Update speaker model with new embedding"""
	self.speaker_embeddings[speaker_id].append(embedding)

	# Keep only recent embeddings
	if len(self.speaker_embeddings[speaker_id]) > Config.SPEAKER_MEMORY_SIZE:
	self.speaker_embeddings[speaker_id] = \
	self.speaker_embeddings[speaker_id][-Config.SPEAKER_MEMORY_SIZE:]

	# Update centroid
	if self.speaker_embeddings[speaker_id]:
	self.speaker_centroids[speaker_id] = np.mean(
	self.speaker_embeddings[speaker_id], axis=0
	)

	class AudioRecorder:
	"""Handles audio recording from system audio"""

	def __init__(self, audio_queue):
	self.audio_queue = audio_queue
	self.running = False
	self.thread = None

	def start(self):
	"""Start recording"""
	self.running = True
	self.thread = threading.Thread(target=self._record_loop, daemon=True)
	self.thread.start()
	print("Audio recording started")

	def stop(self):
	"""Stop recording"""
	self.running = False
	if self.thread and self.thread.is_alive():
	self.thread.join(timeout=2)

	def _record_loop(self):
	"""Main recording loop"""
	try:
	# Try to use system audio (loopback)
	try:
	device = sc.default_speaker()
	with device.recorder(
	samplerate=Config.SAMPLE_RATE,
	blocksize=Config.BUFFER_SIZE,
	channels=Config.CHANNELS
	) as recorder:
	print(f"Recording from: {device.name}")
	while self.running:
	data = recorder.record(numframes=Config.BUFFER_SIZE)
	if data is not None and len(data) > 0:
	# Convert to mono if needed
	if data.ndim > 1:
	data = data[:, 0]
	self.audio_queue.put(data.flatten())

	except Exception as e:
	print(f"Loopback recording failed: {e}")
	print("Falling back to microphone...")

	# Fallback to microphone
	mic = sc.default_microphone()
	with mic.recorder(
	samplerate=Config.SAMPLE_RATE,
	blocksize=Config.BUFFER_SIZE,
	channels=Config.CHANNELS
	) as recorder:
	print(f"Recording from microphone: {mic.name}")
	while self.running:
	data = recorder.record(numframes=Config.BUFFER_SIZE)
	if data is not None and len(data) > 0:
	if data.ndim > 1:
	data = data[:, 0]
	self.audio_queue.put(data.flatten())

	except Exception as e:
	print(f"Recording error: {e}")
	self.running = False

	class TranscriptionProcessor:
	"""Handles transcription and speaker detection"""

	def __init__(self):
	self.encoder = SpeakerEncoder()
	self.detector = SpeakerDetector()
	self.recorder = None
	self.audio_queue = queue.Queue(maxsize=100)
	self.audio_recorder = AudioRecorder(self.audio_queue)
	self.processing_thread = None
	self.running = False

	def setup(self):
	"""Setup transcription recorder"""
	try:
	self.recorder = AudioToTextRecorder(
	spinner=False,
	use_microphone=False,
	model=Config.FINAL_MODEL,
	language=Config.LANGUAGE,
	silero_sensitivity=Config.SILERO_SENSITIVITY,
	webrtc_sensitivity=Config.WEBRTC_SENSITIVITY,
	post_speech_silence_duration=Config.SILENCE_THRESHOLD,
	min_length_of_recording=Config.MIN_RECORDING_LENGTH,
	pre_recording_buffer_duration=Config.PRE_RECORDING_BUFFER,
	enable_realtime_transcription=True,
	realtime_model_type=Config.REALTIME_MODEL,
	beam_size=Config.BEAM_SIZE,
	beam_size_realtime=Config.REALTIME_BEAM_SIZE,
	on_realtime_transcription_update=self._on_live_text,
	)
	print("Transcription recorder setup complete")
	return True
	except Exception as e:
	print(f"Transcription setup failed: {e}")
	return False

	def start(self):
	"""Start processing"""
	if not self.setup():
	return False

	self.running = True

	# Start audio recording
	self.audio_recorder.start()

	# Start audio processing thread
	self.processing_thread = threading.Thread(target=self._process_audio, daemon=True)
	self.processing_thread.start()

	# Start transcription
	self._start_transcription()

	return True

	def stop(self):
	"""Stop processing"""
	print("\nStopping transcription...")
	self.running = False

	if self.audio_recorder:
	self.audio_recorder.stop()

	if self.processing_thread and self.processing_thread.is_alive():
	self.processing_thread.join(timeout=2)

	if self.recorder:
	try:
	self.recorder.shutdown()
	except:
	pass

	def _process_audio(self):
	"""Process audio chunks for speaker detection"""
	audio_buffer = []

	while self.running:
	try:
	# Get audio chunk
	chunk = self.audio_queue.get(timeout=0.1)
	audio_buffer.extend(chunk)

	# Process when we have enough audio (about 1 second)
	if len(audio_buffer) >= Config.SAMPLE_RATE:
	audio_array = np.array(audio_buffer[:Config.SAMPLE_RATE])
	audio_buffer = audio_buffer[Config.SAMPLE_RATE//2:] # 50% overlap

	# Convert to int16 for recorder
	audio_int16 = (audio_array * 32767).astype(np.int16)

	# Feed to transcription recorder
	if self.recorder:
	self.recorder.feed_audio(audio_int16.tobytes())

	except queue.Empty:
	continue
	except Exception as e:
	if self.running:
	print(f"Audio processing error: {e}")

	def _start_transcription(self):
	"""Start transcription loop"""
	def transcription_loop():
	while self.running:
	try:
	text = self.recorder.text()
	if text and text.strip():
	self._process_final_text(text)
	except Exception as e:
	if self.running:
	print(f"Transcription error: {e}")
	break

	transcription_thread = threading.Thread(target=transcription_loop, daemon=True)
	transcription_thread.start()

	def _on_live_text(self, text):
	"""Handle live transcription updates"""
	if text and text.strip():
	print(f"\r{LIVE_COLOR}[Live] {text}{RESET}", end="", flush=True)

	def _process_final_text(self, text):
	"""Process final transcription with speaker detection"""
	# Clear live text line
	print("\r" + " " * 80 + "\r", end="")

	try:
	# Get recent audio for speaker detection
	recent_audio = []
	temp_queue = []

	# Collect recent audio chunks
	for _ in range(min(10, self.audio_queue.qsize())):
	try:
	chunk = self.audio_queue.get_nowait()
	recent_audio.extend(chunk)
	temp_queue.append(chunk)
	except queue.Empty:
	break

	# Put chunks back
	for chunk in reversed(temp_queue):
	try:
	self.audio_queue.put_nowait(chunk)
	except queue.Full:
	break

	# Extract speaker embedding if we have audio
	if recent_audio:
	audio_tensor = torch.FloatTensor(recent_audio[-Config.SAMPLE_RATE:])
	embedding = self.encoder.extract_embedding(audio_tensor)
	speaker_id, similarity = self.detector.detect_speaker(embedding)
	else:
	speaker_id, similarity = 0, 1.0

	# Display with speaker color
	color = COLORS[speaker_id % len(COLORS)]
	print(f"{color}Speaker {speaker_id + 1}: {text}{RESET}")

	except Exception as e:
	print(f"Error processing text: {e}")
	print(f"Text: {text}")

	class RealTimeSpeakerDetection:
	"""Main application class"""

	def __init__(self):
	self.processor = None
	self.running = False

	# Setup signal handlers for clean shutdown
	signal.signal(signal.SIGINT, self._signal_handler)
	signal.signal(signal.SIGTERM, self._signal_handler)
	atexit.register(self.cleanup)

	def _signal_handler(self, signum, frame):
	"""Handle shutdown signals"""
	print(f"\nReceived signal {signum}, shutting down...")
	self.stop()

	def start(self):
	"""Start the application"""
	print("=== Real-time Speaker Detection and Transcription ===")
	print("Initializing...")

	self.processor = TranscriptionProcessor()

	if not self.processor.start():
	print("Failed to start. Check your audio setup and dependencies.")
	return False

	self.running = True

	print("=" * 60)
	print("System ready! Listening for audio...")
	print("Different speakers will be shown in different colors.")
	print("Press Ctrl+C to stop.")
	print("=" * 60)

	# Keep main thread alive
	try:
	while self.running:
	time.sleep(1)
	except KeyboardInterrupt:
	pass

	return True

	def stop(self):
	"""Stop the application"""
	if not self.running:
	return

	self.running = False

	if self.processor:
	self.processor.stop()

	print("System stopped.")

	def cleanup(self):
	"""Cleanup resources"""
	self.stop()

	def main():
	"""Main entry point"""
	app = RealTimeSpeakerDetection()

	try:
	app.start()
	except Exception as e:
	print(f"Application error: {e}")
	finally:
	app.cleanup()

	if __name__ == "__main__":
	main()