InferencearXiv cs.CL — 8 d ago

Efficiency-Performance Trade-offs in Neural Speaker Diarization via Structured Pruning and Low-Bit Quantization

The study presents a method for optimizing streaming speaker diarization models for resource-constrained environments using structured pruning and low-bit quantization. Key findings include a model compression strategy that reduces size by 50% with FP16 quantization, maintaining real-time processing speeds but resulting in a 40% increase in relative diarization error rate (DER). This research is significant for practitioners as it provides insights into balancing efficiency and performance when deploying AI models in time-sensitive applications, particularly in medical dispatch scenarios.

speaker diarizationquantizationpruningperformancerelevance 0.00 · engagement 0.00

Read at source ↗← all news