NVIDIA vừa giới thiệu PersonaPlex-7B-v1, một mô hình speech-to-speech thời gian thực được thiết kế cho hội thoại tự nhiên, hai chiều thực sự (full-duplex). Đây là một bước tiến rất đáng chú ý trong mảng voice AI, đặc biệt nếu bạn từng khó chịu với cảm giác “nói xong phải chờ máy nghĩ rồi mới trả lời”.
Điểm khác biệt lớn nhất của PersonaPlex nằm ở cách tiếp cận. Trước nay, hầu hết các hệ thống trợ lý giọng nói đều đi theo một pipeline quen thuộc: giọng nói được chuyển thành văn bản bằng ASR, sau đó LLM xử lý để tạo câu trả lời dạng text, rồi cuối cùng TTS đọc lại thành giọng nói. Chuỗi này vừa gây độ trễ, vừa khiến hội thoại bị ngắt quãng, và đặc biệt kém tự nhiên khi người dùng ngắt lời, nói chồng lên, hay chỉ phản hồi ngắn kiểu “ừ”, “ok”, “uh-huh”.
PersonaPlex bỏ qua toàn bộ pipeline đó. Thay vì chia nhỏ thành ba bước, NVIDIA xây dựng một mô hình duy nhất có thể vừa nghe vừa nói cùng lúc. Mô hình làm việc trực tiếp trên luồng âm thanh liên tục, mã hóa audio và dự đoán song song cả token ngôn ngữ lẫn audio đầu ra theo thời gian thực.
Cách làm này mang lại một số khác biệt rất rõ về trải nghiệm. Hội thoại diễn ra mượt hơn vì không cần chờ kết thúc lượt nói. Người dùng có thể xen ngang, ngắt lời mà hệ thống vẫn theo kịp ngữ cảnh. Phản hồi được tạo ra nhanh hơn, với ngữ điệu và phong cách ổn định thay vì “đọc chữ”. Thậm chí persona của giọng nói, vai trò, cách nói chuyện cũng có thể được điều khiển trực tiếp qua prompt, không chỉ ở mức nội dung mà cả chất giọng.
Về mặt kỹ thuật, PersonaPlex sử dụng kiến trúc transformer dual-stream với quy mô 7 tỷ tham số, được tối ưu cho tương tác thoại hai chiều. Điều này giúp voice AI tiến gần hơn tới đối thoại tự nhiên giữa người với người, thay vì mô hình hỏi – đáp từng lượt như máy móc trước đây.
Nếu nhìn rộng hơn, đây là tín hiệu cho thấy tương lai của AI hội thoại không còn xoay quanh text là trung tâm, mà audio sẽ trở thành “first-class citizen”. Với các ứng dụng như trợ lý ảo, tổng đài thông minh, NPC trong game hay robot giao tiếp, hướng speech-to-speech full-duplex như PersonaPlex rất có thể sẽ trở thành chuẩn mới trong vài năm tới.