
Sesame AI là một công ty chuyên tập trung vào công nghệ tương tác giọng nói tự nhiên, cung cấp các mô hình giọng nói đối thoại tiên tiến và phần cứng thông minh, nhằm tạo ra trải nghiệm trợ lý giọng nói tự nhiên và giàu cảm xúc.
Công nghệ lõi là mô hình giọng nói đối thoại (CSM), là một mô hình end-to-end nhằm tạo ra giọng nói có nhịp điệu, cảm xúc và nhận thức ngữ cảnh một cách trực tiếp, chứ không chỉ là chuyển văn bản thành giọng nói.
Trợ lý giọng nói (như Maya và Miles) nhằm mô phỏng các đặc điểm tinh tế của cuộc trò chuyện con người, bao gồm phản hồi cảm xúc, dừng tự nhiên, biến đổi ngữ điệu để mang lại trải nghiệm tương tác có tính người.
Theo thông tin công khai, Sesame AI cung cấp bản xem trước nghiên cứu và trình diễn trực tuyến cho người dùng trải nghiệm. Mô hình kinh doanh, giá cả hoặc chi phí cho các chức năng cao cấp cần tham khảo từ thông báo chính thức mới nhất.
Theo các đánh giá công nghệ hiện tại, mô hình giọng nói đối thoại (CSM) hiện tối ưu cho tiếng Anh, chất lượng tạo nội dung bằng ngôn ngữ khác có thể khác nhau. Vui lòng tham khảo tài liệu chính thức để biết hỗ trợ nhiều ngôn ngữ như thế nào.
Theo trang trình diễn, dữ liệu tương tác giọng nói có thể được ghi lại tạm thời để đảm bảo chất lượng và sẽ bị xóa sau một thời gian. Chính sách xử lý dữ liệu và các biện pháp an toàn cụ thể nên tham khảo điều khoản quyền riêng tư chính thức.
TTS truyền thống thường chỉ đọc văn bản thành giọng nói, trong khi mô hình CSM của Sesame AI được thiết kế để 'suy nghĩ' ở mức giọng nói, tạo ra giọng nói có cảm xúc, nhịp điệu và ngữ cảnh liên tục.
Có, Sesame đang phát triển kính thông minh nhẹ nhằm tích hợp trợ lý giọng nói AI của họ, mang lại trải nghiệm tương tác giọng nói đeo được, nhưng thời gian phát hành và thông số kỹ thuật vẫn chưa được công bố đầy đủ.
Có, Sesame đã mở mã phiên bản CS M mô hình CSM 1B tham số (CSM-1B); các nhà phát triển có thể lấy và sử dụng, nghiên cứu và phát triển lại dưới các điều khoản cấp phép.

Speak AI là một ứng dụng AI tập trung vào luyện nói tiếng Anh, thông qua mô phỏng các tình huống giao tiếp thực tế, cung cấp các bài tập nói cá nhân hóa, phản hồi nhanh và chỉnh sửa phát âm, nhằm giúp người dùng nâng cao sự lưu loát và tự tin giao tiếp.
Deepgram Voice AI là một nền tảng AI giọng nói dành cho doanh nghiệp, cung cấp qua API các dịch vụ nhận dạng giọng nói thành văn bản (STT), chuyển văn bản thành giọng nói (TTS) và Voice Agent, giúp các nhà phát triển và doanh nghiệp xử lý dữ liệu giọng nói một cách hiệu quả trong nhiều lĩnh vực như chăm sóc khách hàng, sáng tạo nội dung, ghi chú y tế và nhiều tình huống khác.