
Sesame AI는 자연스러운 음성 상호작용 기술에 집중하는 회사로, 첨단 대화 음성 모델과 스마트 하드웨어를 제공하여 더 자연하고 감정이 담긴 음성 비서 경험을 창출합니다.
핵심 기술은 대화 음성 모델(CSM)로, 엔드투엔드 모델로서 텍스트를 음성으로 단순 변환하는 것이 아니라 자연스러운 리듬, 감정, 맥락 인식을 갖춘 음성을 직접 생성하는 기술입니다.
그 음성 비서(예: Maya 와 Miles)는 감정 반응, 자연스러운 일시정지, 어조 변화 등을 포함한 인간 대화의 미묘한 특징을 모방하여 보다 의인화된 상호작용을 제공합니다.
공개 정보에 따르면 Sesame AI는 연구 미리보기 버전과 온라인 데모를 제공하여 사용자가 체험할 수 있습니다. 구체적인 상용 모델, 가격 또는 고급 기능 비용은 공식 최신 안내를 참고하시기 바랍니다.
현재 기술 평가에 따르면 대화 음성 모델(CSM)은 현재 주로 영어 최적화되었으며, 다른 언어 콘텐츠 생성의 품질은 차이가 있을 수 있습니다. 다국어 지원 현황은 공식 문서를 확인하시기 바랍니다.
시연 페이지에 따르면 음성 상호작용 데이터가 품질 보장을 위해 임시로 기록될 수 있으며 일정 기간이 지나면 삭제됩니다. 구체적인 데이터 처리 정책과 보안 조치는 공식 개인정보 처리 방침을 확인하시기 바랍니다.
전통 TTS는 보통 생성된 텍스트를 읽어 주는 반면, Sesame의 CSM 모델은 음성 차원에서 ‘생각하고’ 생성하도록 설계되어 감정, 리듬, 맥락의 일관성을 가진 음성을 직접 출력합니다.
네, Sesame은 경량 스마트 안경을 개발 중이며 자사의 AI 음성 비서를 통합하고 착용 가능한 음성 상호작용 경험을 제공합니다. 다만 현재 구체적인 출시일과 사양은 아직 공개되지 않았습니다.
가능합니다. Sesame은 CSM 모델의 1B 매개변수 버전(CSM-1B)을 오픈 소스화하여 제공하고 있으며, 개발자는 라이선스 조건에 따라 사용, 연구 및 2차 개발을 할 수 있습니다.

Speak AI는 영어 말하기 훈련에 집중하는 AI 애플리케이션으로, 실제 대화 시나리오를 모의해 사용자에게 개인화된 말하기 연습과 실시간 피드백 및 발음 교정을 제공합니다. 이를 통해 사용자의 영어 말하기 유창성과 대화 자신감을 향상시키는 것을 목표로 합니다.
Deepgram Voice AI는 엔터프라이즈급 음성 인공지능 플랫폼으로, 통합 API를 통해 고정밀 음성 인식(STT), 텍스트를 음성으로 변환(TTS), 음성 에이전트 등 서비스를 제공합니다. 개발자와 기업이 음성 데이터를 효율적으로 처리하도록 돕고, 고객 서비스, 콘텐츠 제작, 의료 기록 등 다양한 비즈니스 시나리오에 활용됩니다.