개발 진행중
유튜브가 안될시 하단의 구글드라이버를 통해 확인 가능
https://drive.google.com/drive/folders/1vbMA6ZEr0uFba6Bale0GQWEmd3iIvsbj?usp=drive_link
프로젝트명 : 원하는 음성과 대화하자
개발팀 구성
👨💻 풀스택 개발자 (1명)
📅 개발 일정
🔗 개발 환경
핵심 기능
✨ 실시간 음성 대화 파이프라인
STT(Whisper) → GPT API → TTS(Zonos) 전체 연결로 자연스러운 대화 경험을 제공합니다.
🎭 감정 표현 목소리 클로닝
8가지 감정 표현(행복, 슬픔, 분노, 놀라움 등)으로 다양한 음성 체험을 제공합니다.
🔄 WebSocket 실시간 통신
양방향 실시간 데이터 처리로 800ms 이하의 초저지연 응답을 달성합니다.
🎤 VAD 자동 음성 인식
Voice Activity Detection으로 사용자가 말을 시작하고 끝마치는 시점을 자동 감지합니다.
🎨 모던 UI/UX 디자인
React + 미니멀 디자인으로 직관적이고 반응형 인터페이스를 구현했습니다.
🏗️ 시스템 아키텍처
🎤 음성 입력 → VAD로 자동 감지
🔄 STT (Whisper) → 텍스트 변환
🧠 GPT API → AI 응답 생성
🎵 TTS (Zonos) → 감정 표현 음성 합성
🔊 Web Audio API → 실시간 오디오 재생