개발 진행중

시연 영상

https://youtu.be/ANT1E5_s2Hk

유튜브가 안될시 하단의 구글드라이버를 통해 확인 가능

https://drive.google.com/drive/folders/1vbMA6ZEr0uFba6Bale0GQWEmd3iIvsbj?usp=drive_link

프로젝트명 : 원하는 음성과 대화하자

image.png

시스템 아키텍쳐

image.png

개발팀 구성

👨‍💻 풀스택 개발자 (1명)

📅 개발 일정

🔗 개발 환경

목표

✨ 목표

핵심 기능

✨ 실시간 음성 대화 파이프라인

STT(Whisper) → GPT API → TTS(Zonos) 전체 연결로 자연스러운 대화 경험을 제공합니다.

🎭 감정 표현 목소리 클로닝

8가지 감정 표현(행복, 슬픔, 분노, 놀라움 등)으로 다양한 음성 체험을 제공합니다.

🔄 WebSocket 실시간 통신

양방향 실시간 데이터 처리로 800ms 이하의 초저지연 응답을 달성합니다.

🎤 VAD 자동 음성 인식

Voice Activity Detection으로 사용자가 말을 시작하고 끝마치는 시점을 자동 감지합니다.

🎨 모던 UI/UX 디자인

React + 미니멀 디자인으로 직관적이고 반응형 인터페이스를 구현했습니다.

🏗️ 시스템 아키텍처

  1. 🎤 음성 입력 → VAD로 자동 감지

  2. 🔄 STT (Whisper) → 텍스트 변환

  3. 🧠 GPT API → AI 응답 생성

  4. 🎵 TTS (Zonos) → 감정 표현 음성 합성

  5. 🔊 Web Audio API → 실시간 오디오 재생