크림슨 CRIMSON
딥러닝 기반 STT 기술과
문맥 기반 화자 인식 알고리즘을 결합한
지능형 전사 AI모델
평균
WER(단어 오류율) 17% 감소
*WER: Word Error Rate
평균
CER(문자 오류율) 21% 감소
*CER: Character Error Rate
평균
Latency(지연율) 60%이상 감소
정확히 듣습니다
Crimson은 AI 통화 예측 고객 관리 솔루션의 핵심 기술이며,
음성을 텍스트로 변환하고 분석하는 역할을 합니다.

전화 목적을 실시간으로 예측할 수 있도록 정보를 제공합니다.
각 산업 영역의 언어적 특성을 반영하기 위해 정교하게 설계된 도메인 어휘 사전*Domain-Specific Lexicon과 발화 스타일 보정 레이어*Pronunciation Adaptation Layer를 적용했습니다.
자체 경량화 및 GPU 호스팅 최적화를 통해 평균 응답 지연 시간
*Latency이 190ms로, Whisper 대비 3배 빠른 응답성을 제공합니다.
유지하면서,
각 도메인에 최적화된 정밀성과
실용성을 결합했습니다.
“대화를 이해하는 모델”로
진화하고 있습니다.
크림슨
모델 소개
Crimson은 OpenAI의 Whisper 아키텍처를 기반으로 파인튜닝된 도메인 특화 음성 인식 모델입니다.
각 산업 영역(세무, 웨딩, 고객상담, 미디어 등)의 언어적 특성을 반영하기 위해 정교하게 설계된
도메인 어휘 사전(Domain-Specific Lexicon)과 발화 스타일 보정 레이어(Pronunciation Adaptation Layer) 를 적용했습니다. 이를 통해 Crimson은 기존 Whisper 모델 대비 단어 오류율(WER, Word Error Rate)과 문자 오류율(CER, Character Error Rate) 모두에서 현저한
성능 향상을 보였습니다.
성능 비교 (예시)
Whisper (Base)
WER ↓ 9.4%
CER ↓ 5.8%
범용 영어/한국어 모델
크림슨
(Fine-Tuned)
WER ↓ 7.8%
CER ↓ 4.6%
도메인 사전 + 발음 적응 Fine-tuning
✔ 평균 WER 17% 감소, CER 21% 감소
✔ 전문 용어, 브랜드명, 고유명사 인식률 향상
✔ 고객 음성 데이터 기반 Fine-tuning으로 실환경 잡음 내구성 개선
기술적 특징
①
Domain-Aware Vocabulary Injection
인식 엔진이 발화 내 도메인 키워드를
동적으로 보정
②
Phoneme-Level Adaptation Layer
발음 편차(사투리, 억양, 음절 단축 등)에
대한 적응성 강화
③
Hybrid Decoding Strategy
언어 모델 가중치와 도메인 사전 가중치를
실시간 혼합
④
Noise-Robust Feature Normalization
저품질 마이크, 배경음이 많은
콜 환경에서도 안정적인 디코딩
실시간 처리 성능 (Real-Time Latency)
모델
평균 Latency
(1초 음성 기준)
Streaming
Response Delay
GPU 메모리
사용량
배포 환경
Whisper
(Base)
520ms
0.4초
100% 기준
클라우드 전용
크림슨
(Optimized)
190ms
0.15초 이하
약 58% 수준
자체GPU 호스팅
(RTX 5090/5080)
✔ Latency 60% 이상 감소
✔ Streaming 처리 시 실시간 발화-텍스트 지연< 200ms
✔ Whisper 대비3배 빠른 응답성