크림슨 AI - 음성 인식 모델 | 픽스커뮤니케이션

CRIMSON

딥러닝 음성인식 및
데이터 구조화 기술로
다양한 정보를 정확하게 처리합니다.

STT/TA

크림슨 CRIMSON

딥러닝 기반 STT 기술과
문맥 기반 화자 인식 알고리즘을 결합한

지능형 전사 AI모델

평균

WER(단어 오류율) 17% 감소

*WER: Word Error Rate

평균

CER(문자 오류율) 21% 감소

*CER: Character Error Rate

평균

Latency(지연율) 60%이상 감소

정확히 듣습니다

Crimson은 AI 통화 예측 고객 관리 솔루션의 핵심 기술이며,

음성을 텍스트로 변환하고 분석하는 역할을 합니다.

주요 기능

고객의 과거 통화 내역 및 진행 중인 업무를 분석하여
전화 목적을 실시간으로 예측할 수 있도록 정보를 제공합니다.

주요 기술

Open AI의 Whisper 아키텍처를 기반으로 파인튜닝되었으며,
각 산업 영역의 언어적 특성을 반영하기 위해 정교하게 설계된 도메인 어휘 사전*Domain-Specific Lexicon과 발화 스타일 보정 레이어*Pronunciation Adaptation Layer를 적용했습니다.

주요 성능

전문 용어, 브랜드명, 고유명사 인식률 향상*WER 17%감소 *CER 21%감소
자체 경량화 및 GPU 호스팅 최적화를 통해 평균 응답 지연 시간
*Latency이 190ms로, Whisper 대비 3배 빠른 응답성을 제공합니다.

크림슨

Crimson은 Whisper의 범용성을
유지하면서,
각 도메인에 최적화된 정밀성과
실용성을 결합했습니다.

“단어를 인식하는 모델”이 아니라,
“대화를 이해하는 모델”로
진화하고 있습니다.

크림슨

모델 소개

Crimson은 OpenAI의 Whisper 아키텍처를 기반으로 파인튜닝된 도메인 특화 음성 인식 모델입니다.

각 산업 영역(세무, 웨딩, 고객상담, 미디어 등)의 언어적 특성을 반영하기 위해 정교하게 설계된

도메인 어휘 사전(Domain-Specific Lexicon)과 발화 스타일 보정 레이어(Pronunciation Adaptation Layer) 를 적용했습니다. 이를 통해 Crimson은 기존 Whisper 모델 대비 단어 오류율(WER, Word Error Rate)과 문자 오류율(CER, Character Error Rate) 모두에서 현저한

성능 향상을 보였습니다.

성능 비교 (예시)

Whisper (Base)

WER ↓ 9.4%

CER ↓ 5.8%

범용 영어/한국어 모델

크림슨

(Fine-Tuned)

WER ↓ 7.8%

CER ↓ 4.6%

도메인 사전 + 발음 적응 Fine-tuning

✔ 평균 WER 17% 감소, CER 21% 감소

✔ 전문 용어, 브랜드명, 고유명사 인식률 향상

✔ 고객 음성 데이터 기반 Fine-tuning으로 실환경 잡음 내구성 개선

기술적 특징

①

Domain-Aware Vocabulary Injection

인식 엔진이 발화 내 도메인 키워드를
동적으로 보정

②

Phoneme-Level Adaptation Layer

발음 편차(사투리, 억양, 음절 단축 등)에
대한 적응성 강화

③

Hybrid Decoding Strategy

언어 모델 가중치와 도메인 사전 가중치를
실시간 혼합

④

Noise-Robust Feature Normalization

저품질 마이크, 배경음이 많은
콜 환경에서도 안정적인 디코딩

실시간 처리 성능 (Real-Time Latency)

모델

평균 Latency

(1초 음성 기준)

Streaming

Response Delay

GPU 메모리

사용량

배포 환경

Whisper
(Base)

520ms

0.4초

100% 기준

클라우드 전용

크림슨

(Optimized)

190ms

0.15초 이하

약 58% 수준

자체GPU 호스팅

(RTX 5090/5080)

✔ Latency 60% 이상 감소

✔ Streaming 처리 시 실시간 발화-텍스트 지연< 200ms

✔ Whisper 대비3배 빠른 응답성