오닉스 AI - 비전-언어 모델 | 픽스커뮤니케이션

ONYX

딥러닝 음성인식 및
데이터 구조화 기술로
다양한 정보를 정확하게 처리합니다.

VLM

오닉스 ONYX

다양한 형식의 문서에서
핵심 정보를 분석,구조화 하여

즉시 활용할 수 있는
메타 데이터로 변환하는 AI모델

일반 오픈소스 VLM 대비

문서 구조 인식21% 향상

도메인 필드

추출 정확도27% 향상

통계/리포트자동 생성

문서를 해석하고 데이터화합니다

이미지, 문서, 스캔된 PDF, 복잡한 엑셀 파일 등으로부터
정보를 해석 및 정형화하여 지식으로 재탄생 시킵니다.

주요 기능

이미지·사진·스캔된 PDF·복잡한 엑셀·워드 파일 등에 대해
단순 OCR을 넘어 문서 구조, 의미, 표 패턴 등을 모두 이해하여
검색 가능한 구조화된 메타데이터(JSON)로 자동 변환합니다.

주요 기술

레이아웃 인식 기반 언어 모델 기술*LayoutLM을 활용하여 계층형 시각-언어 인코더 구조*Hierarchical Vision-Language Encoder를 적용하며,
스캔 품질이 낮아도 문맥을 통해 복원 가능합니다.
특히 수식 및 표 처리에 강점을 가지고 있으며,
세무 서류나 견적서 등 도메인별 문서 패턴을 학습합니다.

주요 성능

문서 구조 인식 21% 개선, 도메인 필드 추출 정확도 27% 개선,
수식 구조 해석 26% 개선, 유사 문서 매칭 정밀도 27% 개선.
이 데이터를 기반으로 CRM 연결, 자동 검색 인덱싱,
통계/리포트 자동 생성 등을 지원합니다.

오닉스

단순한 OCR 모델이 아닌

문서를 이해하고, 의미를 구조화하고, 지식으로 재탄생시키는 AI

오닉스

모델 소개

Onyx는 오픈소스 Vision-Language Architecture를 기반으로, 산업별 복잡한 문서·이미지·수식·

표현 구조를 정확하게 해석·정형화·검색 가능한 형태로 변환하도록 특수 설계된 도메인 특화 Vision-Language Model(VLM)입니다.

고객이 업로드한 이미지·사진·스캔된 PDF·복잡한 엑셀·워드 파일 등에 대해 단순 OCR 수준을 넘어,

문서 구조·의미·수식·표 패턴·도메인 문맥을 모두 이해하여 정형화된 메타데이터(JSON)로 자동 변환

합니다.

Onyx는 오픈소스 Vision-Language Architecture를 기반으로, 산업별

복잡한 문서·이미지·수식·표현 구조를 정확하게 해석·정형화·검색 가능한 형태로 변환하도록 특수 설계된 도메인 특화 Vision-Language Model(VLM)입니다.

고객이 업로드한 이미지·사진·스캔된 PDF·복잡한 엑셀·워드 파일 등에 대해 단순 OCR 수준을 넘어, 문서 구조·

의미·수식·표 패턴·도메인 문맥을 모두 이해하여 정형화된 메타데이터(JSON)로 자동 변환합니다.

핵심 개념 요약

Document Structure Understanding

문단·표·수식·도형 등

복잡한 레이아웃까지 분석

Semantic-Level Metadata Generation

검색·분류·유사 문서 추천을 위한

구조화된 JSON 생성

Domain-Adaptive Optical Reasoning

산업별 문서 패턴(세무 서류, 계약서,

고객문서, 견적서 등)에 특화된 해석 능력

Cross-Document Linking Engine

유사 문서/연관 문서를 자동 연결하여

지식 그래프화

구조적 특징

Layer ①

Hierarchical Vision-Language Encoder

이미지/문서를 다음 단계별로 분석하는 계층적 구조:

Visual Encoder: LayoutLM·SigLIP 기반 시각 피쳐 추출
Textual Encoder: 언어·표현·수식 구조 해석
Fusion Layer: 이미지 구조 + 텍스트 의미를 통합한 멀티모달 표현 생성

이 구조 덕분에:

스캔 품질이 낮아도 문맥을 통해 복원
"표 안의 단위", "수식 구조", "필기체 숫자", "누락된 항목"까지 추론 가능

Layer ②

Domain-Specific Document Pattern Layer

도메인 별로 자주 등장하는 문서 패턴을 학습:

세무 서류(영수증, 전표, 재무제표)
웨딩 업종 견적서, 일정표
고객센터 첨부 이미지(계약서, 내용증명 등)
내부 업무 문서(보고서, SOP, 분개표 등)

이를 통해 문서 카테고리 자동 분류(98% 수준)와 도메인 필드 자동 추출 정확도가 크게 향상됨.

Layer ③

Formula & Table Understanding Layer

Onyx는 특히 수식/표 처리에 강점을 가지고 있음:

수식을 LaTeX 형태로 구조화
표의 행·열·병합 구조를 완벽히 복원
숫자 단위, 누락값 추론, 계산식 자동 분리
복잡한 스프레드시트(엑셀)도 구조화된 테이블로 변환

기존 OCR이 처리하지 못한 실제 업무용 문서 이해에 최적화됨.

정확도 비교(예시)

모델

문서 구조 인식

표/수식 정확도

도메인 필드 추출

유사 문서 검색 정밀도

VLM
(Base)

71%

58%

62%

66%

오닉스

(Fine-Tuned)

92%

84%

89%

93%

✔ 문서 구조 인식 +21% 개선

✔ 수식 구조 해석 +26% 개선

✔ 도메인 데이터 추출 정확도 +27% 개선

✔ 유사 문서 매칭 정밀도 +27% 개선

메타데이터 생성

(Metadata Generation Engine)

Onyx는 단순 텍스트 추출이 아니라

검색 가능한 지식 데이터(JSON)을 생성함:

예: 견적서 이미지 입력 → 다음과 같은 JSON 생성

{
  "doc_type": "estimate",
  "customer_name": "홍길동",
  "items": [
    {"name": "본식스냅", "price": 550000},
    {"name": "드레스", "price": 2200000}
  ],
  "total": 2750000,
  "date": "2025-02-04"
}

이 JSON을 기반으로:

유사 견적서 비교
고객 파일 자동 분류
CRM 연결
자동 검색 인덱싱
통계/리포트 자동 생성

기술적 특징

①

Vision-Language Fusion Decoding

이미지의 시각 정보와 텍스트 의미 정보를 통합하는 디코딩 구조

②

Layout-Informed OCR Correction

OCR 인식 오류를 문맥·레이아웃 기반으로 자동 보정

③

Context-Aware Field Extraction

문서 내 의미 있는 필드를 자동으로 추출 및 정렬

④

Cross-Document Similarity Embeddings

문서를 시맨틱 임베딩으로 변환하여
“유사 문서 검색” 정확도를 대폭 향상

⑤

Multilingual OCR + Semantic Fusion

한국어/영어/중국어 혼합 문서도 구조적 의미를 유지한 채 변환

⑥

Knowledge Linking Engine

문서를 서로 연결하여 “문서 간 지식 그래프” 생성

성능 및 운영 효율

모델

OCR오류율

수식해석 오류율

메타데이터 누락률

검색 인덱스 품질

일반 VLM

11.2%

42%

31%

보통

오닉스

5.4%

15%

우수

✔ 업무용 복잡 문서 처리 성능이 압도적

실제 활용 사례

고객센터

첨부이미지 자동 분석

고객이 올린 사진/문서를 자동 분류
CRM 고객 기록에 자동 연결
유사 사례 자동 추천

회계/세무

증빙 문서 자동 데이터화

카드명세서, 계산서, 영수증 자동 추출
전표 자동 기장
법인세/부가세 자료 자동 수집

웨딩

계약서/견적서 정형화

고객 견적서 텍스트화
비교 견적 추천
스튜디오/드레스/메이크업 정보 자동 인식

사진/이미지 검색엔진

이미지 파일에서 추출된 메타데이터 기반
"검색 가능한 이미지 저장소" 구축