Tri-CHEF: Complex-Hermitian Embedding Fusion for Korean Multimodal Retrieval
Authors/Creators
- 1. Team Chainers, Korea IT Academy (KDT, Ministry of Employment and Labor), Independent Researchers
Description
Tri-CHEF is a Korean multimodal retrieval system designed to run on a single consumer GPU (RTX 4070 Laptop, 8 GB VRAM). It assigns three pretrained encoders (SigLIP2, BGE-M3, DINOv2) to three orthogonal axes of a complex-valued embedding and combines them through a Hermitian-style modulus rather than a weighted sum. This design preserves each encoder's evidence axis and prevents any single channel from dominating the score. A per-domain absolute threshold is fitted from random non-matching query-document pairs, and a drift guard rejects any new mu_null that falls outside half-to-double of the previous value during incremental ingestion. A Korean-aware character-bigram lexical filter and SHA-256 content-addressed caches complete the pipeline across four domains: documents, images, video, and audio. We further extend the deployed system with a fifth domain (background music, BGM) via a deliberately decoupled CLAP+Chromaprint pipeline, demonstrating when not to fuse — a complementary design lesson to the Tri-CHEF Hermitian fusion. On the in-house corpus (2,390 images, 34,661 document pages, 205 video files, 117 audio files), the deployed system attains 77 ms p95 image latency, leave-one-out Doc R@5=96.00% with MRR=0.8893 (both dense+sparse at alpha_IM=0.20), and 93% Top-1 confidence on a 15-query Korean evaluation set. On the public MIRACL-ko benchmark (213 dev queries, 1.486 M Wikipedia passages), the Im-axis sub-system achieves nDCG@10=77.82%, surpassing the published BGE-M3 dense baseline by +7.92 pp through exact FAISS IndexFlatIP search.
A Korean translation is included as Tri-CHEF_paper_Korean.pdf for accessibility to Korean-language readers.
Version 1.1 (2026-05-06): Added a DOI/license footer to every page of both PDF files for standalone identification. Body content, figure/table layout, and pagination are byte-equivalent to v1.0.
Abstract (Korean)
Tri-CHEF는 RTX 4070 Laptop(8 GB VRAM) 한 대만으로 동작하는 한국어 멀티모달 검색 시스템이다. 사전학습된 세 인코더(SigLIP2, BGE-M3, DINOv2)를 복소 임베딩의 직교한 세 축에 하나씩 배정하고, 점수를 가중합 대신 Hermitian형 절대값으로 구한다. 이 방식은 각 인코더의 기여를 독립된 축에 보존하면서도, 어느 한 채널이 점수를 독점하는 현상을 구조적으로 차단한다. 도메인별 점수 임계값은 무작위 비매치 질의-문서 쌍의 null 분포로부터 자동으로 결정되며, 증분 색인 중에는 새 mu_null이 이전 값의 절반에서 두 배 범위를 벗어나면 거부하는 드리프트 가드가 임계값을 보호한다. 여기에 한국어 character bigram 어휘 필터와 SHA-256 콘텐츠 주소 캐시를 더해 문서·이미지·영상·음원 네 도메인을 하나의 파이프라인으로 처리한다. 추가로 다섯 번째 도메인(배경음악, BGM)을 CLAP+Chromaprint 기반의 의도적으로 분리된 파이프라인으로 확장하여, Tri-CHEF Hermitian fusion과 상호 보완되는 "융합하지 않을 때"의 설계 교훈을 제시한다.
v1.1 (2026-05-06): 단독 식별성 향상을 위해 영문/한글 양쪽 PDF 모든 페이지 푸터에 DOI 및 라이선스 정보를 추가하였다. 본문 콘텐츠와 그림/표 레이아웃, 페이지 분할은 v1.0과 바이트 단위로 동일하다.
Files
Tri-CHEF_paper_v1.1.pdf
Files
(1.2 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:01e15a3ab232a65a5076fa6a74d560e9
|
604.6 kB | Preview Download |
|
md5:80986e6705c0ba8d9f2fe60fc9feaa0c
|
559.0 kB | Preview Download |
Additional details
Additional titles
- Translated title (Korean)
- Tri-CHEF: 한국어 멀티모달 검색을 위한 복소-에르미트 임베딩 융합
Related works
- Is supplemented by
- Software: https://github.com/KDT-Chainers/DB_insight (URL)
- References
- Other: https://github.com/project-miracl/miracl (URL)
Software
- Repository URL
- https://github.com/KDT-Chainers/DB_insight
- Programming language
- Python
- Development Status
- Active