Future Roadmap

RAG 시스템
고도화 모델 (To-Be)

PostgreSQL + pgvector 기반의 통합 스택으로 전환하고 하이브리드 검색·SSE 스트리밍·OCR·LLM 고도화·엔터프라이즈 기능 확장을 위한 8단계 고도화 로드맵을 제시합니다. (Phase 1~3 완료, Phase 4 진행 중)

고도화 개요

PostgreSQL + pgvector로 전환을 완료한 뒤, 하이브리드 검색과 LLM 최적화를 순차적으로 적용하여 확장 가능한 엔터프라이즈급 지식 플랫폼으로 발전시킵니다.

PostgreSQL + pgvector 마이그레이션

레거시 벡터 스토어를 성공적으로 제거하고, PostgreSQL + pgvector 기반의 단일 데이터베이스 환경으로 통합을 완료했습니다.

🗄️

마이그레이션 완료

전체 벡터 데이터를 PostgreSQL로 이관 완료. ACID 트랜잭션 및 엔터프라이즈급 안정성 확보.

🧹

레거시 벡터 스토어 제거 완료

레거시 벡터 스토어 관련 코드 및 컨테이너가 시스템에서 완전히 제거되었습니다.

🔗

통합 아키텍처 가동 중

벡터, 전문 검색(Full-text), 메타데이터가 단일 PostgreSQL 인스턴스에서 통합 운영됩니다.

-- 운영 중인 스키마 (v1.0) CREATE TABLE document_chunks ( id UUID PRIMARY KEY, content TEXT, embedding VECTOR(768), content_tsv TSVECTOR, -- 키워드 검색용 source_type VARCHAR(50) ); -- 적용된 인덱스 CREATE INDEX idx_embedding ON document_chunks USING hnsw; CREATE INDEX idx_content_tsv ON document_chunks USING gin;
✅ 완료된 작업
  • • PostgreSQL 컨테이너 배포 완료
  • • 기존 데이터 전량 마이그레이션 완료
  • • 인제스트 파이프라인 전환 완료

하이브리드 검색 및 품질 고도화

정밀한 검색 결과 도출을 위해 하이브리드 검색(Hybrid), 재순위화(Rerank), 가상 문서 임베딩(HyDE) 3대 핵심 기술의 구현을 모두 완료했습니다.

구성 요소 기술 상태
하이브리드 검색 (Hybrid) Vector(HNSW) + Keyword(BM25) ✅ 구현 완료
재순위화 (Rerank) BGE-Reranker (Cross-Encoder) ✅ 구현 완료
가상 문서 임베딩 (HyDE) LLM 기반 Query Expansion ✅ 구현 완료
⚙️

현재 적용 가중치

Vector: 0.7 / Keyword: 0.3
RRF K: 60

# 고도화된 검색 파이프라인 (완료) 1. **Query Transformation (HyDE)** └── LLM이 가상의 답변 생성 → 해당 답변으로 임베딩 생성 2. **Hybrid Retrieval (Dual)** ├── [Vector] pgvector cosine similarity └── [Keyword] tsvector text match (BM25) 3. **Fusion & Re-ranking** ├── [RRF] 랭킹 스코어 결합 └── [Reranker] Cross-Encoder 기반 정밀 재순위화 4. **Final Context** 상위 N개 컨텍스트를 LLM 답변 생성에 활용
✅ 구현 완료 리포트

HyDE를 통해 질문의 의도를 더 풍부하게 해석하고, Hybrid 검색과 Rerank를 순차적으로 적용하여 고유명사 및 코드 매칭은 물론 의미론적 유사도 판별 정확도를 극대화했습니다.

LLM 성능 최적화

SSE 스트리밍·프롬프트 구조화·응답속도 개선·임베딩 모델 업그레이드(BGE-M3)·고성능 LLM 탑재를 모두 완료했습니다.

🧠

고성능 모델 탑재 ✅ 구현 완료

고객사 GPU 사양에 맞춰 2026년 기준으로 확인된 정보(Hugging Face와 공식 문서 기반)에서 1위 ~ 3위 순서로 선별 탑재 합니다.

🚀 NVIDIA RTX PRO 4500 Blackwell N개 기준 추천 모델 (선택 가능) or 고객사 GPU 에 최적화 모델 선택
  • Llama 3.1 70B-Instruct Q4_K_M (Meta): 대규모 추론·한국어 응답 품질이 우수하며, 24GB 환경에서 양자화 기반 고성능 운영에 적합
  • Qwen 3 32B-Instruct (Alibaba Cloud): 코딩·분석·도구사용 성능이 뛰어나 기업 업무형 질의 대응에 강점
  • Gemma 3 27B-Instruct (Google): 경량 대비 품질이 높고 안정적인 추론 성능으로 실서비스 배포에 유리

스트리밍 응답 ✅ 구현 완료

SSE 기반 토큰 스트리밍으로 체감 응답 속도를 50% 이상 개선

✅ 구현 완료 항목
  • 서버 SSE 이벤트 표준: meta → delta → final → done
  • heartbeat 정책 및 재연결 힌트
  • 웹 EventSource + Python SSE 클라이언트
  • 실시간 렌더링 UI 연동 완료
🔢

임베딩 모델 업그레이드 ✅ 구현 완료

BGE-M3 (1024d) 모델로 전환 완료. Dense + Sparse + ColBERT 멀티벡터 지원으로 검색 정밀도가 대폭 향상되었습니다.

✅ 업그레이드 완료 이력
  • intfloat/multilingual-e5-base (768d) → 교체 완료
  • 현재: BAAI/bge-m3 (1024d) — 다국어 + Dense/Sparse/ColBERT
  • PostgreSQL vector(768) → vector(1024) 마이그레이션 완료
🧩

프롬프트 구조화 ✅ 구현 완료

모듈형 프롬프트 구성으로 역할 정의·컨텍스트 규칙·인용 규칙을 표준화하여 답변 일관성 확보

📊 응답속도 개선 진행률: 8/10 단계 완료
  • ✅ 성능 계측 표준화 / 출력 토큰 정책 / 프롬프트 경량화
  • ✅ 검색 최적화 / 재랭킹 경량화 / 모델 라우팅
  • ✅ 추론 엔진 튜닝 / 동시성·백프레셔 제어
  • ⬜ 캐시 계층 도입 / 운영 자동화 (예정)

데이터 파이프라인 강화

PaddleOCR 마이크로서비스와 HWP 문서 지원이 구현 완료되었습니다. 실시간 인덱싱과 메타데이터 확장을 추진합니다.

PaddleOCR 한국어 OCR

GPU 가속 OCR 마이크로서비스 (rag-api-ocr:9000). 스캔 PDF 및 이미지에서 한국어 텍스트 93~95% 정확도 추출

HWP 문서 지원

PrvText 스트림 추출 방식으로 HWP 파일 100% 성공률 달성. Markdown 정규화 파이프라인 적용

BGE-M3 임베딩 전환

BAAI/bge-m3 (1024d) 전환 완료. Dense + Sparse + ColBERT 멀티벡터 지원으로 검색 정밀도 대폭 향상

Qwen2.5-VL 멀티모달

Vision-Language 모델로 문서 이미지·표·차트를 직접 이해. PaddleOCR과 병행하여 복합 레이아웃 문서 정확도 향상

메타데이터 확장

작성자/부서/태그/보안 등급 기반 필터링 검색 지원

실시간 인덱싱

FileWatcher + Queue로 문서 변경 즉시 증분 업데이트

📷

OCR + 문서 파이프라인

[PDF/HWP/Image] → [PaddleOCR/PrvText] → [MD 정규화] → [청킹] → [PostgreSQL]

✅ 구현 완료
  • • PaddleOCR 마이크로서비스 (CUDA 11.8, ~5GB 이미지)
  • • HWP PrvText 추출 100% 성공률
  • • PyMuPDF PDF 품질 업그레이드
  • • Markdown 중간 정규화 파이프라인
  • • 상품명 Disambiguation 로직

Phase 5: Text-to-SQL 구현
(정형 데이터 분석)

비정형 문서뿐만 아니라, DB에 저장된 정형 데이터(매출, 재고, 인사 등)를 자연어로 조회하고 시각화합니다.

🤖

SQL Generation LLM

CodeLlama, Phind 등 코드 생성에 특화된 LLM을 사용하여 정확한 SQL 쿼리를 생성합니다.

🛡️

Safe Execution Sandbox

생성된 SQL은 읽기 전용(Read-Only) 권한의 샌드박스 환경에서 실행하여 데이터 위변조를 원천 차단합니다.

🗣️
자연어 질의
"지난달 A팀 매출?"
➡️
🧠
Schema 분석
테이블/컬럼 매핑
➡️
📝
SQL 생성
Dialect 맞춤 변환
➡️
📊
시각화
Chart.js / Table

✅ 구현 체크리스트

  • DB 스키마 정보(DDL)를 LLM 프롬프트에 주입하는 컨텍스트 관리 모듈 개발
  • Few-shot 프롬프팅으로 복잡한 조인(JOIN) 및 집계(GROUP BY) 쿼리 정확도 향상
  • 실행 불가능한 SQL 생성 시 자동 수정(Self-Correction) 로직 구현
  • python-sql 라이브러리 연동 및 차트 시각화 프론트엔드 컴포넌트 개발
📐
Text-to-SQL 상세 구현 계획서
보안 아키텍처 · API 설계 · LLM 프롬프트 전략 · 구현 로드맵 · 정책 결정 사항

사용자 경험(UX) 개선

대화형 UI와 고급 검색 인터페이스로 사용자 탐색 경험을 개선합니다.

💬

멀티턴 대화

세션 기반 문맥 유지, 후속 질문 자동 제안으로 대화 품질 향상

🎛️

고급 검색 필터

소스 유형, 날짜 범위, 부서, 태그 기반의 정교한 필터 제공

📈

시각화 대시보드

질의 트렌드, 인기 문서, 지식베이스 통계 시각화

엔터프라이즈 및 고급 RAG 기술

RBAC, 감사 로깅과 함께 Agentic RAG/GraphRAG 등 고급 기술을 도입합니다.

👮

접근 제어 (RBAC)

사용자 역할(Admin, Editor, Viewer)에 따른 문서 접근 권한 및 기능 제어

📜

감사 로깅

누가, 언제, 무엇을 검색했고 어떤 문서를 열람했는지에 대한 전체 감사 로그 기록

🤖

Agentic RAG

질문 계획(Planner) → 단계별 검색 → 자체 검증(Reflection)을 수행하는 자율 에이전트

🕸️

GraphRAG

문서 간 관계를 지식 그래프로 구축하여 복잡한 연결 고리를 추론하고 설명

기술 스택 업그레이드 로드맵

구성요소 현재 (As-Is) Phase 1-2 Phase 3-4 Phase 5-7
벡터 DB PostgreSQL + pgvector ✓ 완료 PostgreSQL (파티셔닝) PostgreSQL 클러스터
LLM vLLM (고성능 추론 엔진) ✓ 완료 ✓ vLLM 완료 분산 추론 클러스터
임베딩 모델 BAAI/bge-m3 (1024d) ✓ 완료 ✓ BGE-M3 전환 완료 BGE-M3 (안정 운영)
검색 기술 Hybrid / Rerank / HyDE ✓ 완료 Hybrid / Rerank / HyDE (완료) GraphRAG + Agentic RAG
캐싱 Redis Redis Redis Cluster Redis + Semantic Cache
문서 처리 PDF / HWP / PaddleOCR / Qwen2.5-VL PDF / TXT PaddleOCR + HWP ✓ · Qwen2.5-VL (완료) 실시간 인덱싱 + 메타데이터 확장
정형 데이터 분석 미적용 미적용 요구사항 / 스키마 설계 LLM Text-to-SQL (Phase 5) → 차트 자동화
사용자 경험 SSE 실시간 스트리밍 UI 기본 UI SSE 스트리밍 ✓ 완료 멀티턴 대화 + 대시보드 (Phase 6)
모니터링 기본 헬스체크 Prometheus / Grafana APM 통합 Full Observability Stack
보안 없음 기본 인증 SQL 보안 (SELECT-only) RBAC + SSO + 감사 로깅 (Phase 7)

Text-to-SQL은 자연어를 SQL로 변환하는 LLM 기반 추론 기능으로, 검색(RAG)과 별개가 아니라 질의 해석·쿼리 생성·결과 설명 단계에서 LLM 역량을 직접 활용하는 핵심 고도화 항목입니다.

개발자 역할 및 책임

개발자 역할 책임 주 작업 범위
a 개발자 백엔드 데이터 저장/검색, API, 인제스트, 인프라 기반 PostgreSQL/pgvector, 검색 API, 파이프라인, 보안/로그
b 개발자 프론트 사용자 경험, 화면 설계, 대시보드 대화형 UI, 스트리밍 응답 UI, 검색 필터, 대시보드
c 개발자 ML 임베딩/LLM 최적화, 프롬프트, 평가 모델 업그레이드, 프롬프트 표준화, 검색 품질 평가
>

Phase 실행 계획

Phase 우선순위 담당 개발자 핵심 실행 계획 예상 기간
Phase 1 완료됨 a 개발자 PostgreSQL 배포 → 스키마 생성 → 전체 재인제스트 → 레거시 벡터 스토어 제거 완료
Phase 2 완료됨 a 개발자, c 개발자 Hybrid(Vector+Keyword) · Rerank · HyDE 구현 및 튜닝 완료 완료
Phase 3 완료됨 c 개발자, a 개발자 SSE 스트리밍 API · 프롬프트 표준화 · 응답속도 8/10단계 · 임베딩 BGE-M3 전환 · 고성능 모델 탑재 완료
Phase 4 진행 중 a 개발자, b 개발자 PaddleOCR 마이크로서비스 · HWP 지원 · MD 정규화 · Qwen2.5-VL → BGE-M3 전환 · 메타데이터 확장 진행 중
Phase 5 중간 a 개발자 Text-to-SQL → 차트 시각화 → 쿼리 샌드박스 중기
Phase 6 중간 b 개발자, a 개발자 멀티턴 대화 · 고급 검색 필터 · 시각화 대시보드 중기
Phase 7 장기 a 개발자, c 개발자 RBAC/감사 로깅 → Agentic RAG → GraphRAG 장기

차세대 시스템 구축을 준비하세요

현재의 RAG 시스템을 기반으로 엔터프라이즈 환경에 최적화된 지식 플랫폼으로의 진화를 도와드립니다.

도입 문의하기