RAG 시스템 | 고도화 모델

Overview

고도화 개요

PostgreSQL + pgvector로 전환을 완료한 뒤, 하이브리드 검색과 LLM 최적화를 순차적으로 적용하여 확장 가능한 엔터프라이즈급 지식 플랫폼으로 발전시킵니다.

Phase 1 (완료)

PostgreSQL + pgvector 마이그레이션

레거시 벡터 스토어를 성공적으로 제거하고, PostgreSQL + pgvector 기반의 단일 데이터베이스 환경으로 통합을 완료했습니다.

🗄️

마이그레이션 완료

전체 벡터 데이터를 PostgreSQL로 이관 완료. ACID 트랜잭션 및 엔터프라이즈급 안정성 확보.

🧹

레거시 벡터 스토어 제거 완료

레거시 벡터 스토어 관련 코드 및 컨테이너가 시스템에서 완전히 제거되었습니다.

🔗

통합 아키텍처 가동 중

벡터, 전문 검색(Full-text), 메타데이터가 단일 PostgreSQL 인스턴스에서 통합 운영됩니다.

                        -- 운영 중인 스키마 (v1.0)
                        CREATE TABLE document_chunks (
                        id UUID PRIMARY KEY,
                        content TEXT,
                        embedding VECTOR(768),
                        content_tsv TSVECTOR, -- 키워드 검색용
                        source_type VARCHAR(50)
                        );

                        -- 적용된 인덱스
                        CREATE INDEX idx_embedding
                        ON document_chunks USING hnsw;
                        CREATE INDEX idx_content_tsv
                        ON document_chunks USING gin;
                    

✅ 완료된 작업

• PostgreSQL 컨테이너 배포 완료
• 기존 데이터 전량 마이그레이션 완료
• 인제스트 파이프라인 전환 완료

Phase 2 (완료)

하이브리드 검색 및 품질 고도화

정밀한 검색 결과 도출을 위해 하이브리드 검색(Hybrid), 재순위화(Rerank), 가상 문서 임베딩(HyDE) 3대 핵심 기술의 구현을 모두 완료했습니다.

구성 요소	기술	상태
하이브리드 검색 (Hybrid)	Vector(HNSW) + Keyword(BM25)	✅ 구현 완료
재순위화 (Rerank)	BGE-Reranker (Cross-Encoder)	✅ 구현 완료
가상 문서 임베딩 (HyDE)	LLM 기반 Query Expansion	✅ 구현 완료

⚙️

현재 적용 가중치

Vector: 0.7 / Keyword: 0.3
RRF K: 60

                        # 고도화된 검색 파이프라인 (완료)

                        1. **Query Transformation (HyDE)**
                        └── LLM이 가상의 답변 생성 → 해당 답변으로 임베딩 생성

                        2. **Hybrid Retrieval (Dual)**
                        ├── [Vector] pgvector cosine similarity
                        └── [Keyword] tsvector text match (BM25)

                        3. **Fusion & Re-ranking**
                        ├── [RRF] 랭킹 스코어 결합
                        └── [Reranker] Cross-Encoder 기반 정밀 재순위화

                        4. **Final Context**
                        상위 N개 컨텍스트를 LLM 답변 생성에 활용
                    

✅ 구현 완료 리포트

HyDE를 통해 질문의 의도를 더 풍부하게 해석하고, Hybrid 검색과 Rerank를 순차적으로 적용하여 고유명사 및 코드 매칭은 물론 의미론적 유사도 판별 정확도를 극대화했습니다.

Phase 3 (완료)

LLM 성능 최적화

SSE 스트리밍·프롬프트 구조화·응답속도 개선·임베딩 모델 업그레이드(BGE-M3)·고성능 LLM 탑재를 모두 완료했습니다.

🧠

고성능 모델 탑재 ✅ 구현 완료

고객사 GPU 사양에 맞춰 2026년 기준으로 확인된 정보(Hugging Face와 공식 문서 기반)에서 1위 ~ 3위 순서로 선별 탑재 합니다.

🚀 NVIDIA RTX PRO 4500 Blackwell N개 기준 추천 모델 (선택 가능) or 고객사 GPU 에 최적화 모델 선택

Llama 3.1 70B-Instruct Q4_K_M (Meta): 대규모 추론·한국어 응답 품질이 우수하며, 24GB 환경에서 양자화 기반 고성능 운영에 적합
Qwen 3 32B-Instruct (Alibaba Cloud): 코딩·분석·도구사용 성능이 뛰어나 기업 업무형 질의 대응에 강점
Gemma 3 27B-Instruct (Google): 경량 대비 품질이 높고 안정적인 추론 성능으로 실서비스 배포에 유리

⚡

스트리밍 응답 ✅ 구현 완료

SSE 기반 토큰 스트리밍으로 체감 응답 속도를 50% 이상 개선

✅ 구현 완료 항목

서버 SSE 이벤트 표준: meta → delta → final → done
heartbeat 정책 및 재연결 힌트
웹 EventSource + Python SSE 클라이언트
실시간 렌더링 UI 연동 완료

🔢

임베딩 모델 업그레이드 ✅ 구현 완료

BGE-M3 (1024d) 모델로 전환 완료. Dense + Sparse + ColBERT 멀티벡터 지원으로 검색 정밀도가 대폭 향상되었습니다.

✅ 업그레이드 완료 이력

~~intfloat/multilingual-e5-base (768d)~~ → 교체 완료
현재: BAAI/bge-m3 (1024d) — 다국어 + Dense/Sparse/ColBERT
PostgreSQL vector(768) → vector(1024) 마이그레이션 완료

🧩

프롬프트 구조화 ✅ 구현 완료

모듈형 프롬프트 구성으로 역할 정의·컨텍스트 규칙·인용 규칙을 표준화하여 답변 일관성 확보

📊 응답속도 개선 진행률: 8/10 단계 완료

✅ 성능 계측 표준화 / 출력 토큰 정책 / 프롬프트 경량화
✅ 검색 최적화 / 재랭킹 경량화 / 모델 라우팅
✅ 추론 엔진 튜닝 / 동시성·백프레셔 제어
⬜ 캐시 계층 도입 / 운영 자동화 (예정)

Phase 4 (진행 중)

데이터 파이프라인 강화

PaddleOCR 마이크로서비스와 HWP 문서 지원이 구현 완료되었습니다. 실시간 인덱싱과 메타데이터 확장을 추진합니다.

PaddleOCR 한국어 OCR

GPU 가속 OCR 마이크로서비스 (rag-api-ocr:9000). 스캔 PDF 및 이미지에서 한국어 텍스트 93~95% 정확도 추출

HWP 문서 지원

PrvText 스트림 추출 방식으로 HWP 파일 100% 성공률 달성. Markdown 정규화 파이프라인 적용

BGE-M3 임베딩 전환

BAAI/bge-m3 (1024d) 전환 완료. Dense + Sparse + ColBERT 멀티벡터 지원으로 검색 정밀도 대폭 향상

Qwen2.5-VL 멀티모달

Vision-Language 모델로 문서 이미지·표·차트를 직접 이해. PaddleOCR과 병행하여 복합 레이아웃 문서 정확도 향상

메타데이터 확장

작성자/부서/태그/보안 등급 기반 필터링 검색 지원

실시간 인덱싱

FileWatcher + Queue로 문서 변경 즉시 증분 업데이트

📷

OCR + 문서 파이프라인

[PDF/HWP/Image] → [PaddleOCR/PrvText] → [MD 정규화] → [청킹] → [PostgreSQL]

✅ 구현 완료

• PaddleOCR 마이크로서비스 (CUDA 11.8, ~5GB 이미지)
• HWP PrvText 추출 100% 성공률
• PyMuPDF PDF 품질 업그레이드
• Markdown 중간 정규화 파이프라인
• 상품명 Disambiguation 로직

Phase 5 · Structured Data Analysis

Phase 5: Text-to-SQL 구현
(정형 데이터 분석)

비정형 문서뿐만 아니라, DB에 저장된 정형 데이터(매출, 재고, 인사 등)를 자연어로 조회하고 시각화합니다.

🤖

SQL Generation LLM

CodeLlama, Phind 등 코드 생성에 특화된 LLM을 사용하여 정확한 SQL 쿼리를 생성합니다.

🛡️

Safe Execution Sandbox

생성된 SQL은 읽기 전용(Read-Only) 권한의 샌드박스 환경에서 실행하여 데이터 위변조를 원천 차단합니다.

🗣️

자연어 질의

"지난달 A팀 매출?"

➡️

🧠

Schema 분석

테이블/컬럼 매핑

➡️

📝

SQL 생성

Dialect 맞춤 변환

➡️

📊

시각화

Chart.js / Table

✅ 구현 체크리스트

⬜ DB 스키마 정보(DDL)를 LLM 프롬프트에 주입하는 컨텍스트 관리 모듈 개발
⬜ Few-shot 프롬프팅으로 복잡한 조인(JOIN) 및 집계(GROUP BY) 쿼리 정확도 향상
⬜ 실행 불가능한 SQL 생성 시 자동 수정(Self-Correction) 로직 구현
⬜ python-sql 라이브러리 연동 및 차트 시각화 프론트엔드 컴포넌트 개발

📐

Text-to-SQL 상세 구현 계획서

보안 아키텍처 · API 설계 · LLM 프롬프트 전략 · 구현 로드맵 · 정책 결정 사항

Phase 6 (2~3주)

사용자 경험(UX) 개선

대화형 UI와 고급 검색 인터페이스로 사용자 탐색 경험을 개선합니다.

💬

멀티턴 대화

세션 기반 문맥 유지, 후속 질문 자동 제안으로 대화 품질 향상

🎛️

고급 검색 필터

소스 유형, 날짜 범위, 부서, 태그 기반의 정교한 필터 제공

📈

시각화 대시보드

질의 트렌드, 인기 문서, 지식베이스 통계 시각화

Phase 7 (Long Term)

엔터프라이즈 및 고급 RAG 기술

RBAC, 감사 로깅과 함께 Agentic RAG/GraphRAG 등 고급 기술을 도입합니다.

👮

접근 제어 (RBAC)

사용자 역할(Admin, Editor, Viewer)에 따른 문서 접근 권한 및 기능 제어

📜

감사 로깅

누가, 언제, 무엇을 검색했고 어떤 문서를 열람했는지에 대한 전체 감사 로그 기록

🤖

Agentic RAG

질문 계획(Planner) → 단계별 검색 → 자체 검증(Reflection)을 수행하는 자율 에이전트

🕸️

GraphRAG

문서 간 관계를 지식 그래프로 구축하여 복잡한 연결 고리를 추론하고 설명

Technology Roadmap

기술 스택 업그레이드 로드맵

구성요소	현재 (As-Is)	Phase 1-2	Phase 3-4	Phase 5-7
벡터 DB	PostgreSQL + pgvector	✓ 완료	PostgreSQL (파티셔닝)	PostgreSQL 클러스터
LLM	vLLM (고성능 추론 엔진)	✓ 완료	✓ vLLM 완료	분산 추론 클러스터
임베딩 모델	BAAI/bge-m3 (1024d)	✓ 완료	✓ BGE-M3 전환 완료	BGE-M3 (안정 운영)
검색 기술	Hybrid / Rerank / HyDE	✓ 완료	Hybrid / Rerank / HyDE (완료)	GraphRAG + Agentic RAG
캐싱	Redis	Redis	Redis Cluster	Redis + Semantic Cache
문서 처리	PDF / HWP / PaddleOCR / Qwen2.5-VL	PDF / TXT	PaddleOCR + HWP ✓ · Qwen2.5-VL (완료)	실시간 인덱싱 + 메타데이터 확장
정형 데이터 분석	미적용	미적용	요구사항 / 스키마 설계	LLM Text-to-SQL (Phase 5) → 차트 자동화
사용자 경험	SSE 실시간 스트리밍 UI	기본 UI	SSE 스트리밍 ✓ 완료	멀티턴 대화 + 대시보드 (Phase 6)
모니터링	기본 헬스체크	Prometheus / Grafana	APM 통합	Full Observability Stack
보안	없음	기본 인증	SQL 보안 (SELECT-only)	RBAC + SSO + 감사 로깅 (Phase 7)

Text-to-SQL은 자연어를 SQL로 변환하는 LLM 기반 추론 기능으로, 검색(RAG)과 별개가 아니라 질의 해석·쿼리 생성·결과 설명 단계에서 LLM 역량을 직접 활용하는 핵심 고도화 항목입니다.

개발자 역할 및 책임

개발자	역할	책임	주 작업 범위
a 개발자	백엔드	데이터 저장/검색, API, 인제스트, 인프라 기반	PostgreSQL/pgvector, 검색 API, 파이프라인, 보안/로그
b 개발자	프론트	사용자 경험, 화면 설계, 대시보드	대화형 UI, 스트리밍 응답 UI, 검색 필터, 대시보드
c 개발자	ML	임베딩/LLM 최적화, 프롬프트, 평가	모델 업그레이드, 프롬프트 표준화, 검색 품질 평가

>

Phase 실행 계획

Phase	우선순위	담당 개발자	핵심 실행 계획	예상 기간
Phase 1	완료됨	a 개발자	~~PostgreSQL 배포 → 스키마 생성 → 전체 재인제스트 → 레거시 벡터 스토어 제거~~	완료
Phase 2	완료됨	a 개발자, c 개발자	~~Hybrid(Vector+Keyword) · Rerank · HyDE 구현 및 튜닝 완료~~	완료
Phase 3	완료됨	c 개발자, a 개발자	~~SSE 스트리밍 API~~ · ~~프롬프트 표준화~~ · ~~응답속도 8/10단계~~ · ~~임베딩 BGE-M3 전환~~ · ~~고성능 모델 탑재~~	완료
Phase 4	진행 중	a 개발자, b 개발자	~~PaddleOCR 마이크로서비스~~ · ~~HWP 지원~~ · ~~MD 정규화~~ · ~~Qwen2.5-VL~~ → BGE-M3 전환 · 메타데이터 확장	진행 중
Phase 5	중간	a 개발자	Text-to-SQL → 차트 시각화 → 쿼리 샌드박스	중기
Phase 6	중간	b 개발자, a 개발자	멀티턴 대화 · 고급 검색 필터 · 시각화 대시보드	중기
Phase 7	장기	a 개발자, c 개발자	RBAC/감사 로깅 → Agentic RAG → GraphRAG	장기

차세대 시스템 구축을 준비하세요

현재의 RAG 시스템을 기반으로 엔터프라이즈 환경에 최적화된 지식 플랫폼으로의 진화를 도와드립니다.

도입 문의하기

RAG 시스템 고도화 모델 (To-Be)