PostgreSQL + pgvector 기반의 통합 스택으로 전환하고 하이브리드 검색·SSE 스트리밍·OCR·LLM 고도화·엔터프라이즈 기능 확장을 위한 8단계 고도화 로드맵을 제시합니다. (Phase 1~3 완료, Phase 4 진행 중)
PostgreSQL + pgvector로 전환을 완료한 뒤, 하이브리드 검색과 LLM 최적화를 순차적으로 적용하여 확장 가능한 엔터프라이즈급 지식 플랫폼으로 발전시킵니다.
레거시 벡터 스토어를 성공적으로 제거하고, PostgreSQL + pgvector 기반의 단일 데이터베이스 환경으로 통합을 완료했습니다.
전체 벡터 데이터를 PostgreSQL로 이관 완료. ACID 트랜잭션 및 엔터프라이즈급 안정성 확보.
레거시 벡터 스토어 관련 코드 및 컨테이너가 시스템에서 완전히 제거되었습니다.
벡터, 전문 검색(Full-text), 메타데이터가 단일 PostgreSQL 인스턴스에서 통합 운영됩니다.
정밀한 검색 결과 도출을 위해 하이브리드 검색(Hybrid), 재순위화(Rerank), 가상 문서 임베딩(HyDE) 3대 핵심 기술의 구현을 모두 완료했습니다.
| 구성 요소 | 기술 | 상태 |
|---|---|---|
| 하이브리드 검색 (Hybrid) | Vector(HNSW) + Keyword(BM25) | ✅ 구현 완료 |
| 재순위화 (Rerank) | BGE-Reranker (Cross-Encoder) | ✅ 구현 완료 |
| 가상 문서 임베딩 (HyDE) | LLM 기반 Query Expansion | ✅ 구현 완료 |
Vector: 0.7 / Keyword: 0.3
RRF K: 60
HyDE를 통해 질문의 의도를 더 풍부하게 해석하고, Hybrid 검색과 Rerank를 순차적으로 적용하여 고유명사 및 코드 매칭은 물론 의미론적 유사도 판별 정확도를 극대화했습니다.
SSE 스트리밍·프롬프트 구조화·응답속도 개선·임베딩 모델 업그레이드(BGE-M3)·고성능 LLM 탑재를 모두 완료했습니다.
고객사 GPU 사양에 맞춰 2026년 기준으로 확인된 정보(Hugging Face와 공식 문서 기반)에서 1위 ~ 3위 순서로 선별 탑재 합니다.
SSE 기반 토큰 스트리밍으로 체감 응답 속도를 50% 이상 개선
BGE-M3 (1024d) 모델로 전환 완료. Dense + Sparse + ColBERT 멀티벡터 지원으로 검색 정밀도가 대폭 향상되었습니다.
모듈형 프롬프트 구성으로 역할 정의·컨텍스트 규칙·인용 규칙을 표준화하여 답변 일관성 확보
PaddleOCR 마이크로서비스와 HWP 문서 지원이 구현 완료되었습니다. 실시간 인덱싱과 메타데이터 확장을 추진합니다.
GPU 가속 OCR 마이크로서비스 (rag-api-ocr:9000). 스캔 PDF 및 이미지에서 한국어 텍스트 93~95% 정확도 추출
PrvText 스트림 추출 방식으로 HWP 파일 100% 성공률 달성. Markdown 정규화 파이프라인 적용
BAAI/bge-m3 (1024d) 전환 완료. Dense + Sparse + ColBERT 멀티벡터 지원으로 검색 정밀도 대폭 향상
Vision-Language 모델로 문서 이미지·표·차트를 직접 이해. PaddleOCR과 병행하여 복합 레이아웃 문서 정확도 향상
작성자/부서/태그/보안 등급 기반 필터링 검색 지원
FileWatcher + Queue로 문서 변경 즉시 증분 업데이트
[PDF/HWP/Image] → [PaddleOCR/PrvText] → [MD 정규화] → [청킹] → [PostgreSQL]
비정형 문서뿐만 아니라, DB에 저장된 정형 데이터(매출, 재고, 인사 등)를 자연어로 조회하고 시각화합니다.
CodeLlama, Phind 등 코드 생성에 특화된 LLM을 사용하여 정확한 SQL 쿼리를 생성합니다.
생성된 SQL은 읽기 전용(Read-Only) 권한의 샌드박스 환경에서 실행하여 데이터 위변조를 원천 차단합니다.
대화형 UI와 고급 검색 인터페이스로 사용자 탐색 경험을 개선합니다.
세션 기반 문맥 유지, 후속 질문 자동 제안으로 대화 품질 향상
소스 유형, 날짜 범위, 부서, 태그 기반의 정교한 필터 제공
질의 트렌드, 인기 문서, 지식베이스 통계 시각화
RBAC, 감사 로깅과 함께 Agentic RAG/GraphRAG 등 고급 기술을 도입합니다.
사용자 역할(Admin, Editor, Viewer)에 따른 문서 접근 권한 및 기능 제어
누가, 언제, 무엇을 검색했고 어떤 문서를 열람했는지에 대한 전체 감사 로그 기록
질문 계획(Planner) → 단계별 검색 → 자체 검증(Reflection)을 수행하는 자율 에이전트
문서 간 관계를 지식 그래프로 구축하여 복잡한 연결 고리를 추론하고 설명
| 구성요소 | 현재 (As-Is) | Phase 1-2 | Phase 3-4 | Phase 5-7 |
|---|---|---|---|---|
| 벡터 DB | PostgreSQL + pgvector | ✓ 완료 | PostgreSQL (파티셔닝) | PostgreSQL 클러스터 |
| LLM | vLLM (고성능 추론 엔진) | ✓ 완료 | ✓ vLLM 완료 | 분산 추론 클러스터 |
| 임베딩 모델 | BAAI/bge-m3 (1024d) | ✓ 완료 | ✓ BGE-M3 전환 완료 | BGE-M3 (안정 운영) |
| 검색 기술 | Hybrid / Rerank / HyDE | ✓ 완료 | Hybrid / Rerank / HyDE (완료) | GraphRAG + Agentic RAG |
| 캐싱 | Redis | Redis | Redis Cluster | Redis + Semantic Cache |
| 문서 처리 | PDF / HWP / PaddleOCR / Qwen2.5-VL | PDF / TXT | PaddleOCR + HWP ✓ · Qwen2.5-VL (완료) | 실시간 인덱싱 + 메타데이터 확장 |
| 정형 데이터 분석 | 미적용 | 미적용 | 요구사항 / 스키마 설계 | LLM Text-to-SQL (Phase 5) → 차트 자동화 |
| 사용자 경험 | SSE 실시간 스트리밍 UI | 기본 UI | SSE 스트리밍 ✓ 완료 | 멀티턴 대화 + 대시보드 (Phase 6) |
| 모니터링 | 기본 헬스체크 | Prometheus / Grafana | APM 통합 | Full Observability Stack |
| 보안 | 없음 | 기본 인증 | SQL 보안 (SELECT-only) | RBAC + SSO + 감사 로깅 (Phase 7) |
Text-to-SQL은 자연어를 SQL로 변환하는 LLM 기반 추론 기능으로, 검색(RAG)과 별개가 아니라 질의 해석·쿼리 생성·결과 설명 단계에서 LLM 역량을 직접 활용하는 핵심 고도화 항목입니다.
| 개발자 | 역할 | 책임 | 주 작업 범위 |
|---|---|---|---|
| a 개발자 | 백엔드 | 데이터 저장/검색, API, 인제스트, 인프라 기반 | PostgreSQL/pgvector, 검색 API, 파이프라인, 보안/로그 |
| b 개발자 | 프론트 | 사용자 경험, 화면 설계, 대시보드 | 대화형 UI, 스트리밍 응답 UI, 검색 필터, 대시보드 |
| c 개발자 | ML | 임베딩/LLM 최적화, 프롬프트, 평가 | 모델 업그레이드, 프롬프트 표준화, 검색 품질 평가 |
| Phase | 우선순위 | 담당 개발자 | 핵심 실행 계획 | 예상 기간 |
|---|---|---|---|---|
| Phase 1 | 완료됨 | a 개발자 | 완료 | |
| Phase 2 | 완료됨 | a 개발자, c 개발자 | 완료 | |
| Phase 3 | 완료됨 | c 개발자, a 개발자 | 완료 | |
| Phase 4 | 진행 중 | a 개발자, b 개발자 | 진행 중 | |
| Phase 5 | 중간 | a 개발자 | Text-to-SQL → 차트 시각화 → 쿼리 샌드박스 | 중기 |
| Phase 6 | 중간 | b 개발자, a 개발자 | 멀티턴 대화 · 고급 검색 필터 · 시각화 대시보드 | 중기 |
| Phase 7 | 장기 | a 개발자, c 개발자 | RBAC/감사 로깅 → Agentic RAG → GraphRAG | 장기 |