HippoRAG 기반 유사 질문 생성 및 인터랙티브 데모 개발

[ 모델 학습, 배포 파이프라인 구성도 ]

프로젝트 배경

프로젝트 기간

인력 구성

개발 환경

	항목
O/S	Ubuntu 20.04
언어	Python
프레임 워크	transformers, llama.cpp, gradio
misc	Docker, Airflow, mlflow, triton inference server

프로젝트 소개

Stanford HippoRAG 아이디어 기반 엔티티 추출 학습·평가 파이프라인 구축 및 Gradio 기반 유사 질문 생성 데모를 개발한 사내 시연 프로젝트
유사 질문 생성 과정은 다음 세 단계로 구성된다.

[유사 질문 생성 과정 구성도]
1. 문서 엔티티 인덱싱
  - 사용자가 입력한 문서의 각 문장을 LLM에 입력해 주어·서술어·목적어 엔티티를 추출
    - 엔티티를 임베딩하여 Milvus Collection에 저장
    - neo4j에 엔티티를 (주어)-[:서술어]→(목적어) 구조의 노드 및 엣지로 저장
2. 시멘틱 엔티티 검색
  - 사용자 질의에서도 LLM에 입력해 주어·서술어·목적어 엔티티를 동일하게 추출
  - 각 엔티티 임베딩으로 지식 그래프 내에서 벡터 검색을 실행해 의미적으로 유사한 노드 검색
    
    ⚠️ LLM이 추출한 엔티티를 노드로 생성하고, 검색된 노드의 인접 노드들을 엣지로 연결
3. 유사 질문 생성
  - 검색된 주어·서술어·목적어 엔티티를 조합하여 컨텍스트 구성
  - 이를 LLM에 입력해 원본 질의의 의미를 유지하면서 변환된 유사 질문 생성

역할

공개 데이터 셋을 이용한 학습, 평가 데이터 셋 생성 코드 작성 후 데이터 엔지니어에게 공유
- 국가 법령 정보 센터의 법률 문서를 다운로드 받아 전처리 후, 데이터 생성 및 적재
transformer와 mlflow, milvus를 이용한 Gemma-2B ****모델 학습, 평가 파이프 라인 개발
- mlflow로 모델의 하이퍼 파라미터 및 학습, 평가 결과를 로깅 시키며 ****실험의 재현성을 보장
- 벡터 검색을 위한 임베딩 모델은 jina-ai의 colbert-v2 를 사용
  - jina-ai/colbert-v2를 활용하는 프레임워크는 로컬 db로 저장되기 때문에, 프레임워크 코드를 milvus 서버에 저장할 수 있도록 수정
Gradio를 활용한 데모 개발 및 사내 PoC 완료 후 영업 팀 배포

[ Gradio demo UI 메인페이지 ]

[고장난 노트북 재활용하려면 어떻게 해야하나요?에 대한 유사 질의 생성]