Google의 gemma-2b와 DPO를 이용한 한국어 문장 생성 sLLM 파인튜닝

Untitled

시기

2024.05 - 2024.07

프로젝트 소개

지식 그래프의 표현 식으로 한국어 문장을 생성하는 sLLM 학습
- 지식 그래프의 방향성을 고려, 좀 더 자연스러운 문장이 완성되도록 model alignment (DPO, ORPO) 수행 후 성능 비교

개발 환경

	항목
O/S	Ubuntu 22.04
언어	Python
프레임 워크	transformers, pandas
misc	PostgreSQL

인력 구성

AI 엔지니어 2명

역할

model alignment 수행에 필요한 choosen, rejected 라벨 데이터 생성 후 검수

e.g.,)
(김종민)-[:먹는다]->(짜장면) 이라는 표현식이 있을 때,
1) 김종민은 짜장면을 먹는다.
2) 짜장면은 김종민을 먹는다.

위 두 개의 문장을 생성해 좀 더 자연스러운 문장인 1)을 choosen,
나머지 2)를 rejected 데이터로 사용하도록 생성

[사진 2] 데이터 셋 구성에 사용된 DB ERD 구조

Model Alignment 방법 중 DPO를 이용하여, 학습 및 평가
- Google의 gemma-2b에 LoRA, QLoRA를 적용하여 학습 및 추론에서 사용되는 컴퓨팅 리소스를 줄임.
- 모델의 문장 생성 평가 방법에는 BLEU의 의미적 유사도를 반영하지 못하는 한계점을 보완한 METEOR를 이용