시기
프로젝트 소개
개발 환경
항목 | |
---|---|
O/S | Ubuntu 22.04 |
언어 | Python |
프레임 워크 | transformers, pandas |
misc | PostgreSQL |
인력 구성
역할
model alignment 수행에 필요한 choosen, rejected 라벨 데이터 생성 후 검수
e.g.,)
(김종민)-[:먹는다]->(짜장면) 이라는 표현식이 있을 때,
1) 김종민은 짜장면을 먹는다.
2) 짜장면은 김종민을 먹는다.
위 두 개의 문장을 생성해 좀 더 자연스러운 문장인 1)을 choosen,
나머지 2)를 rejected 데이터로 사용하도록 생성
[사진 2] 데이터 셋 구성에 사용된 DB ERD 구조
Model Alignment 방법 중 DPO를 이용하여, 학습 및 평가
Google의 gemma-2b에 LoRA, QLoRA를 적용하여 학습 및 추론에서 사용되는 컴퓨팅 리소스를 줄임.
모델의 문장 생성 평가 방법에는 BLEU의 의미적 유사도를 반영하지 못하는 한계점을 보완한 METEOR를 이용