
시기
프로젝트 소개
개발 환경
| 항목 | |
|---|---|
| O/S | Ubuntu 20.04 |
| 언어 | Python |
| 프레임 워크 | Pytorch, Numpy, Scikit-learn, Pandas, transformers |
| misc | Docker, Jupyter lab server |
인력 구성
역할
KocoHub, SmileGate AI, Kaggle의 데이터 셋 전처리 작업 수행
레이블 불균형 문제를 위해 데이터 증강 옵션 구현
![[사진 1] 데이터 증강 전, 증강 후 데이터 분포](https://prod-files-secure.s3.us-west-2.amazonaws.com/26fd8bf0-f651-4e3f-bbf4-2419115be8de/ff4e71e6-b88b-4f3a-a66a-e993b4c44c49/Untitled.png)
[사진 1] 데이터 증강 전, 증강 후 데이터 분포
Huggingface API를 이용해 KcELECTRA 신경망을 fine-tuning 후 학습
![[사진 2] 검증 데이터 셋 검증 평가 지표](https://prod-files-secure.s3.us-west-2.amazonaws.com/26fd8bf0-f651-4e3f-bbf4-2419115be8de/cbb3d88d-fb04-4e9a-95c1-b498b8f53efe/Untitled.png)
[사진 2] 검증 데이터 셋 검증 평가 지표
![[사진 3] 시험 데이터 셋 검증 평가 지표](https://prod-files-secure.s3.us-west-2.amazonaws.com/26fd8bf0-f651-4e3f-bbf4-2419115be8de/6723fbff-c951-41ff-87eb-f9c849447898/Untitled.png)
[사진 3] 시험 데이터 셋 검증 평가 지표