학습 정리/Level 3

14주차 - day1

uvumbu 2024. 11. 27. 23:59

 

 

1. 한 것

현재 진행 중인 수능 문제풀이 프로젝트에서, 우리 모델이 어떤 부분에서 취약한지를 파악할 필요가 있었다. 이를 바탕으로 향후 데이터 증강이나 학습 기법을 추가할 수 있기 때문이다.

이를 위해 간단한 실험을 진행해 보기로 했다.

 

 

 

2. 내용

먼저, 아무런 증강이나 전처리를 하지 않은 train.csv 데이터를 사용해 모델을 학습시켰다. 이후 예측 단계에서는 라벨 값을 제거한 train.csv를 test.csv 대신 예측 대상으로 지정했다.

그 결과로 나온 예측 값과 원본 train.csv 데이터를 비교했고, 차이를 보이는 항목들을 따로 추려냈다.

그러나 이렇게 추려낸 데이터가 약 2300개 중 4~500개에 달했다. 이를 하나하나 육안으로 검토하기에는 시간이 부족했고, 비효율적이라 판단했다.

그래서 LLM(Large Language Model)을 활용해 보기로 했다.

챗 템플릿 등을 이용해 14B 파라미터를 갖는 모델에게 해당 데이터가 어떤 과목에 속하는지 분류하도록 요청했다. 결과적으로 대부분의 데이터가 적절히 분류되었고, 덕분에 특정 과목에서 데이터가 취약점을 보이는 경향을 파악할 수 있었다.