R&D CENTER

Improving EC Number Prediction Using Large-Scale Pretrained Protein Language Model and Dynamic Sequence Sampling

한국정보과학회 학술발표논문집 : 718-720

배영재 (성균관대학교), 강현구 (성균관대학교), 양유진 (성균관대학교), 강석호 (성균관대학교), 정승연 (인포보스), 최경호 (인포보스), 윤윤호 (인포보스), 박종선 (인포보스), 손장혁 (인포보스)
Enzyme commission (EC) 번호는 효소가 촉매하는 화학반응에 따라 효소를 분류하는 숫자 분류 체계이다. 효소의 EC 번호를 특정하는 것은 효소의 기능을 이해하는데 중요한 역할을 한다. 하지만, 실험을 통해 이를 확인하는 것은 큰 비용을 수반한다. 최근 기계학습 모델을 이용해 효소의 단백질 시퀀스로부터 빠르고 효율적으로 EC 번호를 예측하는 연구들이 진행되어 왔으나, 예측 성능이 높지 않아 현실에서의 활용이 제한되었다. 본 연구에서는 EC 번호 예측 성능을 개선하기 위해 대규모 사전학습 모델과 동적 시퀀스 추출에 기반한 방법을 제안한다. 거대 단백질 시퀀스 데이터셋으로부터 학습된 대규모 사전학습 단백질 언어 모델을 효소의 단백질 시퀀스와 EC 번호로 구성된 학습 데이터셋으로 미세조정하여 활용하며, 모델의 학습 및 추론 과정에서 단백질 시퀀스로부터 무작위로 일부 구간을 추출하는 동적 시퀀스 추출에 기반한 데이터 증대를 이용하여 추가적인 예측 성능 개선을 도모한다. Swiss-Prot 데이터셋을 이용한 평가 결과, 제안 방법이 기존 방법 대비 높은 EC 번호 예측 성능을 달성함을 확인하였다. 특히, 소수 범주 EC 번호에 대한 예측 성능이 큰 폭으로 개선됨을 확인하였다.