Creating innovative bio-convergent technologies for better human life

문채영.png

<다중작업학습을 통한 저분자 화합물과 단백질 결합 예측>

 

Q1. 자기소개 부탁드립니다.

안녕하세요, 바이오및뇌공학과 김동섭 교수님 연구실 박사 과정 문채영이라고 합니다. 

 

Q2. 반갑습니다. 이번에 Scientific Reports지에 새로운 연구 결과를 발표하셨는데, 어떤 연구였는지 소개해 주실 수 있으신가요?

제 연구는 저분자 화합물이 어떤 표적 단백질에 결합할 것인가를 예측하는 딥러닝 모델에 관한 연구입니다. 딥러닝 모델은 수행가능한 테스크 수에 따라 단일 테스크 모델과 다중 테스크 모델로 분류할 수 있습니다. 연구에 사용된 모델은 그 중에서 여러 표적 단백질에 대한 저분자 화합물의 상호작용을 예측하는 다중 테스크 모델인데, 본 연구에서는 그룹 선택과 지식 증류라는 기법을 활용하여 해당 모델의 성능을 높일 수 있는 방안을 제시하였습니다.

 

Q3. 자세한 설명 감사드립니다. 이번 연구의 의의는 어떻게 될까요?

다중 테스크 모델은 단일 테스크 모델에 비해 학습이 더 어렵다고 할 수 있습니다. 단일 테스크 모델은 하나의 테스크에 맞게 모델을 학습시키는 반면, 다중 테스크 모델은 하나의 모델로 여러 테스크를 학습하기 때문입니다. 

우리가 원하는 결과는 다중 테스크 모델이 모든 테스크를 기존 단일 테스크 모델에 비해 더 잘해서 평균 테스크 성능까지 높아지는 것이지만, 모델이 어떤 테스크는 기존 단일 테스크 모델에 비해 더 잘하고 어떤 테스크는 더 못하게 되어 평균 성능이 높아지지 않거나 혹은 더 낮아지는 경우가 많습니다. 그렇기 때문에 어떤 학습방식을 적용하는 가가 중요한 문제입니다. 

본 연구에서는 이렇게 여러 표적 단백질에 대한 저분자 화합물의 상호작용을 예측하는 모델을 학습하는 과정에서 발생할 수 있는 성능 손실을 줄이고 평균 성능을 높이는 방식을 제안하였다는 점에서 의미가 있습니다.

 

Q4. 개인적으로 앞으로 더 연구하고 싶은 주제나 분야가 있다면 소개 부탁드립니다. 현재 하고 계신 후속연구가 있다면 그것도 좋습니다.

앞으로는 화합물 데이터에 대한 사전 학습 모델을 연구해보고 싶습니다. 일반적으로 성능이 좋은 딥러닝 모델을 만들기 위해서는 많은 양의 질 좋은 데이터가 필요합니다. 화합물 데이터의 경우는 실험이 선행되어야 하기 때문에 데이터가 만들어지는데 시간과 비용이 큰 편입니다. 그렇기 때문에 그 양도 이미지나 언어 데이터에 비해 적다는 것이 단점입니다. 이를 해소하기 위해 우선 대량의 화합물 데이터로 전체적인 특징을 학습한 다음에 이를 바탕으로 세부적인 테스크를 수행할 수 있는 사전학습 모델을 연구해보고자 합니다.

 

지금까지 카이스트 바이오및뇌공학과 김동섭 교수님 실험실의 문채영 박사과정생이었습니다. 인터뷰에 응해주셔서 다시 한번 감사드립니다!