
메모리 증강 네트워크(Memory Augmented Network)
기술
순차적 데이터(Sequencial Data)는 순서가 중요한 모든 종류의 데이터를 지칭합니다. 이러한 특성을 가진 데이터는 여러 종류가 있습니다. 전형적인 예로 시계열 데이터를 들 수 있습니다. 또한 텍스트나 유전자 데이터도 시간과는 상관이 없지만 순차적 데이터라고 할 수 있습니다. 이러한 데이터들은 항목들 간의 구조적 관계가 중요하며 따라서 이들의 순서가 의미를 갖게 됩니다.
순차적 데이터를 분석할 때, 시퀀스 모델링(Sequence Modeling)을 통해 어떤 단어나 글자가 다음에 나타날지 예측할 수 있습니다. 딥러닝에는 다양한 시퀀스 모델이 존재하며 LSTM(Long-Short Term Memory)을 적용한 RNN(Recurrent Neural Network)을 대표적인 예로 꼽을 수 있습니다. 이 모델은 과거 데이터의 특성을 기억하기 위해 내부 메모리를 사용합니다. 하지만 일반적으로 내부 메모리의 용량은 매우 작으며 과거의 모든 사실을 정확히 기억할 만큼 영역을 나눌 수 없습니다. 이 경우 모델은 장기간 의존성을 추적할 수 없습니다. 이에 비해 메모리 증강 네트워크(Memory Augmented Network)는 외부 메모리를 보유하고 있습니다. 과거 데이터를 외부 메모리에 저장함으로써 효율적으로 문제를 해결하는 방법을 터득합니다. 이 모델은 학습 과정에서 정보를 어떻게 저장하고, 어디에 초점을 맞출지, 그리고 어떻게 지울지를 배우게 됩니다. 메모리 증강 네트워크를 사용하면 우리가 얻을 수 있는 이점은 다음과 같습니다:
-
메모리 증강 네트워크는 장기간 의존성을 추적할 수 있습니다.
-
메모리 증강 네트워크는 어텐션 메카니즘(Attention Mechanism)를 사용하여 데이터의 중요한 부분을 찾아낼 수 있습니다.
-
메모리 증강 네트워크는 정보를 연결하고 메모리 내의 구조적 관계를 포착할 수 있습니다.
응용 분야
바이오 - 신약 개발
자동화된 신약 개발 모델의 목표는 그럴듯한 SMILES 문자열을 찾아 내는 것입니다. 여기서 ‘그럴듯한’ 또는 ‘유효한’ 이라는 수식어의 의미는
SMILES의 문법을 만족한다는 것입니다. 따라서 모델의 목표는 유효한 SMILES 문자열을 형성하는 숨겨져 있는 문법을 찾아내는 것입니다.
유효한 SMILES 문자열을 생성하는 규칙에는 화학 결합 시의 옥텟 규칙을 만족해야 하는 것 뿐만 아니라, 고리 열림 또는 닫힘 반응을 설명할 수 있어야 하며 여러 종류의 괄호가 제대로 표시되어야 합니다. 그러나 정규 RNN은 문자열을 생성하는 알고리즘 규칙을 이해하지 못하기 때문에 유효한 문자열을 생성하는데 어려움이 많습니다.
이러한 까닭으로 메모리 증강 네트워크가 해결 방안으로 대두되었습니다. 이 모델은 분자 구조를 암호화하는 특정 언어가 존재한다고 가정합니다. 언어는 문법을 가지고 있으며, 문법을 제대로 이해하지 못하면 실현 불가능한 분자 구조를 설계하는 결과를 초래합니다. 실제로 메모리 증강 네트워크는 외부 메모리가 없는 타 네트워크에 비해 9% 더 유효한 분자 구조를 생성한 사례가 있습니다.
위와 같은 아이디어는 튜링 머신(Turing Machine) 연구를 확장한 것입니다. 분자 구조는 “프로그래밍 가능”하기 때문에 규칙에 따라 이를 “컴파일” 할 수 있는 “컴퓨터”를 찾는 것이 중요합니다. 저희 팀은 2019년부터 이러한 컴퓨터 두뇌를 설계하는 것과 관련된 많은 연구를 진행하여 왔습니다. 이제는 축적된 지식을 이용하여 컴퓨터를 이용한 신약 개발 프로세스를 개발하고 있습니다.
