히터뷰 | 칼리시 최재문 대표이사
AI 성능비교 플랫폼 TDC서 'Caco2 세포 약물 투과성 예측' 분야 1위
"Caliciboost로 ADMET-TOX 사전예측 가능, 88개 파라미터 1분 내 분석"

최근 AI를 활용한 신약 후보물질 도출에 많은 제약사들이 관심을 가지고 있는 가운데, 바이오 AI 스타트업 '칼리시'가 글로벌 오픈소스 플랫폼 'Therapeutics Data Commons(TDC)'에서 Caco2 세포(인간 장 세포 모델)의 약물 투과성 예측 분야 1위를 차지했다.
칼리시는 AI 기반 신약 개발 플랫폼을 개발 및 운영하고 있는 회사로, 대표 후보물질 발굴 플랫폼인 '파마코-넷(Pharmaco-Net)'을 기반으로 서비스를 제공하고 있다. 그 중 대표 모델 중 하나인 'CaliciBoost'는 약물의 분자 구조로부터 다양한 화학적 특성값(2D/3D 지표, 분자 지문 등) 을 추출하고, 이를 바탕으로 머신러닝 최적화 알고리즘을 적용하여 예측 모델을 구축한다.
회사는 지난 6월 치료제 연구 분야에서 머신러닝/AI 기법의 성능을 공정하게 비교하고, 평가할 수 있도록 해주는 공개 플랫폼인 TDC에 'Caco-2 세포 투과 예측' 분야 1위로 랭크됐다.
TDC는 데이터셋, 벤치마크(Task), 평가 지표(Metric), 레더보드 등을 제공해서 제약바이오 및 AI 연구자들이 자사 플랫폼의 성능을 비교할 수 있도록 하고 있다. TDC 이전에는 신약개발 AI 모델의 성능을 객관적으로 평가해주거나 타 그룹의 모델과 비교해주는 시스템이 부재했는데, 이를 해결하고자 스탠포드, 하버드, MIT 등이 나서 TDC를 만들었다.
TDC는 각 회사들이 제출한 알고리즘을 바탕으로 검증을 거쳐 순위를 매긴다. ADME 예측, 독성 예측, 단백질-약물상호작용 예측, 분자 생성(Molecule generation), 세포 수준 반응 등 다양한 데이터 타입과 과제들로 구분돼 운영되고 있다. AI 신약개발 플랫폼을 운영하고 있는 회사들은 이런 벤치마크에 대해 자사 모델을 제출하고, 그 결과를 레더보드에 올려 다른 모델들과 비교 경쟁할 수 있다. 이 벤치마크 데이터들이 심사원들로부터 평가돼 상위 1위부터 순위가 매겨진다.
히트뉴스는 칼리시 최재문 대표를 만나 신약개발에서 AI 플랫폼의 역할과 TDC 리더보드에 벤치마크를 제출하게 된 이유와 1위 기록의 의미 등을 들었다.

TDC는 다양한 분야의 레더보드가 존재하는 것으로 아는데, 어떤 분야에 데이터 분석 결과를 제출했나요?

"AI 신약 개발 기업들이 자사 플랫폼 알고리즘이 우수하다고 말하지만, 이를 비교할 수 있는 수단은 없습니다. 이를 위해 MIT, 하버드 등 연구 조직들이 기존에 실험했던 바이오 데이터들을 컨소시엄으로 묶어서 공개한 뒤, 기업들이 자사 플랫폼을 통해 파라미터 등을 예측해 공개하도록 한 것입니다.
주체측은 물론 실제 값을 알고 있고, 기업들이 제출한 알고리즘을 바탕으로 예측 값과 실제 값이 얼마나 유사한지를 평가합니다. 이번에 칼리시가 참가한 분야는 사람의 소장 세포인 Caco-2 세포의 약물 투과도 예측으로, 906개 바이오 데이터셋을 분석해 결과를 도출했습니다.
모든 약물이 그런 것은 아니지만, 대부분 구강으로 섭취하는 약물은 복용 후 위를 지나 십이지장에서 소화됩니다. 이 때 얼마나 체내에 흡수가 되는지가 중요한 데, 그 연구에 Caco-2 세포를 활용합니다. 흡수된 약물은 간으로 이동해 대사를 거쳐 혈액을 통해 약물 목적지로 전달됩니다. 이를 정확히 예측할 수 있어야 독성은 줄이고, 적은 양만으로도 효과 좋은 약물을 개발할 수 있을 것입니다.
그 파라미터로 활용되는 것이 Caco-2 세포의 투과 예측입니다. TDC에 소속된 리뷰어들이 제출한 알고리즘을 바탕으로 검증을 실시해 실제 값과의 평균 절대 오차(Mean absolute error, MAE)를 도출합니다. 이 MAE가 낮을수록 실제 값과 유사함을 뜻합니다.
연구 결과, TDC의 Caco-2 데이터 세트를 기반으로 학습된 모델에서 3차원 분자 지표(3D descriptors)를 활용하면 예측 성능이 일관되게 향상되는 것으로 나타났습니다. 특히 3D 특성을 추가하면 2D 지표만을 사용한 모델 대비 평균절대오차(MAE)를 최대 15.7%까지 감소시킬 수 있어, 데이터가 제한적인 ADME-Tox 예측 과제에서 3차원 구조 정보의 절대적 중요성을 입증했습니다.
이를 기반으로 칼리시는 1위를 차지하게 됐고, 4개월이 지난 지금도 선두를 유지하고 있습니다."
제출된 알고리즘은 오픈 소스로 공개되는데, 기술 유출의 우려에도 참여하게 된 계기가 있을까요?

"최근 구글 딥마인드의 단백질 구조 예측 AI '알파폴드(AlphaFold)'의 등장으로 단백질 기반 신약개발 환경에 큰 변화가 있었습니다. 아미노산 서열만 알고 있으면, 이를 기반으로 단백질 접힘 구조를 예측할 수 있게 됐습니다.
다만, 단백질은 내외부 적으로 많은 상호작용이 있을 수 있어 모든 구조를 다 예측하기에는 한계가 있었습니다. 이 경우에는 실제로 결정을 만들어 엑스레이로 분석하거나, 크라이오이엠(Cryo-EM) 등을 활용해본 경험이 큰 도움이 될 수 있습니다.
우리 회사는 이런 단백질 구조를 실제로 분석해본 전문가들로 구성돼 있습니다. 그렇기에 이 분야에서 칼리시는 단순히 후발주자가 아닌, 강자로 설 수 있는 기반이 됩니다.
이번 TDC 레더보드 경쟁에 참여하게 된 계기도 그 일환입니다. 우리의 실력을 검증하고, 외부에 알릴 수 있는 기회라고 생각했습니다. 그리고 우리가 가지고 있는 모듈 중 Caco-2 세포 투과 예측 관련 1개의 파라미터에 대한 내용만 공개했기 때문에, 큰 어려움은 없었습니다.
해당 모델을 공개하기로 결정한 만큼 많은 연구소에서 우리 모델이 활용되고 이를 기반으로 더 좋은 투과도 예측 모델이 개발될 수 있기를 희망합니다. 이러한 오픈 소스 생태계가 활성화돼야 이를 바탕으로 기업의 서비스 모델들이 진화할 수 있다고 믿고 있습니다."
'Caliciboost' 모델을 활용하는 제약사에게 어떤 이점이 있을까요?

"전임상 시에는 독성 평가에 약 8억원 정도의 비용이 필요합니다. 이후 임상 스케일로 들어간다면 그 액수는 엄청나게 늘어납니다. 이런 비용이 투입하기 전에, 그 효과를 사전에 예측할 수 있는 방법이 ADMET(흡수, 분포, 대사, 배설)-TOX(독성)입니다.
이 방법안에는 확인해야 할 파라미터가 굉장히 많습니다. 우리 플랫폼에서 제공하고 있는 독성 모듈들이 있는데, 그 88개의 파라미터들을 1분 안에 보여줄 수 있습니다.

우리 모듈은 미국 국립생물정보센터(NCBI)의 단백질 데이터 뱅크에서 데이터를 가져다 쓸 수 있습니다. 단백질 코드를 입력하면, 단백질 구조를 3D로 파악할 수 있습니다. 해당 단백질이 팔량체(Octamer)인지, 단일체(Monomer)인지도 설정할 수 있고, 결합을 풀어볼 수도 있으며, 항체 의약품에서 가장 중요한 활성 부위를 찾을 수도 있습니다.
또 우리가 시험하고자 하는 화합물이 해당 단백질과 얼마나 상호작용할 수도 확인할 수 있는데, 이런 상호작용을 확인함으로써 더 적은 용량으로도 작용하는 물질을 찾을 수 있습니다."
파마코-넷의 모듈들을 활용한 여러 논문 발표가 있었습니다.

"파마코-넷 플랫폼을 런칭한지 이제 막 2년이 지났습니다. 플랫폼 서비스를 개시하는 그 시점부터 우수하고 다양한 연구팀들을 고객으로 혹은 협업의 모습으로 연구를 지원해드리면서 현재까지 4편 정도의 논문이 SCI급 글로벌 학술지에 출판됐습니다.
이 결과는 우리가 개발한 단백질 구조 기반의 AI 신약개발 알고리즘으로 구축된 모듈들이 적절히 그리고 매우 효율적으로 동원됐기 때문에 가능했다고 생각합니다. 그렇기에 감사히 공동 저자로 칼리시 멤버들이 함께했고, 좋은 결과를 도출한 연구 논문 6~7편 정도가 추가적으로 올해 안에 준비될 수 있을 것으로 기대합니다."
어떤 질환 또는 치료제 분야에서 활용될 것으로 전망하나요?
"이번 경쟁에서는 Caco-2 세포 투과도와 관련된 부분만 공개됐지만, 혈관뇌장벽(BBB) 투과도도 예측이 가능합니다. 알츠하이머병과 같은 중추신경계(CNS) 분야에서는 BBB 투과도가 중요한 요소로 꼽히는데, 이 치료제를 개발하려는 제약사가 있다면 활용도가 있을 것으로 보입니다.
더불어 최근 항암제로 항체약물접합체(ADC)가 각광을 받고 있습니다. ADC의 구성요소 중 하나인 항체를 개발함에 있어서도 활용될 수 있습니다."
향후 회사의 비즈니스 계획은 어떻게 되나요?
"칼리시는 3년 전부터 연 200% 수준의 성장을 이어 나가려 노력하고 있습니다. 더불어 현재 미국, 일본, 한국 소재의 다양한 제약 회사 및 연구팀들과 논의를 진행하고 있습니다. 아직 공개는 어려운 상황이지만, 실제 약물 타깃에 대한 논의를 비공개로 시작하는 곳들도 있습니다.
우리 AI 신약개발 플랫폼의 가시적인 결과들에 고무적인 반응과 관심들을 받고 있는 만큼, 지속적으로 이러한 성과들을 더 생산하고자 합니다.
특히, 기존의 신약개발은 각자의 회사들의 특정 질환을 치료하기 위한 개별 시도들로 이뤄져 왔습니다. 이런 접근으로는 인류가 마주하고 있는 모든 질병의 정복은 요원하다고 생각합니다. 칼리시는 파마코-넷을 통해 지구상의 모든 연구자들이 신약을 개발할 수 있도록 더 많은 기회를 제공하고자 합니다.
페니실린 개발이 단 하나의 업적이었다면 우리는 질병과 맞서 싸울 수 있는 인류의 위대한 지적 유산들을 개발할 것입니다. 이를 발판으로 인류의 질병치료와 건강 증진에 도움되는 글로벌 회사로 자리 매김하고 싶습니다."
