빅데이터와 만나 강력해지는 인공지능

신약개발 공공데이터베이스 구축부터
표준화 작업 위한 전문인력 확보 관건

[Hit-check] 인공지능 신약개발 핵심은 '데이터' ②

인공지능이 신약개발 영역까지 들어왔다. 정부, 제약사, 협회 등 유관기관도 모두 신약개발에 인공지능을 하겠다고 나섰다. 이런 가운데 아직까지도 인공지능 신약개발을 활용 가능성에 의문을 제기하는 목소리도 있다. 히트뉴스는 인공지능이 신약개발이 현재 어디까지 진행됐고, 현재 어떤 어려움이 있는지 짚어봤다.

1) 신약개발에 AI 활용 어디까지 가능한가 – 국내외 기업을 중심으로
2) 공공데이터베이스 구축의 필요성과 한계
3) 개인정보보보호법에 발목 잡힌 '데이터 활용'

인공지능(Artificial Intelligence; AI)은 시스템에 의해 만들어진 지능이다. 즉 기계가 인간의 뇌를 모방한 것이다. 1950년에 등장한 인공지능을 최신 트렌드로 끌고 온 것은 ‘빅데이터’다. 인공지능이 방대한 데이터를 자체 알고리즘을 가지고 학습하며 특정 분야에서 인간의 지능보다 앞선 능력을 보인 것이다.

그렇다면 인공지능은 어떤 학습 과정을 거칠까? 인공지능이 빅데이터를 학습하는 방식을 ‘딥러닝’(deep learning, 심층학습)이라고 부른다. 쉽게 말해 다양한 형식으로 흩어져 있는 데이터(비선형 데이터)에서 핵식점인 내용을 추출하는 기계학습 알고리즘을 의미한다. 인공지능과 알고리즘이라는 단어가 함께 따라 다니는 이유가 이 때문이다.

현재 구현된 약한 인공지능은 빅데이터를 학습한 딥러닝 기법에 의해 특정 분야에서 인간보다 앞서 있다는 것. 그리고 신약개발 역시 인공지능이 나날이 발전해 인간의 시간과 노력을 줄여줄 수 있는 분야다.

정부, 국책연구와 임상시험 데이터 통합부터

신약개발에 활용하기 위해 인공지능은 어떤 데이터를 학습할까? 대표적으로 각 제약회사들이 가지고 있는 신약개발 연구 데이터, 환자들의 정보를 담고 있는 전자의무기록(EMR)과 임상시험 데이터, 유전체 데이터, 한국화학구원이 가지고 있는 화합물 라이브러리가 있다.

인공지능을 활용해 앞서 언급한 데이터가 모여 ‘빅’데이터가 돼야지만 우리가 원하는 수준의 신약개발을 위한 인공지능을 만들 수 있다. 그러나 데이터를 모으는 일(데이터 베이스 구축)은 생각보다 간단치 않다. 실제로 세계적인 글로벌제약사 화이자 역시 제약회사에서 AI 연구가 어려운 이유로 양질의 데이터를 통합하는 일이 어렵기 때문이라고 언급했을 정도다.

인공지능 신약개발의 관건은 신약개발에 활용 가능한 데이터베이스 구축이다.

이런 상황에서 보건복지부는 데이터 공유 문제를 해결하기 위해 ‘제약산업 육성·지원 시행계획(안)’에 인공지능 신약개발과 관련한 내용을 담았다. 이중 데이터 공유와 관련해 주목할 만한 사업은 ‘국내외 제약산업의 신약 R&D 실패 경험 공유 및 정보 축적을 위한 플랫폼 구축’이다. 신약 개발로 이어지지 못한 데이터를 정부 주도로 플랫폼을 구축해 각 제약사와 연구기관이 공유할 수 있도록 하자는 것이다.

그러나 업계 관계자들이 이 사업에 대해 회의적인 시각을 보였다. 관계자들의 의견을 종합해 보면, 회사들이 아무런 대가없이 실패한 데이터를 내놓을지 의문이라는 것. 또 제약사의 사유재산인 데이터를 정부가 강제적으로 내놓으라고 할 수 없기 때문에 플랫폼 사업을 감수할 수 없다는 것이다. 이 사업이 현실적으로 이행되기 위해선 정부 지원으로 이뤄졌던 R&D 사업 내용과 식약처임상시험 정보를 공유하는 작업이 우선이라는 게 업계 전문가의 의견이다.

또 병원 데이터인 전자의무기록(EMR) 데이터는 복지부에서 인증제 사업을 통해 데이터 품질 확보에 나섰다. 이와 함께 각 병원 간 데이터를 상호 호환해서 공유할 수 있는 기반을 만들어야 하지만, 각각 다른 데이터 베이스를 가지고 있어 아직까진 통합 과정이 쉽지 않은 상황이다.

이외에도 과학기술정보통신부, 보건복지부, 산업통상자원부는 2021년까지 약 258억원을 예산을 들여 인공지능신약개발플랫폼 사업을 추진하겠다고 밝혔다. 이와 관련해 이창선 과학기술정보통신부 생명기술과장은 히트뉴스에 "정부가 플랫폼을 구축해 현재 인공지능 플랫폼에 투자할 여력이 없거나 (이용료 등) 기존 인공지능 플랫폼을 이용하지 못 하는 제약사를 위해 플랫폼을 제공할 예정"이라고 했다.

이밖에 건강보험심사평가원이 'Open R&D센터'를 통해 제약R&D에 4가지 소스를 제공한다는 계획을 밝혔다. ▲전국민 진료 처방 패턴 분석, ▲병용처방 분석, ▲새로운 적응증 발굴, ▲성별·연령·특정계층 대상 효능효과 비교분석 등이 그것이다. 특히 병용처방 분석 결과는 복합신약 개발에 활용할 수 있는 소스다.

문제는 ‘데이터’ – 표준화부터 분석 인력까지

이제 막 태동하기 시작한 인공지능 신약개발. 전문가들이 한 목소리로 말하는 것은 인공지능이 아니라 데이터다. 이 데이터를 AI에 학습시키기 위해선 더 나아가 ‘표준화’하는 작업이 필요하다. 쉽게 말해 데이터를 인공지능이 잘 인식할 수 있도록 정리해 주는 작업 정도로 생각하면 된다.

우선 전문가들은 공공데이터를 데이터베이스에 구축해 빅데이터로 만드는 것부터 시작해야 한다고 지적한다.

그 동안 우리나라도 제약사, 대학, 연구기관 등의 노력으로 신약개발과 관련된 데이터가 축적돼 있다. 문제는 축적된 데이터가 데이터베이스화(DB)화 되지 못 했다는 것. 그간 축적된 데이터는 지적 재산권 등과 얽혀 개방되지 못 했고, DB화 되지 못 한 채 엑셀파일 그대로 저장돼 있다는 업계 전문가의 지적이다. 심지어 공공데이터인 정부 데이터 역시 표준화 작업이 이뤄지지 못 했다.

신약개발 데이터 표준화를 위해선 이를 분석할 수 있는 인력 확보가 시급하다. 그러나 IT 지식과 생물통계학 지식을 모두 갖춘 인재는 확보하기란 쉽지 않다.

바이오인포메틱스를 연구하고 있는 A 교수는 “우리나라에서는 화학연구원이 그 동안 신약개발 서비스를 많이 제공해 주다 보니, 공공영역 데이터를 많이 가지고 있지만, 아직 공공데이터조차 DB화 되지 못 한 채 방치돼 있다”고 지적했다.

헬스케어 데이터를 연구하고 있는 B 교수는 정부나 협회 주도로 인공지능 플랫폼을 구축하는 것은 바람직한 방향은 아니라고 했다. 그 역시 정부는 공공데이터를 제대로 활용할 수 있는 DB 구축의 구심적 역할을 해야 한다고 했다.

B 교수는 “미국은 정부가 데이터를 개방해 놓는 역할만 할 뿐 플랫폼 자체는 구축하지 않는다. 이는 정부가 데이터를 분석하고 인공지능 알고리즘을 분석할 여력이 없을 뿐만 아니라 이미 전문적으로 하는 기업이 있기 때문”이라며 “우리나라 역시 최근 인공지능 신약개발 기업이 있기 때문에 인공지능 플랫폼 구축은 (정부나 협회가 아닌) 전문기업이 주체적으로 하는 것이 바람직하다”고 했다. 이어 “(현실적으로 정부는) 데이터 공유가 개인정보호법 등으로 제약을 받게되면, 클라우드만 구축하면 되지 플랫폼(하드웨어) 자체를 구축할 필요는 없다”고 했다.

정리해 보면, 정부는 공공데이터를 한 곳에 모을 수 있는 그릇(데이터베이스)를 구축하고, 신약개발 인공지능 플랫폼은 전문기업의 영역으로 남겨둬야 한다는 것이다.

이러한 데이터 표준화 작업은 IT, 약학, 생물학, 생물통계학 등을 함께 이해하고 있는 전문인력을 통해 이뤄진다. 그러나 이런 융합형 인재는 현재로선 찾기 힘들기 때문에 생물통계학을 배운 인력에게 IT기술을 교육시키는 게 현실적인 방안이라는 의견이 나왔다.

권진선 일동제약 책임연구원은 지난 6월 국회 토론회에서 “국내에서 유능한 인재는 미국, 유럽, 일본 등으로 가고 있다. 연봉이 상대적으로 높은 IT나 금융 업계에 비해 헬스케어 산업 군으로 진입하는 것도 (인공지능 연구자들이) 꺼린다”며 “생물통계학을 배운 인재에게 IT 기술을 교육시키는 게 현실적인 방안"이라고 했다.

상단영역

본문영역