보건의료빅데이터는 무엇이 특수하고 ·특별한 건가

저서 '보건의료 빅데이터의 활용과 개인정보보호' 3회 연재
보건의료데이터를 특수하게 만드는 '식별'의 가치
개인정보호관점서 다뤄지는 의료데이터 어떻게 이해하나

지난 칼럼에서 김지희 변호사(법학박사)는 보건의료정보와 빅데이터의 정의를 통한 보건의료빅데이터의 정의와 국내외 법적인 의미 등을 조명했다.

또한 민간데이터, 공공데이터 등 형태에 따라 달라지는 정보 유형과 데이터 존재가치를 결정하는 데이터 식별의 어려움 등을 소개했다. 이번 호에서는 보건의료빅데이터가 가지는 일반성과 특수성을 알아보고자 한다.

보건의료빅데이터 개론 차례

Ⅰ. 보건의료빅데이터는 무엇인가– 정의와 유형
Ⅱ. 보건의료빅데이터의 특징– 일반성과 특수성
Ⅲ. 어떻게 관리되고 있고, 되어야 하는가– 현황 및 개선점

개인정보로서 일반성 개인정보의 범주

개인정보 판단에 있어서 '식별성'
개인정보보호법 (법률 제16930호 일부개정 2020. 02. 04.) 제2조는 개인정보에 대하여 제1호로서, '살아 있는 개인에 관한 정보로서 다음 각 목의 어느 하나에 해당하는 정보를 말한다.'고 하고 있다. 이에 따라 개인정보로서의 구성요소를 정리하자면, 1) 살아있는 개인, 2) 개인과의 관련성, 3) 식별 가능성으로 요약될 수 있다. 이 중에서 개인정보의 범주 판단에 있어서 특히 중요한 개념이 바로 ‘식별성’이다. ‘식별가능한(identifiable)’의 개념요소는 다음의 세 가지 요인으로 나뉜다. 첫째로 단일성(Single out)으로서, 특정 정보가 한 개인과 대응되는 것이다. 다음으로 연결성(Linkability)으로서, 특정 정보와 특정 개인이 연결되는 것이다. 셋째로 추론성(Inference)으로서, 특정 정보로부터 특정 개인을 추론할 수 있는 것이다. 비식별처리를 통해 식별성을 떨어뜨리면, 개인정보로서의 보호 대상에서 보다 자유롭고 정보의 활용이 가능해진다.

비식별처리 관련 국내 법령의 내용
개정 개인정보보호법(법률 제16930호, 2020. 2. 4., 일부개정) 제2조 제1호 다목 및 제1의2호에 따르면, '익명정보'란 '개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가 정보 없이는 특정 개인을 알아볼 수 없도록 처리한 정보'를 뜻한다. 또한 '익명정보'에 대해서는 제58조에서 ‘시간, 비용, 기술 등을 합리적으로 고려할 때 다른 정보를 사용하여도 더 이상 개인을 알아볼 수 없는 정보에는 적용하지 아니한다'고 하고 가명정보 처리 가이드라인에서 ‘익명처리된 정보는 적용되지 않는다’고 기재하여 익명정보의 경우 개인정보보호법이 적용되지 않도록 하고 있다.

'비식별화'에 대해서는 '개인정보 비식별 조치 가이드라인'에서 '비식별 조치'란 '정보의 집합물에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체 등의 방법을 통해 개인을 알아볼 수 없도록 하는 조치'라고 하고 있다. 그렇다면 '익명정보'는 개인 식별의 가능성이 거의 0에 가깝게 강한 변형이 처리된 정보이고, '가명정보'는 이에 비해 약한 변형이 처리되어 식별성이 낮아진 정보의 정도로 파악해볼 수 있다. 다만 그 경계가 여전히 다소 모호한데, '비식별화'된 정보가 위 익명정보와 가명정보를 모두 포괄하는 개념이라고 보기에는, 익명정보의 경우 개인정보보호법의 적용예외에 해당하여 아예 개인정보로 보지 않는다는 점이 있다. 이와 관련한 상세한 논의와 해외의 개념에 대해서는 책에 자세히 서술되어 있다.

사례로 본 보건의료데이터의 '비식별화'
'약학정보원 사례'에서 암호화된 정보의 개인정보 여부에 대한 판시가 있었다. 이 사건에서 의사의 성명 및 면허번호는 최초 정보제공 시인 2011. 1.말경부터 2012. 2. 2.까지는 실제 성명과 번호로, 그 다음 날부터는 암호화되어 IMS에 각 제공되었다.

환자의 주민등록번호의 경우 ① 2011. 1.말경부터 2014. 6.경까지는 13자리의 주민등록번호 중 홀수 자리와 짝수 자리를 각 다른 암호화 규칙에 따라 영어 알파벳으로 치환한 다음 양끝 2자리에 임의의 알파벳으로 잡음을 추가하는 방식의 양방향 암호화가 이루어졌고(이하 '1기 암호화'), ② 2014. 6.경부터 2014. 9.경까지는 복호화가 불가능한 일방향 암호화 방식인 SHA-512 방식으로 환자의 주민등록번호가 암호화되었다(이하 ‘2기 암호화’). ③ 2014. 10.경 이후부터 2015. 1.경까지는 주민등록번호가 아니라 성명, 생년월일, 성별로 환자를 특정한 후 이를 일방향 암호화하는 방식으로 암호화하였다(이하 '3기 암호화').

법원은 데이터 마스킹 알고리즘이 적용된 이 사건 1기 암호화 방식은 특정한 값에 대한 다양한 추론을 통해 쉽게 복호화할 수 있어 개인이 식별될 우려가 크므로 적절한 비식별화 조치가 이루어졌다고 보기 어렵다며 개인정보로 인정하여, 이의 제3자 제공은 개인정보보호법에 반한다고 판단하였다. 한편 2, 3기 암호화의 경우는 일방향 암호화를 적용한 방식으로 이론상 양방향 암호화에 비해 암호화의 기술적 수준이 높아 그것만으로는 피고 회사가 자체적으로 복호화할 수 없을 것으로 보이지만 함께 제공된 1기 암호화 방식의 주민등록번호를 기재한 매칭 테이블을 결합하면 복호화가 가능하게 되므로 개인정보라고 인정하면서, 따라서 이의 제3자 제공은 개인정보보호법에 반한다고 판단하였다. 이와 같이 암호화 방법에 따라 재식별의 용이한 정도가 기술적으로 상이하고, 매칭테이블의 소지 등 제3자의 사정이 반영되어 개인정보인지 여부가 판단된다.

개인정보로서 일반성 개인정보의 활용과 보호

보건의료빅데이터에 대한 적절한 규율과 정책을 고민하기 위해서는, 먼저 개인정보보호에 대한 개념의 정립이 필요하다. 아울러 국내외 개인정보보호법의 법체계를 올바르게 이해하려면, '개인정보보호'와 '사생활비밀보호'를 엄밀히 구분할 필요가 있다. 사생활비밀보호는 공개되지 않은 개인의 사적정보의 비밀을 널리 공개하는 행위를 금지하는 것인 반면에 개인정보보호는 개인정보처리자에게는 이미 공개된, 식별되었거나 식별 가능한 개인에 관한 일체의 정보를 보호하는 것이라는 점에서 양자가 구분된다.

이러한 점에서 개인정보보호법은 개인정보의 '보호'와 '활용'의 적절한 균형을 도모하는 법이다. 이는 국내 개정 개인정보보호법(법률 제16930호, 2020. 2. 4. 일부개정)의 개정 이유를 통해서도 알 수 있다. 해당 개정이유에서는 '4차 산업혁명 시대를 맞아 핵심 자원인 데이터의 이용 활성화를 통한 신산업 육성이 범국가적 과제'이며 이에 '신기술을 활용한 데이터 이용이 필요한 바, 안전한 데이터 이용을 위한 사회적 규범 정립'이 시급하다고 언급하고 있다. 또한, 이에 따라 '정보주체의 동의 없이 과학적 연구, 통계작성, 공익적 기록보존 등의 목적으로 가명정보를 이용할 수 있는 근거를 마련하되, 개인정보처리자의 책임성 강화 등 개인정보를 안전하게 보호하기 위한 제도적 장치'를 마련하기 위해 개정한다고 밝히고 있다.

이러한 관점에서 보면 개인정보보호법은 개인정보의 수집 및 처리를 전제하고, 그 과정에서의 오남용을 방지하는 취지의 법으로 해석된다. 개인정보는 '정보주체의 것'이라는 인식도 있지만 이보다는 '정보주체의 동의'는 처리의 적법성을 인정받기 위한 여러 수단 중 하나로 보는 것이 타당하다고 생각된다. 개인정보보호법에서 보호되는 '개인정보자기결정권'은 정보주체에게 그 처리에 대한 전면적인 통제권을 주고자 하는 것이 아니라는 점을 환기할 필요가 있다. 오히려 안전한 ‘활용’에 방점이 있다. 이에 대한 원론적인 논의와 해외의 현황에 대한 검토는 책에 자세히 서술되어 있다.

보건의료데이터의 효용가치

질병관리본부 ‘한국인체자원은행네트워크’에서는 17개 병원을 통해 인체자원을 확보하여 질병지표를 발굴하고 질병조기 진단에 활용하고 있다. 또한 보건의료데이터는 민간기업이 활용할 경우 사기업의 영업이익 발생 등 경제적인 이득이 발생하고, 더불어 의약산업의 발전을 가져올 수 있다. 앞서 언급한 약학정보원 사례의 경우, 약학정보원은 약 47억건의 처방정보를 IMS에 넘기고 약 16억원을 대가로 지급받았으며, IMS는 이 정보를 다시 가공하여 제약업체에 판매하고 약 70억원의 수익을 올렸다.

뿐만 아니라 보건의료데이터는 임상시험 설계시 활용할 수 있는 막대한 선행자료가 될 수 있다는 점에서 임상기간과 비용을 상당히 단축시킬 수 있다. 국내 신약개발 비용은 약 1조에서 3조 내외로 10년 이상의 기간이 소요되는 바, 그 중 가장 상당한 기간과 비용을 차지하는 임상과정을 단축할 수 있는 것이다. 또한 신약후보물질의 발굴이나 적응증(신약의 효능) 확대를 위한 연구에 있어서도 보건의료데이터를 활용하여 연구기간을 상당히 단축시킬 수 있고, 유전적 코드에 기초한 맞춤형 약품을 개발(정밀의약)하는 것이 가능해진다. 해외의 경우 미국은 필박스(Pillbox) 프로젝트가 있다. 제조사와 사용자 간 상호작용을 통해 의약품 정보를 제공하는 것으로, 더욱 다양한 국내외 활용 사례는 책에 서술되어 있다.

국내 공공 보건의료데이터의 높은 비중과 활용
국내 보건의료데이터는 보건복지부 산하의 기관들이 법적인 설립 근거와 기능에 적합한 자료들을 보유하게 되어 전 국민의 다양하고 내밀한 보건의료데이터가 집약적으로 수집 및 관리되고 있다. 국민건강보험법이 2000년에 제정되면서 국민건강보험공단을 단일 보험자로 하는 관리운영체계를 갖추고, 국민건강보험공단과 건강보험심사평가원 등 담당 공공기관에 거의 전 국민의 건강검진기록, 의약품처방기록, 보험자격을 포함한 막대한 양의 정보가 수집되고 있다. 데이터의 수집과 체계적인 관리가 가능하다는 점에서 데이터 활용에 있어 유리한 여건에 있다.

공공 보건의료데이터의 경우 민간 보건의료데이터에 비하여 공공재적 시각이 반영되고 활용에 대한 당위성을 부여받는다. 공공기관의 정보 공개 의무 뿐 아니라 국민의 알 권리가 인정된다. 공공 보건의료데이터의 활용으로서 얻어지는 효용이 정책적인 수립, 산업 발전 등 공공적인 이득에 있고 이는 결국 국민 개개인, 정보주체에게도 그 이익이 돌아간다는 점이다. 데이터의 활용으로 보건의료수준이 향상된다면 그에 따른 혜택이 정보주체를 포함한 국민에게 돌아간다는 점이다. 관련법과 내용에 대해서는 책에 자세히 서술되어 있다.

보건의료데이터의 민감성과 처리에 있어서의 전문성
보건의료데이터는 주로 진료행위가 일어나는 특수한 상황에서 생성되기 때문에, 환자는 진료에 필요한 정보에 대하여 설사 아무리 내밀한 정보라 하더라도 제공을 거절하기가 사실상 어렵다. 따라서 보건의료데이터에는 개인의 신체에 관한 내밀한 정보가 포함되어 있기가 쉽다.

개인정보보호법에서 건강에 관련된 정보를 민감정보에 포함하고 있는 점도 이 때문일 것이다. 개인정보보호법 제23조에서는 ‘개인정보처리자는 사상·신념, 노동조합·정당의 가입·탈퇴, 정치적 견해, 건강, 성생활 등에 관한 정보, 그 밖에 정보주체의 사생활을 현저히 침해할 우려가 있는 개인정보로서 대통령령으로 정하는 정보(이하 ‘민감정보’라 한다)를 처리하여서는 아니 된다.’고 하면서, 민감정보에 대하여 일반개인정보에 비해 보다 엄격하게 보호하고 있다.

또한 보건의료데이터는 의료진과 같은 전문가에 의해 생성되는 경우가 대부분이기 때문에 그 생성과정과 정보 처리에 있어 전문지식을 요한다. 뿐만 아니라 텍스트, 사진, 동영상 등 형태가 다양하며, 정형과 비정형이 혼재된 비구조적인 형식으로 통일성이 결여되어 있다(예를 들면 CT, MRI, 3D, 초음파, X-ray 등). 데이터 처리가 법제적으로 뿐 아니라 기술적으로도 어려워 고도의 전문성이 필요하고 중요한 분야이다.

보건의료데이터의 비식별처리에 있어서 특수성
만일 홍길동이라는 사람이 희귀질환에 걸렸고 이에 대한 수년간의 추적연구가 필요하다고 가정해본다. 익명의 누군가가 어떠한 신체적 특징과 보건적 환경 하에 희귀질환에 걸렸다는 점(단일성)만 유지된다면 그 사람이 홍길동이라는 사실로 연결(연결성)되지 않고 주거지역이나 성별 등으로 범주가 좁혀지지(추론가능성) 않는다면 개인정보가 침해되지 않으면서도 연구에 활용할 수 있는 데이터가 생성될 수 있을 것이다. 희귀질환이라고 하여도 2만 명의 환자가 있기 때문에 적절한 가명화를 거친다면 이러한 작업이 가능하다. 희귀질환에 대한 연구는 제약기업 뿐만 아니라 의약계에서 오히려 일반질환에 비해 연구의 필요성이 높은 분야이다. 반면에 이러한 정보에 홍길동의 거주 지역, 성별, 진료 받는 병원 등의 추가 정보가 결합될 수 있다면 추론가능성과 연결성이 증가하여 재식별의 위험이 높아진다. 이러한 가정적인 예에 따라 알수 있듯이, 식별성을 제거하기 위하여 데이터의 분리·삭제·대체 등을 어느 정도 하여야 하는지 판단하는 것이 상당히 정교하고 전문적인 작업이라는 것을 알 수 있다.

보건의료데이터는 다양한 정형, 비정형 데이터가 존재하고, 특히 영상의 형태로 저장되는 의료기록은 비식별화가 까다롭다. 적합한 비식별조치에 대하여 일률적으로 정하여 두기가 불가능하다. 의료영상 데이터는 앞서 언급한 바와 같이 DICOM 방식으로 표준화하여 저장된다. 보통의 경우 DICOM Tag에 저장된 메타데이터의 식별자 혹은 준식별자(환자의 이름, 성별, 나이 등)를 비식별처리한다. 여기까지는 가이드라인에도 소개되어 있고, 방법 또한 명확하겠으나 경우에 따라 영상에서 혹시 보여질 수 있는 개인정보, 예를 들어 환자의 얼굴이 찍힌다거나, 뼈나 기관의 형태, 피부 등에 특이속성이 존재하여 개인과 연결가능성이 있는 경우 문제가 된다. 이렇게 비식별화가 까다로운 또다른 보건의료데이터 유형으로 유전정보도 있다. 게다가 유전정보는 본인의 정보뿐만 아니라 유전이 되는 대상의 모든 정보도 식별이 가능하기 때문에 민감도가 높은 특성도 있다.

보건의료데이터는 이렇게 유형이 다채롭고 비식별화가 기술적으로 어려우면서도 민감성이 높은 특성이 있어, 사전에 일률적인 방식을 규제해놓기란 쉽지가 않은 분야이다. 이러한 점에서 가이드라인에서는 데이터 심의위원회의 검토를 거쳐 비식별 판단을 하도록 권고하고 있다. 관련하여 자세한 국내현황과 방안검토는 다음 컬럼에서 살피고자 하며, 비식별 판단에 관한 해외의 비교법적 분석은 책에 자세히 서술되어 있다.

상단영역

본문영역