가명성
가명성(pseudonymity)이란 본명 대신 특별한 목적으로 사용된 이름이다. 법적 신분을 가진 사람이 소유하고 있지만 공개하지 않은 이름으로서, 특별한 목적을 가지고 사용한다.
목차
개요
일반적으로 실제 이름이 아닌 가짜 이름을 뜻한다. 보통은 범죄에 악용되는 경우가 있어 부정적인 이미지이지만 꼭 모두가 그런 것만은 아니다. 가명을 사용하는 이유는 여러가지가 있다. 첫 번째는 신상정보 유출에 대한 우려 때문이다. 범죄자들은 본인의 실명이 드러나면 처벌을 받을 것을 우려해 가명을 사용해 범죄를 저지르기도 한다. 두 번째로 정치적인 이유가 있다. 예컨대 공산당이나 반정부의 목적을 가진 불법 단체에서 활동할 경우, 실명을 사용하면 처벌받을 것을 우려해 가명을 쓰기도 한다. 불법적인 의도가 없다고 하더라도 독재국가에서 탄압받는 경우, 혹은 독재정권을 규탄하는 시위에 참여하기 위함도 있다.[1] 마지막으로 개인정보 보호 강화를 목적으로 하기도 한다. 크고 작은 개인정보 유출 사고가 지속되어 개인정보 보호 정책을 강화해야 한다는 사회적 요구가 계속되고 있으며, 다양한 데이터 활동을 필요로 하는 새로운 산업과 기술의 발전으로 개인정보 침해의 위험이 증가하기 때문이다. 역사적으로 유명한 사람들의 경우엔 여러 가지 이름으로 불리기도 하였으며 어느 것이 본명인지 확인되지 않는 경우도 있다.
가명정보 이름, 성별, 나이, 전화번호, 이메일 주소, 거주지 등 누군가를 식별할 수 있는 식별자와 준식별자가 포함된 정보를 개인정보라고 한다.
여기서 누군가를 특정할 수 있는 이름, 전화번호, 이메일 등의 정보를 식별자라고 부르며,
개인정보에서 식별자를 다른 표현으로 바꾸거나 가린 것을 가명정보라고 한다.[2]개인정보 살아있는 개인에 관한 정보이다. 이름, 주민등록번호, 생체정보 등이나 신체, 라이프 특징 등이
포함되어 바로 누구의 정보인지 식별이 가능한 상태의 것을 의미한다. 해당 정보만으로는 특정 개인을 알아볼 수 없더라도
다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함한다.익명정보 식별자를 완전히 삭제하고, 나이나 성별 혹은 주소 등 준식별자에 해당하는 정보를 범주화해
누구인지 정확하게 특정할 수 없도록 처리하는 것을 말한다.[3]
사례
사토시 나카모토
사토시 나카모토(Satoshi Nakamoto)는 세계 최초 암호화폐인 비트코인을 만든 사람이며 블록체인 기술의 창시자의 가명이다. 그의 정체는 아직까지 밝혀지지 않고 있다. 사토시 나카모토를 추정할 수 있는 단 한 가지 정보로 2009년 개인 간 거래 기술 관련 커뮤니티인 피투피재단 사이트에 비트코인을 소개할 때 쓴 그의 계정이다. 피투피재단 프로필에 따르면, 사토시 나카모토는 1975년 4월 5일에 태어나 일본에서 살고 있는 남자라고 적혀 있다. 하지만 그의 신원에 대한 조사는 성과를 내지 못해 그가 진짜 일본에 거주하는 사람인지, 개인이 아닌 단체인지, 현재 실존하는 사람이 아닌지는 아무도 모른다. 사토시 나카모토로 추정되는 인물로 도리안 나카모토, 할 피니, 닉 재보, 필 짐머만 등 다양한 인물이 거론되고 있지만 하나의 추정일뿐 아직까지 사토시 나카모토라는 인물이 정확히 밝혀진 바는 없다.[4] 사토시 나카모토에 대해 자세히 보기
비트코인
블록체인 기술을 기반으로 만들어진 온라인 암호화폐이다. 비트코인의 화폐 단위는 BTC 또는 XBT로 표시한다. 2008년 10월, 사토시 나카모토라는 가명의 개발자가 개발하여 2009년 1월, 프로그램 소스를 배포했다. 이로 인해 중앙은행 없이 P2P 방식(개인간거래)으로 자유롭게 금융거래를 할 수 있게 됐다.[5] 또 거래정보의 블록에 모든 거래 기록이 저장되고 익명성이 아닌 가명성을 제공하기 때문에 데이터가 충분히 쌓이면 범죄에 비트코인을 활용한 범인을 적시할 수 있어 비트코인의 범죄 활용 가능성은 매우 낮다.[6] 비트코인에 대해 자세히 보기
익명화/비식별화
방법론
개인정보 비식별 데이터에 대한 적정성 평가 및 세부기술은 다음과 같다.
- 가명처리(Pseudonymisation) : 개인정보 중 주요 식별요소를 다른 값으로 대체하여 개인식별을 곤란하게 한다.
- 휴리스틱 가명화(Heuristic Pseudonymization) : 식별자에 해상하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법이다.
- 암호화(Encryption) : 정보 가공 시 일정한 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법이다. 통상적으로 복호키를 가지고 있기 때문에 이에 대한 대처 방법이 필요하다.
- 교환 방법(Swapping) : 기존의 데이터베이스의 레코드를 사전에 정해진 외부의 변수(항목)값과 연계하여 교환하는 방법이다.
- 총계처리(Aggregation) 또는 평균값 대체(Replacement) : 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않게 한다.
- 총계처리(Aggregation) : 데이터 정체 또는 부분을 집계하는 방법이다.
- 부분총계(Micro Aggregation) : 다른 데이터 값에 비하여 오차 범위가 큰 항목을 통계값으로 변환하는 방법이다.
- 라운딩(Rounding) : 집계 처리된 값에 대하여 라운딩 기준을 적용하여 최종 집계 처리하는 방법이다. 일반적으로 세세한 정보보다는 전체 통계정보가 필요한 경우에 사용한다.
- 재배열(Rearrangement) : 기존 정보값은 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법이다. 개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 한다.
- 데이터 값(가치) 삭제(Data Reduction) : 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요없는 값 또는 개인식별에 중요한 값을 삭제하는 방법이다.
- 식별자 삭제 : 원본 데이터에서 식별자를 단순 삭제하는 방법이다.
- 식별자 부분삭제 : 식별자 전체가 아닌 해당 식별자의 일부를 삭제하는 방법이다.
- 레코드 삭제 : 다른 정보와 뚜렷하게 구별되는 레코드를 전체적으로 삭제하는 방법으로, 통계 분석에 있어서 전체 평균에 비해 오차범위를 벗어나는 자료를 제거할 때에도 사용이 가능하다.
- 식별요소 전부삭제 : 식별자 뿐 아니라 잠재적으로 식별 가능한 속성자까지 전부 삭제하여 프라이버시 침해 위협을 줄이는 방법이다. 사전에 삭제함으로써 연관성 있는 정보의 식별 및 결합을 예방할 수 있어 개인정보 유출 가능성을 최대한 줄일 수 있지만 데이터 활용에 필요한 정보까지 사전에 없어지기 때문에 데이터의 유용성이 낮아지는 문제가 발생할 수 있다.
- 범주화(Data Suppression) : 데이터 값을 범주의 값으로 변환하여 명확한 값을 감추는 방법이다.
- 감추기 : 명확한 값을 숨기기 위해 데이터의 평균 또는 범주값으로 변환하는 방식이다. 그러나 특수한 성질을 가진 단체 데이터의 평균이나 범주값은 그 집단에 속한 개인의 정보를 쉽게 추론할 수 있다.
- 랜덤 라운딩 : 수치 데이터를 임의의 수 기준으로 올리거나 내리는 방법이다.
- 범위 방법 : 수치 데이터를 임의의 수 기준의 범위로 설정하는 방법이다. 주로 해당 값의 범위나 구간으로 표현한다.
- 제어 라운딩 : 랜덤 라운딩 방법에서 어떤 특정값을 변경했을 때 행과 열의 합이 일치하지 않는 단점을 해결하기 위해 행과 열을 제어해 일치시키는 방법이다. 현재 컴퓨터 프로그램으로 구현이 어려우며 복잡한 통계표에 적용이 어려워 현장에서 잘 사용되지 않는다.
- 데이터 마스킹(Data Masking) : 공개된 정보 등과 결합하여 개인을 식별하는데 기여할 확률이 높은 주요 개인식별자가 보이지 않도록 처리한다. 남아있는 정보 그 자체 뿐 아니라 인터넷 등에 공개되어 있는 정보 등과 결합했을 경우에도 개인을 식별할 수 없어야 한다.
- 임의 잡음 추가 : 개인 식별이 가능한 정보에 임의의 숫자 등을 추가(더하기 또는 곱하기)하는 방법이다. 원 자료의 유용성을 해치지는 않지만 잡음값은 데이터값과 무관하기 때문에 유효한 데이터로 활용하기는 어렵다.
- 공백(Blank)과 대체(Impute) : 특정 항목의 일부 또는 전부 공백 또는 대체문자로 바꾸는 기법이다.[7]
평가
익명화/비식별화 수준에 대한 기술적 평가의 방법으로 K-익명성, I-다양성, T-근접성 등의 프라이버시 수준 평가 모델을 이용할 수 있다.
- K-익명성(K-anonymity) : 프라이버시 보호를 위한 기본 모델이다. 공개된 데이터에 대한 연결공격(Linkage Attack) 등 취약점을 방어하기 위해 제안된 프라이버시 보호 모델을 뜻하며 주어진 데이터 집합에서 같은 값이 적어도 K개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 한다. 즉 데이터 집합의 일부를 수정하여 모든 레코드가 자기 자신과 동일한 K-1개 이상의 레코드를 가진다.
- L-다양성(L-diversity) : K-익명성의 취약점(동질성 공격 및 배경지식에 의한 공격)을 보완한 프라이버시 보호 모델이다. 주어진 데이터 집합에서 함께 비식별되는 레코드들은 적어도 L개의 서로 다른 민감한 정보를 가져야 한다.
- T-근접성(T-closeness) : L-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완해 값의 의미를 고려하는 프라이버시 모델이다. 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 T이하의 차이를 보여야 한다.[8]
나라별 가명정보 사용 제도
4차 산업혁명 시대에서 더 안전한 개인정보 보호와 함께 폭 넓은 활용을 보장하는 변화가 요구되고 있다.
- 한국의 개인정보보호법은 사업자가 일정 요건에서만 개인정보를 수집하고 이용할 수 있고 그 외에는 수집과 이용을 금지하고 있다. 이는 사업자를 포함한 개인정보처리자에게 보호원칙 의무를, 정보주체에게 개인정보 보호의 권리를, 국가에 대한 체무를 부과하고 있다. 다만 법에 가명정보나 가명화 개념이 명시되어 있지 않아 이와 같은 정보는 개인정보의 틀 안에서 처리되어야 한다.
- 2018년 상반기에 개최된 4차산업혁명위원회 규제·제도 혁신 해커톤에서 정부 관계자, 이혜관계자 및 전문가들이 참여한 토론에서 개인정보 관련 법접 개념체계를 개인정보, 가명정보, 익명정보로 나누자는 의견을 제시했다. 이어 가명정보를 기술·관리적 안전조치 하에 공익, 산업범주를 포함한 학술연구, 상업범주를 포함한 통계 목적으로 이용하거나 제3자에게 제공할 수 있게 하자고 합의했다. 또한 익명정보는 개인정보보호법 적용 대상에서 제외하는 대신 익명정보가 어떤 것을 말하는지 분명하게 드러나도록 하는 장치를 법에 마련하기로 했다.[9] 다만 이러한 데이터 결합이 사회적 후생을 늘릴 역할을 할 수 있지만 그 과정에서 개인정보 침해 위험성이 있음을 간과해서는 안된다는 인식을 놓지 않고 있다.
- 2018년 11월 22일 정부와 여당이 가명 정보 개념을 도입해 개인 정보 활용 범위를 확대하기로 하였다. 특정 개인을 알아볼 수 없도록 가명 처리한 개인 정보를 통계 작성과 공익적 연구에 활용 및 빅데이터 분석을 통해 상업적으로 활용할 수 있게끔 방안을 제시하였다. 이날 당정은 가명정보 개념 도입으로 개인 정보 이용 범위를 확대하는 내용의 개인정보보호법 개정안을 비롯하여 데이터 규제 완화와 관련된 정보통신망법·신용정보보호법 개정안을 모두 국회에서 신속히 처리하겠다 발표했다. 금융권과 공공기관에 흩어진 개인 금융 정보를 통합하여 활용하는 '마이데이터(MyData)'산업도 도입될 예정이다.[10]
- 미국은 FTC 보고서(Protection Consumer Privacy in an Era of Rapid Change, 2012)에서 합리적인 방법으로 비식별 조치(De-Identification)된 정보를 재식별하지 않겠다고 공개적으로 약속하였다. 따라서 제3자에게 비식별 정보를 제공할 경우 재식별 행위를 계약으로 금지하도록 명시하고 있다. 또한 국립표준기술연구소(NIST, National Institute of Standards and Technology)에서 정부기관 소유 데이터 오픈을 위한 비식별조치 절차와 방법, 비식별조치 기술과 관리를 위한 거버넌스의 중요성을 강조한다. 빅데이터 이용 및 분석 과정에 개인정보처리를 제한하는 일반법이 없어 개인정보를 폭넓게 활용이 가능하며 보호가 필요한 분야에 따라 개별법으로 규율하고 있다.
- 유럽연합(EU)은 일반개인정보보호법(GDPR)과 회원국 위임입법으로 개인정보 보호와 활용을 법제화하였다. GDPR에 '가명화(Pseudonymisation)' 개념을 정의해 공적 기록이나 과학·역사 연구, 통계 목적으로 개인정보를 가명시할 때에만 그것을 자유롭게 사용할 수 있게 하였다. 익명정보라고 100% 식별되지 않는다는 보장은 없지만 활용보다는 관리 측면에 중점을 둬 합리적인 기술, 시간, 비용, 노력으로는 식별되지 않는다고 판단해 개인정보로 보지 않는다.
- 영국의 정보보호 커미셔너(ICO)는 EU 지침 서문에 근거하여 12년에 EU 최초로 익명화 규약을 출간하였고, 이에 요구되는 익명화의 정도가 0 수준은 아니지만 식별 위험성이 매우 낮은 수준이여야 한다고 명시하였다. 여기서 식별 위험성의 판단 기준으로 '합리적 가능성(Reasonable Likely Test)'을 채택하였다.
- 일본은 개인정보보호법을 일반법으로 두고 있다. 기업 보호의무 규정 및 제한 없이 활용이 가능한 '익명가공정보' 개념을 취급하는 사업자에 별도 의무 부과 규정을 담고 있으며 최근 개정을 통해 공공 데이터를 민간기업에 제공할 수 있는 '비식별가공정보' 개념도 추가하였다. 우리나라 비식별조치 가이드라인과 유사하나 임시식별자의 정보가 복원되지 않는 범위 내에서만 활용이 가능하도록 제한하였다. 관계 전문가와 함께 비식별 가이드라인을 마련하고 있으며 이에 관해 전문가들은 완전한 익명화는 불가능함을 인정하고 익명화의 수준을 단계별로 구분하고 제시하는 방안을 논의하고 있다. 특히 익명화 수준을 가장 높도록 조치하기 위한 방법으로 K-익명성 모델을 활용하는 방안을 검토하고 있다.[11][12][7]
문제점과 대안
가명정보 활용과 결합에 대한 의문으로 다음과 같은 세가지가 제기되었다.
- 각 기관의 정보를 모아 결합해도 개인을 특정할 수는 없지만 가명정보를 결합한 후 추가 정보를 덧붙이는 이른바 '애드 워크(Add Work)'를 한다면 개인을 특정짓는 일이 가능해질 수도 있다. 그러나 데이터 결합 자체도 국가가 지정한 전문기관에서 이뤄질 뿐더러 각 기업에게는 데이터 결과값만 전달하기 때문에 개인을 식별할 수 없다. 현재 정부 부처 논의가 진행중에 있지만 데이터 결합은 보안이 뛰어난 지정 전문기관에서만 이뤄질 수 있도록 할 방침이다. 또 아웃라이어라고 불리는 극단의 값을 제외하기 때문에 개인을 특정짓기는 어렵다는 결론이 나온다.
- 개인의 동의없이 가명정보가 활용될 경우 이를 거부할 수 있는가에 대한 물음에 행정안전부의 정윤기 전자정보국장은 "안전하게 조치된 가명정보는 동의없이도 활용할 수 있다."고 말했다. 확정되지는 않았으나 가명정보를 이용 및 제공할 수 있는 범위를 상업적 목적을 포함한 통계작성이나 산업적 연구, 공익적 기록 보존 등으로 규정지을 예정이다. 다만 가명정보는 개인정보라고 볼 수 없기 때문에 이에 대한 소유권이 불분명한 상태이다.
- 가명정보로 유의미한 데이터 결과를 도출할 수 있냐에 대한 의문도 제시되었다. 머신러닝 업체의 한 관계자는 데이터의 질과 양이 데이터의 정교성을 결정짓긴 하지만 비식별화되었나 식별화되었나는 중요하지 않다고 대답했다.
이러한 문제점을 해결하기 위해 일부에서는 데이터를 암호화하고 그 암호키 자체를 보안해 제4차 보안기술로 주목받는 '동형암호'의 접목을 고민해봐야한다고 주장했다. 동형암호는 클라우드 상에서 암호화된 상태로 데이터 분석 서비스를 이용할 수 있고 사용자는 데이터 노출에 대한 염려 없이 클라우드 분석 서비스를 이용할 수 있다. 또한 데이터 결합 시 국가공인기관에서만 암호화되어 나온 데이터에 대한 복호화 값을 갖고 있는 방안도 고려할 수 있다. 다만 동형암호는 데이버 분석 속도가 느리다는 단점이 있어, 급하지 않은 데이터 분석에서의 사용은 나쁘지 않다고 일부에서 평가되고 있다.[13]
동향 및 전망
기술 발전에 따라 활용이 가능한 데이터가 급증하고 데이터 분석 수준의 향상으로 기존에는 식별 불가능했던 정보가 재식별될 여지가 커지면서 '식별 가능한 개인정보'의 경계가 불분명해지고 있다. 또한 이런 상황에서 정보주체의 개인정보자기결정권 보호를 위한 기존 개인정보 활용 동의 방식의 타당성도 흔들릴 수 있다. 이러한 개인 식별 가능성의 문제는 산업혁신과 개인정보보호의 균형을 위한 합리적 기준을 마련하고 뒷받침할 제도적 장치를 마련하는 과정에서 이같은 두 가지 쟁점에 직면한다.
따라서 해외와는 차별화되는 국내의 데이터 환경을 고려하는 것과 개인정보 비식별화 기술이 완벽하지 않고 어떤 경우든 재식별화가 불가능하지 않은 상황에서 최대한의 법제적 조치를 강구하기 위해 비식별화를 통해 복원 불가능한 개인정보의 기준을 설정하는 것이 중요하다. 일본의 '익명가공정보'개념을 참고할 수 있으나 이에 상응할만한 데이터 처리가 기존의 비식별화 조치만으로도 이루어질 수 있는지에 대한 전문적인 논의와 합의가 필요해보인다. 또 비식별화를 근거로 정보주체의 동의 없이 개인정보 포함의 공개된 정보와 이용내역 정보를 처리 및 활용할 수 있도록 하는 방안에 대해서는 비식별화 법제화 과정에서 익명가공정보가 중요한 조건이 될 것으로 예상된다.
비식별화기술과 관련하여 개인정보의 보호와 산업적 활용을 조화시키는 방안으로 개인정보의 정의에 관한 법개정을 적극 검토해야 하며, 여러 법과 제도에 흩어져있는 개인정보 관련 규정을 모아 법체계를 단일화하고 비식별 정보의 유통에 대한 당국의 관리체계가 필요한다. 법체계 정비와 함께 개인정보보호위원회를 개인정보의 컨트롤타워로 강화해야하며 다양한 비식별 기법 개발 및 도입이 필요할 것이라 전망된다.[14]
각주
- ↑ 〈가명〉, 《위키백과》
- ↑ 노동균 기자, 〈빅데이터 시대, '가명정보'는 뭐고 '익명정보'는 뭐지?〉, 《티스토리》, 2018-03-21
- ↑ 이상우 기자, 〈빅데이터 산업의 연료, 가명정보와 익명정보란?〉, 《아이티동아》, 2018-10-08
- ↑ 〈사토시 나카모토〉, 《해시넷》
- ↑ 〈비트코인〉, 《위키백과》
- ↑ 김인환 기자, 〈선행적 이해·교육 바탕돼야 '블록체인' 순기능↑〉, 《산업일보》, 2017-07-27
- ↑ 7.0 7.1 행정안전부 개인정보 비식별 조치 가이드라인 PDF - https://www.mois.go.kr/cmm/fms/FileDown.do?atchFileId=FILE_000000000065379&fileSn=1
- ↑ 개인정보보호, 〈개인정보 비식별 조치의 개념과 국내·외 법제 동향〉, 《네이버 블로그》, 2018-08-01
- ↑ 김재섭 기자, 〈'가명정보'가 뭐야? '익명정보'는 또 뭐고?〉, 《한겨레》, 2018-02-14
- ↑ 김봉기·양모듬 기자, 〈가명정보로 빅데이터, 상업적 활용 길 텄다〉, 《조선일보》, 2018-11-22
- ↑ 임민철 기자, 〈"비식별 가명정보 쓰게해야 데이터 활성화"〉, 《제트디넷 코리아》, 2018-07-23
- ↑ 김경애 기자, 〈외국, 개인정보 비식별조치 어떻게 규정하고 있나〉, 《보안뉴스》, 2018-03-29
- ↑ 손예술 기자, 〈가명정보 활용과 결합에 관한 3가지 궁금증〉, 《제트디넷 코리아》, 2018-09-06
- ↑ 김동한 소장, 〈개인정보 비식별화 기술 동향 및 전망 PDF〉, 2017-08-16
참고자료
- 〈사토시 나카모토〉, 《해시넷》
- 박병종 기자, 〈프로그래밍 가능한 가상화폐 이시리움, 주식발행·전자투표에도 활용〉, 《한국경제》, 2014년 12월 15일
- 〈이더리움〉, 《해시넷》
- 노동균 기자, 〈빅데이터 시대, '가명정보'는 뭐고 '익명정보'는 뭐지?〉, 《티스토리》, 2018-03-21
- 이상우 기자, 〈빅데이터 산업의 연료, 가명정보와 익명정보란?〉, 《IT 동아》, 2018-10-08
- 임민철 기자, 〈"비식별 가명정보 쓰게해야 데이터 활성화"〉, 《제트디넷 코리아》, 2018-07-23
- 김봉기·양모듬 기자, 〈가명정보로 빅데이터, 상업적 활용 길 텄다〉, 《조선일보》, 2018-11-22
- 김재섭 기자, 〈'가명정보'가 뭐야? '익명정보'는 또 뭐고?〉, 《한겨레》, 2018-02-14
- 개인정보보호, 〈개인정보 비식별 조치의 개념과 국내·외 법제 동향〉, 《네이버 블로그》, 2018-08-01
- 김경애 기자, 〈외국, 개인정보 비식별조치 어떻게 규정하고 있나〉, 《보안뉴스》, 2018-03-29
- 손예술 기자, 〈가명정보 활용과 결합에 관한 3가지 궁금증〉, 《제트디넷 코리아》, 2018-09-06
- 김인환 기자, 〈선행적 이해·교육 바탕돼야 '블록체인' 순기능↑〉, 《산업일보》, 2017-07-27
- 행정안전부, 〈행정안전부 개인정보 비식별 조치 가이드라인 PDF〉
- 김동한 소장, 〈개인정보 비식별화 기술 동향 및 전망 PDF〉, 2017-08-16
같이 보기