고려대학교 정보보호대학원/정보보호&보안

반응형

 

 

최근 들어 AI와 머신러닝, 블록체인 기술 등의 발전으로 데이터를 생성하고, 공유하고, 활용하여 새로운 가치를 창출하는 것이 일부 분야가 아닌 거의 모든 산업 전반에 걸쳐 일어나고, 그 중요성이 강조되고 있습니다. 그에 따라 데이터의 개인정보보호에 대한 인식도 점차 중요해지고 있습니다. 

 

여러 아티클에 걸쳐 프라이버시 보호를 위한 제 개인적인 연구 내용을 공유하고자 합니다. 이번 아티클은 그 첫번째 단계로 가장 기본이 되는 프라이버시 보호와 비식별화에 대해 정리해봅니다.

 



프라이버시 보호(Privacy Protection)

공격자가 어떠한 배경지식을 갖고 있어도 배포된 데이터에 존재하는 특정한 개인에 대해 공격자가 가지고 있던 배경지식 이상의 정보를 얻어서는 안된다. (Dalenius, 1977)

 

1977년 Dalenius와 Tore는 Towards a methodology for statistical disclosure control을 통해 프라이버시 보호의 개념을 정의했습니다.

 

비식별화(Anonymization)

개인을 식별할 수 없도록 데이터 내에서 개인 식별 정보(Personal Identifiable Information, PII)를 제거하는 프로세스

 

비식별 조치 5가지 처리기법과 17개 세부기술 (출처 : 행정안전부)

 

  • 가명처리(Pseudonymization)
    • 개인 식별 정보를 임의의 값 혹은 코드로 대체하여 개인을 직접 식별하지 못하도록 하는 기술
    • 비교적 간단하고 효과적이나 가명화된 데이터는 배경지식과 결합되면 개인 정보가 식별될 가능성이 있음

개인정보, 가명정보, 익명정보 한 눈에 보기 (출처 : 개인정보보호위원회, '가명정보 처리 가이드라인')

 

  • 총계처리(Aggregation)
    • 개인 식별 정보를 그룹화해 통계적 집계 값으로 표현하는 기술
    • 개인정보보호의 수준은 높으나 데이터를 통계적 유용성이 감소될 수 있음
  • 데이터 삭제(Data Reduction)
    • 개인을 식별하거나 추적하는데 사용할 수 있는 개인 식별 정보를 데이터에서 완전히 제거하는 기술
    • 개인정보보호 수준이 가장 높으나 데이터의 유용성이 크게 감소되며, 완전히 제거되기 때문에 복구가 어려움
  • 데이터 범주화(Data Suppression)
    • 개인 식별 정보의 값을 범주로 분류해 개인을 식별할 수 없도록 만드는 기술
    • 데이터의 유용성을 일정 수준 유지하면서도 개인정보보호의 수준을 높일 수 있으나 범주 설정에 따라 세부 정보가 손실될 수 있음
  • 데이터 마스킹(Data Masking)
    • 개인 식별 정보를 임의의 값으로 바꾸거나 암호화하여 개인을 식별할 수 없도록 만드는 기술
    • 비교적 간단하게 개인정보보호의 효과를 가져올 수 있으며 데이터 유용성을 유지할 수 있음

 

프라이버시 보호 모델(Privacy Protection Model)

Dalenius의 프라이버시 보호 명제를 만족하기 위한 프라이버시 유출 공격에 대한 보호를 보장하기 위한 일련의 원칙

 

비식별화 기법(Anonymization Techniques)

민감한 개인정보가 포함된 데이터 집합(데이터셋)을 공개할 때, 특정 개인의 정보를 식별할 수 없게 하는 일종의 데이터 공개 메커니즘

 

비식별화 기법의 분류 (출처 : Dilpreet et al, Comparative Analysis of Anonymization Techniques)

 

 

1) K-익명성(K-Anonymity)

     공개된 데이터에 대한 연결 공격(Linkage Attack) 등의 취약점을 방어하기 위해 제안된 프라이버시 보호 모델 

       ※ 연결 공격(Linkage Attack) : 서로 다른 데이터간의 결합으로 개인 식별 정보를 추론할 수 있는 공격 방법

    - 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 구성해 쉽게 다른 정보로 결합할 수 없도록 함

    - 비식별된 데이터 집합에서는 공격자가 정확히 어떤 레코드가 공격 대상인지 알아낼 수 없음

    - 같은 속성자 값들로 비식별된 레코드들의 모임을 '동일 속성자 값 집합'이라고 함

 

2) L-다양성(L-Diversity)

      K-익명성에 대한 동질성 공격, 배경지식에 의한 공격을 방어하기 위해 제안된 프라이버시 보호 모델

       ※ 동질성 공격(Homogeneity Attack) : K-익명성에 의해 레코드들이 범주화되었더라도 일부 정보들이 모두 같은 값을 가질 수 있기 때문에 데이터 집합에서 동일한 정보를 이용하여 공격 대상의 정보를 알아내는 공격

       ※ 배경지식에 의한 공격(Background knowledge Attack) : 주어진 데이터 이외의 공격자의 배경 지식을 통해 공격 대상의 민감한 정보를 알아내는 공격

    -  주어진 데이터 집합에서 함께 비식별되는 데이터들은 (동질 집합에서) 적어도 L개의 서로 다른 민감한 정보를 갖도록 구성

 

3) T-근접성(T-Closeness)

      L-다양성의 쏠림 공격, 유사성 공격에 대한 취약점을 보완하기 위해 제안된 프라이버시 보호 모델

       ※ 쏠림 공격(Skewness Attack) : 정보가 특정한 값에 쏠려 있을 경우, L-다양성 모델이 프라이버시를 보호하지 못함

       ※ 유사성 공격(Similarity Attack) : 비식별 조치된 레코드의 정보가 서로 비슷하다면 L-다양성 모델을 통해 비식별된다 할지라도 프라이버시가 노출될 수 있음

    -   동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 T 이하의 차이를 보이도록 구성

 

비식별화 기법의 한계점

공격자가 가지고 있는 배경지식의 종류나 형태에 따라 위험도가 달라짐

- 어떠한 형태의 비식별화 기법을 사용한다고 해도 특정 개인의 민감정보를 추출할 수 있는 배경지식이 항상 존재함 (Dwork가 이론적으로 증명)

 

비식별화 기업의 한계점을 극복하기 위해 Differential Privacy 제안

반응형

+ Recent posts