2014 2015 2016 2017 2018

Duomenų anonimiškumo išslaptinimas (2014)

Taškai: 9

Pacientų medicininiai įrašai neturėtų būti viešai skelbiami. Tačiau šie duomenys svarbūs atliekant mokslinius tyrimus. Ligoninė gali pateikti anonimišką informaciją apie pacientus, pavyzdžiui, kaip parodyta 1 lentelėje.

Nepriklausomai nuo to, kas nors gali gauti visų miesto gyventojų sąrašą, pavyzdžiui, iš balsuotojų sąrašo, pavaizduoto 2 lentelėje.

Naudojant šias dvi duomenų bazes galima vienareikšmiškai atpažinti tik vieną pacientą. Kurį? (Pasirink tą asmenį iš pateikto sąrašo.)

Paaiškinimas

Duomenų bazės yra viena rimčiausių informatikos sričių. Duomenų bazėse labai svarbu užtikrinti anonimiškumą. Iš vienos pusės, pateikiant duomenų bazių įrašus, reikia ištrinti dalį informacijos, kad individai nebūtų atpažįstami. Iš kitos pusės, kuo išsamesnė informacija pateikiama tyrinėtojams, tuo ji vertingesnė ir mokslininkai gali gauti patikimesnių rezultatų.

Informatikai neseniai sukūrė formalius algoritmus, kaip daryti duomenų bazių įrašų santraukas, kad jos būtų tinkamai anonimizuotos. Duomenų bazės ištrauka yra vadinama „k eilės anonimine“ (kiekvienam k >= 1), jei kiekviena lentelės eilutė atitinka ne mažiau kaip k individų. Jei k lygus 1, tai reiškia, kad duomenų bazė leidžia identifikuoti bent vieną individą. Kai k lygus 3, galime sužinoti, pavyzdžiui, kad vienas iš jų yra sergantis, tačiau negalime pasakyti, kuris iš trijų. Kuo didesnė k reikšmė, tuo duomenų bazė anonimiškenė.

Atsakymas

Atsakymas: Romain Dortai

Nagrinėjame 1 lentelę:

  • eilutės 1, 3, 4, 6, 7: šie pacientai nėra iš miesto 18250
  • eilutė Nr. 2: 1976, vyras, 18250; antrojoje lentelėje dvi galimybės, eilutės 2 ir 3
  • eilutė Nr. 5: 1984, moteris, 18250; antrojoje lentelėje dvi galimybės, eilutės 4 ir 5
  • eilutė Nr. 8: 1998, vyras, 18250; antrojoje lentelėje vienintelis sprendimas: Romain Dortai
  • eilutė Nr. 9: 1998, moteris, 18250; antrojoje lentelėje dvi galimybės, eilutės 6 ir 8