Dark data: óriási választói adatbázisok illegális fórumokon

Miközben pár nap múlva, 2020. november 3-án itt a következő amerikai elnökválasztás, illegális fórumokon egyesek az amerikai választópolgárok részletes adatait tartalmazó óriási méretű adatbázisokkal üzletelnek. Ezen adatbázisok általában tartalmaznak a választó személyes adatain kívül olyan érzékeny információkat is, mint például a párthovatartozás.

A Trustwave kiberbiztonsági cég SpiderLabs elit hackercsoportja pár nappal ezelőtt futott bele egy 186 millió(!) rekordot tartalmazó, az ellenőrzéseik szerint hiteles választói adatbázisba. Ez a szám önmagában is óriási, de ha hozzávesszük, hogy 2020-ban az amerikai választókorú népesség kb. 255 millió fő (és mondjuk a várható részvétel olyan 50-60% körül mozoghat), akkor még inkább érzékelhető, hogy itt gyakorlatilag máris több, mint az összes aktivizálható választóról van szó.

Talán konkrétan azt a masszív 186 milliós adatbázist, amit a SpiderLabs talált pár napja, már nem is lehet olyan könnyen elérni, de részleteiben még most is könnyedén megtalálható az internetnek nem is a legeldugottabb zugaiban.

Szakmai körökben egyébként nem teljesen egyértelmű annak a megítélése, hogy itt egyáltalán mi is történik egészen pontosan. Adatszivárgásról vagy lopott adatbázisokról van szó? Illegális tevékenység zajlik ezekkel az adatokkal kapcsolatosan? Vagy nincs itt semmi érdekes, ezek az információk tulajdonképpen mind nyilvánosak?

Bizonyos államokban egyébként tényleg rendelkezésre állnak bárki számára ingyenesen a nagyon részletes, személyes és érzékeny adatokat is tartalmazó listák, de persze még ezek esetén is az összegyűjtés, feldolgozható formára való átalakítás, esetlegesen összekapcsolás más adatbázisokkal nyilvánvalóan aggályos lehet, felmerülhetnek jogi, illetve ún. privacy kérdések.

Például Észak-Karolinában a helyzet a következő: a North Carolnia State Board of Elections hivatalos honlapján kis kutatással (Results & Data ⟶ FTP Site / Access Public Files in S3) eljuthatunk a publikus AWS S3 buckethez:

ahol egy ilyen ncvoterXX.zip fájl CSV formátumban tartalmaz több tízezer választói adatot.

Na de lássuk, milyen adatokról is van szó pontosan. Ami ebben az egészben talán magyar szemszögből rendkívül érdekes, hogy mennyire magánjellegű, privát információk is megtalálhatók ezen nyilvánosan, bárki számára hozzáférhető adatbázisokban.

Magyarországon választásokkor a választáson szereplők megvásárolhatják az ún. választói névjegyzéket, de az egyrészt semmiképp sem nyilvános (sőt, a választást követően megsemmisítendő), másrészt pedig a néven, lakcímen és esetlegesen az életkoron kívül más adatokat nem tartalmaz.

Ehhez képest itt olyan további adatok is hozzáférhetők, nyilvánosan, bárki számára, mint például a telefonszám (full_phone_number), az etnikai hovatartozás (race_code, ethnic_code) és a pártpreferencia (party_cd; az alábbi képen a B oszlopban szereplő választó demokrata (DEM), a C oszlopban szereplő választó pedig republikánus (REP) szavazó).

A fenti, illegális fórumon terjesztett adatbázis Észak-Karolina esetében valószínűleg ezen nyilvános forrásból származik.

Kicsit keresgélve számtalan további, nem hivatalos, feldolgozott, összesített gyűjtemény található. Egyetlen további példa a fájlok listájáról képernyőkép formájában (Florida):

Ez a floridai lista egyébként része a Tom Alciere nevű amerikai politikus által (feltételezhetően jogszerűen) működtetett, több állam választói adatbázisát tartalmazó publikus gyűjteménynek.

Biztonsági szempontból egyébként nyilvánvalóan kockázatos az ilyen részletességű személyes és érzékeny adatok nyilvános hozzáférhetősége, ugyanis ezen adatok ismerete növeli az esetleges social engineering, vagyis a megtévesztésen alapuló támadások sikerességének esélyét.