A Panama-ügyről, tehát a legfrissebb adatszivárogtatási botrányról ír most minden híroldal (köztük persze mi is), nem véletlenül. Körülbelül egy éve kereste fel a müncheni Süddeutsche Zeitung szerkesztőségét egy magát megnevezni nem kívánó személy, aki mintegy 2.6 terabájtnyi anyagot szolgáltatott ingyen az újságnak: ebben az adattengerben mintegy 215 ezer offshore céggel kapcsolatos dokumentumokat lehetett fellelni, amelyek mind a Mossack Fonseca panamai ügyvédi iroda klientúrájába tartoznak. A kiszivárgott adatok mérete azonban annyira elképzelhetetlenül nagy, hogy érdemes tech-szempontból is megvizsgálni.
A Süddeutsche Zeitung grafikusai egy infografikán is ábrázolták a kapott anyag mennyiségét, amely egyúttal magyarázza is, hogy a Panama Papers feldolgozása miért is telt ennyi időbe: több mint 80 ország mintegy 400 újságírója dolgozott rajta: Angliából a The Guardian és a BBC, Franciaországból a Le Monde, Argentínából a La Nación, Németországból a Süddeutsche Zeitungon kívül a NDR és a WDR, Ausztriából az ORF, hazánkból pedig a Direkt36 vett részt a munkában, többek között – az adatok feldolgozásában az ICIJ, az Oknyomozó Újságírók Nemzetközi Konzorciuma is részt vett. Emlékszünk még a 2010-es Wikileaks botrányra, amely az amerikai törvényhozás visszásságait tárta fel? Nos, tessék csak megnézni azt a másfél kis négyzetet, ami az itt nyilvánosságra került 1,7 gigabájtnyi adatot jelöli, és ehhez képest nézzük meg azt a monumentális adathegységet, egészen pontosan 2,6 terabájtnyit, amiről most van szó.
A Panama Papers-botrány anyagát egy 11,5 millió dokumentumból álló halmaz képezi: ezekben főként e-mailek, PDF-ben tárolt dokumentumok, fotók és egy belsős Mossack Fonseca adatbázis kivonatai találhatóak, és az 1970-es évektől 2016 tavaszáig tartó időszak történéseit foglalják össze. Ami az adatok rendszerezettségét illeti: minden egyes shell cég adatai külön mappában kaptak helyet, amelyekben e-mailek, szerződések, beszélgetések átiratai, szkennelt dokumentumok voltak, akár több ezer oldal hosszan is. (A 11,5 milliónyi dokumentumban 4,8 milliónyi e-mail, több mint 3 milliónyi adatbázis, 2,1 milliónyi PDF, csaknem 1,2 milliónyi kép figyelt, a maradékot egyszerű szöveges dokumentumok és egyéb fájlformátumok tették ki.) Ahhoz, hogy ezeket fogyasztásképessé lehessen tenni, először is indexelni kellett az adatokat, amelyhez a Süddeutsche Zeitung a Nuix néven ismert ausztrál szoftverplatformot használta, amelynek neve főként kiberbiztonsági, oknyomozói, illetve adatvizsgálati ügyekben merül fel.
A Mossack Fonseca offshore-szolgáltatóról kiszivárgott anyagokból könnyen világméretű botrány lehet: az adatok szerint az ügyben nemcsak Vlagyimir Putyin orosz államfő és barátai köré szerveződő céggráf érintett, hanem Sigmundur David Gunnlaugson izlandi elnök, Petro Porosenko ukrán vezető, VI. Mohamed marokkói király is, de még Jackie Chan is – emellett pedig magyar szála is van az ügynek.