Nagytestvér

A web-scraping mélységei

Forrás: The Wall Street Journal

A screen-scraper.com által használt szoftver kódjának egy része

Május 7-én hajnali 1 órakor a PatientsLikeMe.com (betegek mint én) weboldal gyanús tevékenységet észlelt az egyik fórumban. A fórumon a felhasználók saját, gyakran súlyos érzelmi problémáikkal kapcsolatos tapasztalataikat osztják meg egymással.

Egyértelmű, hogy illegális behatolásról volt szó. Egy új felhasználó, kifinomult szoftverek segítségével adatokat gyűjtött, minden elérhető üzenetet és fórumbejegyzést lemásolva.

A weboldalnak sikerült blokkolnia és azonosítania a behatolót, a magánkézben levő médiakutató Nielsen Co. Céget. A Nielsen cég többek között nagy gyógyszergyártó ügyfelei megbízásából figyeli a fórumokat, akik a fogyasztók ?cenzúrázatlan? véleményére kíváncsiak saját termékeikről.

?Becsapva éreztem magam,? mondja a 33 éves Bilal Ahmed, aki azért használja a PatientsLikeMe weboldalt, hogy megbeszélje gondjait más depressziótól szenvedő betegekkel. A fórumokban természetesen nem a saját nevét használja, de PatientsLikeMe profilja kapcsolatban áll személyes blogjával, ahol valódi neve is megtalálható.

Az Internethasználók személyes adatainak piaca felvirágzóban van, melynek elsőszámú fegyvere a web-scraping (adat-kapirgálás). A scraping cégek szolgáltatásai közé tartozik a közösségi oldalakon, álláskereső és egyéb fórumokon található személyes adatok, bejegyzések összegyűjtése.

Az online scraping biztosítja a gyorsan növekvő adatgazdaság számára a nyersanyagot. A New Yorki Winterberry Group LLC menedzsment tanácsadócég adatai szerint a piaci szereplők 7,8 milliárd dollárt költöttek online és offline adatokra 2009-ben. Az online forrásokból származó adatokra költött összeg 2012-re el fogja érni a 840 millió dollárt a 2009-es 410 millióhoz képest.

Vannak cégek, akik személyi háttérjelentésekhez gyűjtik a felhasználók személyes adatait, beleértve email címeket, telefonszámokat, fényképeket és a közösségi oldalak fórumbejegyzéseit, míg mások megfigyelő szolgáltatást árulnak, melynek keretében azt nézik, hogy az emberek mit mondanak bizonyos termékekről vagy témákról.

Az adatokért folytatott harc nagyon kemény. Még a PatientsLikeMe is elad bizonyos adatokat saját felhasználóiról, bár a cég szerint kizárólag nevek említése nélkül, anonim módon. Matt Anchin Nielsen szóvivő szerint cége kizárólag az Interneten önként megosztott adatokat használja fel, ?így ha valaki úgy dönt, hogy beazonosítható adatokat tesz közzé magáról, azok bekerülhetnek a jelentésekbe.?

Az Internet felhasználók nem sokat tehetnek a beazonosítható adatokat felhasználása ellen. Nem létezik olyan törvény, ami arra kötelezné a cégeket, hogy lehetővé tegyék a felhasználók számára, hogy töröljék vagy megváltoztassák a rájuk vonatkozó információkat, bár némelyik oldal lehetővé teszi a felhasználói profilok törlését.

Sok scraper (adat-gyűjtő) úgy gondolja, hogy a neten elérhető információk, függetlenül azok személyes, vagy intim jellegétől, szabad préda bárki számára, azok megszerzése, eladása nem helytelen.

?Azt mondhatjuk, hogy a közösségi oldalak vették át a hivatalos jegyzékek, nyilvántartások szerepét, mondja Jim Adler, az egyik vezető fizetett személyi-tudakozó weboldal, az Intelius adatvédelmi igazgatója. ?Ez az információ bárki számára elérhető,? állítja Mr. Adler. ?Ha mi nem világosítjuk fel ügyfeleinket erről, megtudják valaki mástól.?

A New yorki PeekYou (kileslek) cég egy olyan módszert szeretne szabadalmaztatni, melynek segítségével a felhasználónév alapján bárkinek ki lehet deríteni az igazi nevét. A PeekYou weboldala jelenleg 250 millió, egyelőre amerikai és kanadai állampolgárról képes információt szolgáltatni.

A scraper cégek szerint ők ugyanazt teszik, amit a legtöbb hétköznapi ember, csak nagyban. Az ügyfeleket nem igen faggatják az összegyűjtött információk felhasználásáról. ?Ha nem gyanakszunk illegális tevékenységre, és egyébként legtöbbször meg se mondják mi a céljuk az adatokkal, elvégezzük a kért munkát,? mondja Todd Wilson, a screen-scraper.com tulajdonosa.

A web-scraping igazi macska-egér háború az adatokat védeni próbáló weboldalak és az adathalászok között. A adat-scraperek egyre inkább folyamodnak a villámtámadásokhoz, amikor egyszerre több tucat hirtelen támadást intéznek egy oldal ellen, minél több adatot összegyűjtenek és gyorsan, még a támadás felfedezése vagy az oldal összeomlása előtt lelépnek.

?Az eddigi ezer-kétezerhez képest, mostanában háromszor, bizonyos cégeknél pedig tízszer ennyi támadást kell blokkolnunk ügyfeleink számára,? mondja Marino Zini, a Sentor Anti Scraping System (adat-scraping elleni védőrendszer) vezérigazgatója.

Az egyik nagy álláskereső portál a Monster.com számára az adathalászat elleni védelem 24-órás munka, amit ?a hét minden napján minden percben felügyelni kell,? mondja Patrick Manzo, adatvédelmi igazgató. A Facebook jogi és műszaki eszközökkel is harcol az adathalászat ellen.

Előző posztKövetkező poszt

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

Ez a weboldal az Akismet szolgáltatását használja a spam kiszűrésére. Tudjunk meg többet arról, hogyan dolgozzák fel a hozzászólásunk adatait..

Send this to a friend