Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport
Jan 18, 2016
Web Spam: manipulált tartalom a Világhálón
Pereszlényi AttilaBenczúr András, Bíró István, Fekete
Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint
MTA SZTAKIAdatbányászat és Webkeresés
Kutatócsoport
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Miről lesz szó
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web spam: gép megtévesztése
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web Spam és E-mail Spam
• Cél nem (feltétlenül) a végfelhasználóPl. Javítsuk a Google pozícióját egy „ügyfél”
oldalának
• Szűrés nem a kliensnélKeresőrendszer központilag szűrNem lehet letölteni és tesztelni a spam
szűrőt
• Spammer dolga nehezebbEredmény megjelenése lassú folyamat(Robot megtalálja, index frissül)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
• Kereső top találat forgalmat, bevételt jelent•Manipuláció, “Search Engine Optimization”•Tartalom spam
Kulcsszavak, népszerű kifejezések, elírások•Link spam
„Farmok”: sűrűn linkelt, redirect-elt site-ok• Bevétel gyakran indirekt
•„Affiliate” programok, Google AdSense•Reklámok megjelenítése, forgalom
továbbterelése
A spammer célpontja a Google
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
A Web Spammer célja
• Kereső felhasználási tapasztalat:
• Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Keresési találati pozíció hatása
Talá
lati
pozí
ció n
ézé
sével tö
ltött
id
ő
Talá
lath
oz
érk
ezé
s id
eje
„spam industry had a revenue potential of $4.5 billion in year 2004 if they
had been able to completely fool all search
engines on all commercially viable
queries”[Amitay 2004]
[Granka,Joachims,Gay 2004]
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
A Web Spammer célja
• Kereső felhasználási tapasztalat:
• Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg
• Jó rangsor – Search Engine Optimization célpontja
• Mitől függ a rangsor?
• Szóelőfordulás, HTML elemekkel (cím, fejléc, méret, stb.) súlyozva
• Hivatkozó (anchor) szöveg, domén, URL szavai – legjobb!
• URL hossza, könyvtárszint mélysége
• Rámutató hivatkozások száma, PageRank
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web spam
• Spam szűrés nélkül egy keresőrendszer ma csak spamet találna
Web Spam Taxonómia 1.
Tartalom spam
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Kulcsszó értéke
Google AdWords Competition
10k10th wedding anniversary128mb, 1950s, …abc, abercrombie, …b2b, baby, bad credit, …digital cameraearn big money, easy, …f1, family, flower, fantasygameboy, gates, girl, …hair, harry potter, …ibiza, import car, …james bond, janet jacksonkarate, konica, kostenloseladies, lesbian, lingerie, ……
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Tartalom modellezés példa
Nemsp téma 4
Nemsp téma 10
club (0.035) music (0.022)
team (0.012) band (0.012)
league (0.009)
film (0.011)
win (0.009) festival (0.009)
Spam téma 7
loan (0.080)
unsecured (0.026)
credit (0.024)
home (0.022)
Példa 20 spam és 50 nemspam generatív téma modellből [Bíró, Szabó, Benczúr 2008]
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Spammelt rangsor-elemek
• Domén név adjustableloanmortgagemastersonline.compay.dahannusaprima.co.ukbuy-canon-rebel-20d-lens-case.camerasx.com
• Anchor szöveg (title, H1, stb)<a href=“target.html”>free, great deals, cheap, inexpensive, cheap, free</a>
• Meta keywords – nem érdemes<meta name="keywords" content="UK Swingers, UK,
swingers, swinging, genuine, adult contacts, connect4fun, sex, … >
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Parkoló domén
<div style="position:absolute; top:20px; width:600px; height:90px; overflow:hidden;"><font size=-1>atangledweb.co.uk currently offline<br>atangledweb.co.uk back soon<br></font><br><br><a href="http://www.atangledweb.co.uk"><font size=-1>atangledweb.co.uk</font></a><br><br><br>Soundbridge HomeMusic WiFi Media Play<a class=l href="http://www.atangledweb.co.uk/index01.html">-</a>>... SanDisk Sansa e250 - 2GB MP3 Player -<a class=l href="http://www.atangledweb.co.uk/index02.html">-</a>>... AIGO F820+ 1GB Beach inspired MP3 Pla<a class=l href="http://www.atangledweb.co.uk/index03.html">-</a>>... Targus I-Pod Mini Sound Enhancer<a class=l href="http://www.atangledweb.co.uk/index04.html">-</a>>... Sony NWA806FP.CE7 4GB video WALKMAN <a class=l href="http://www.atangledweb.co.uk/index05.html">-</a>>... Ministry of Sound 512MB MP3 player<a class=l href="http://www.mp3roze.co.uk/cat7000.html">-</a>>... Nokia 6125 - Fold Design - 1.3 Megapi<a class=l href="http://www.mp3roze.co.uk/cat7001.html">-</a>>... Samsung E350 - Camera Phone With Flas<a class=l
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Kulcsszó zsúfolás, másolatok
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Google hirdetések
Web Spam Taxonómia 2.
Hivatkozás spam
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
“hyperlink structure contains an enormous amount of latent human annotation that can be extremely valuable for automatically inferring notions of authority.” (Chakrabarti et. al. ’99)•Becsületes, emberi ajánlást
tartalmazó hivatkozás
•Nem ajánló értékű, pl. „affiliate program”, vagy fórum, lista navigáció …
•Szándékos, manipulatív link spam
Hivatkozások: A Jó, a Rossz és a Csúf
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Link farmok
W W W
Becsületes Web kilépési pont: • Mézesmadzag: pl keresett tartalom másolata• Parkoló domén régi hivatkozása• Blog, vendégkönyv spam
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Link farmok
Sok domén,sőt, sok IP
411fashion.com
411 sites A-Z list
Mézesmadzag: keresett tartalom
411amusement.com
411 sites A-Z list
411zoos.com
411 sites A-Z list
target
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
ρ=0.97 ρ=0.61
Becsületes:fhh.hamburg.de
Spam: radiopr.bildflirt.de(www.popdata.de farm része)
PageRank támogatók eloszlása
alacsony magas
PageRank
alacsony magas
PageRank
[Benczúr,Csalogány,Sarlós,Uher 2005]
Web Spam Taxonómia 3.
Rejtőzködés
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Formázás
• Egy-pixeles kép
• Fehér alaponfehér
• Stylesheet határozza meg a színt, elhelyezést
• …Elv: robot HTML feldolgozó kódja
egyszerűsített
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
JavaScript alkalmazása
<SCRIPT language=javascript> var1=100;var3=200;var2=var1 + var3; var4=var1;var5=var4 + var3; if(var2==var5) document.location="http://umlander.info/ mega/free software downloads.html";
</SCRIPT>
• window.location elemen keresztüli átirányítás
• eval: véletlenszerűnek tűnő statikus adatokból való spam tartalom (szöveg, link)
• document.write
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
HTTP szintű rejtőzködés
• User agent, kliens host szerint
• Más tartalom a felhasználónak, más a GoogleBot-nak
Web Spam Taxonómia 4.
Közösségi tartalom spam
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Új célpont: vendégkönyvek, blogok
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
„Fórumnak látszó tárgy”
Spam vadászat
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Jellemzők
• Szóelőfordulások (szózsák modell)• TrustRank: becsületes oldalakból induló
PageRank• Ki- és be-linkek száma, kölcsönösség• Szavak száma, hossza, HTML elemek (title,
anchor) közötti eloszlása• Sikeresség népszerű kulcsszavakra
spamszűrés nélküli teszt keresőrendszerben
• Google hirdetések száma• Site felépítése, mélysége, belső
hivatkozás-szerkezete, dok formátumok, …
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Gráf-simítás: „know your neighbor”
• Becsületes oldal ritkán mutat spamre• Spamre sok más spam hivatkozik
1. Spamség jóslat p(v) minden oldalra
2. Céloldal u, szomszéd p(v) aggregálásával új jellemző: f(u)
3. Újraklasszifikáció az új jellemzővel
?u
v1
v2
v7
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
A Web Spam Challenge
• UK-WEBSPAM2006 (Yahoo Research, 2007-ben)• 9000 Web site, 500,000 hivatkozás• 767 spam, 7472 becsületes
• UK-WEBSPAM2007 (verseny most)• 114,000 Web site, 3 Md hivatkozás• 222 spam, 3776 becsületes• Teljes letöltés 3 TByte
• UK-WEBSPAM2008? Mi szervezzük?• Internet Archívummal együttműködve, időben
folyamatos letöltés•Cél: spam időbeliségének, mozgásának
vizsgálata
Magunkról
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Benczúr AndrásKutatás-Fejlesztés
Lukács AndrásKutatás, Ipari kapcsolatok
Rónyai LajosInformatika Labor
vezető
Adatbányászat és Keresés Kutatócsoport
3 posztdoktor
8 doktorandusz
5 fejlesztő
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
• Egyedi technológiák extrém adatméretekre
• (web)keresés, szövegfeldolgozás
Európai Internet Archívum Web Spam szűrés
• viselkedésmodellezés, eseményfelderítés
biztosítási csalás felderítő eszköz
együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére
nagyméretű webszerver naplók hosszú időtartamú elemzése
• lemorzsolódás, árrugalmasság vizsgálatok
hazai biztosítók, telefontársaságok
• ajánló rendszerek
KDD Cup első helyezés
Adatbányászat és Keresés Kutatócsoport
0.1
1
10
100
1000
10000
100000
1000000
1 10 100 1000adott felhasználó által letöltött oldalak sz. (x)
x a
ktiv
itás
ú fe
lhas
znál
ók s
zám
a