Zadejte hledaný výraz...

Jak detekovat co nejlepe roboty

Ahoj,
potrebuju v JS detekovat roboty ci jinym zpusobem automatizovany navstevy (nektere malware vyuzivaji browser napozadi, takze JS funguje zcela koretkne, tedy nelze pouzit standardni JS redirect na odriznuti robotu).
Co by jste doporucovali, tak aby to zas na druhou stranu neodrizlo vetsinu beznych uzivatelu (ty co maj JS vypnuty me nezajimaj)
Napadaj me i takovy veci jako detekovat mys .. atd .. ale nevim, ma to smysl ?
Jak to resite vy ? Potrebuju reseni bez interakce uzivatele - tedy ne captchy
14. 7. 2016 19:20:23
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210877
hm
verified
rating uzivatele
(20 hodnocení)
14. 7. 2016 19:34:01
recaptcha kde jen zaskrtnes policko a nakou tezsi otazku ti to da jen vyjimecne by to neresila?
14. 7. 2016 19:34:01
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210876
Napsal Aleš Jiříček;1309240
recaptcha kde jen zaskrtnes policko a nakou tezsi otazku ti to da jen vyjimecne by to neresila?
Napsal Gransy;1309238
Potrebuju reseni bez interakce uzivatele - tedy ne captchy
:))
14. 7. 2016 19:35:37
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210875
hm
verified
rating uzivatele
(20 hodnocení)
14. 7. 2016 19:37:25
chapu, ale nevedel jsem jak moc striktni pozadavek to je :) v tom pripade preju hodne stesti, roboty co bezi primo z prohlizece bude sakra tezke nejak rozeznat od beznyho uzivatele... neli nemozne
14. 7. 2016 19:37:25
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210874
Abych to objasnil ... potrebuju vyresit parkovani domen, kdy davame nabidku PPV providerovi. Ted tam mam desitky tisic pozadavku za minutu, kdyz odstranim vse co jsem schopny vydetekovat na zaklade User-Agent udaju, tak se dostanu na jednotky tisic requestu za minutu - coz porad generuje velkou zatez na API providera. Vzhledem k tomu ze se jedna ve vetsine pripade o malware traffic z nakazenych widli, je takmer nemozne blokovat IP adresy. Pokud to poresim standardni JS redirectem, odpadne v tomto pripade asi jen 10% trafficu. Bohuzel zustava tisice requestu na API, ze kterych pak je realne prodano nekolik stovek navstevniku (protoze oni to maj u sebe nejak silene reseny).
Tudiz hledam cestu jak to muzu jiz u sebe lepe osetrit, abych generoval API requesty uz na nejak hloubeji filtrovany navstevy, a ostatnim zobrazil proste jen statickou stranku.
14. 7. 2016 19:42:38
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210873
tomve
verified
rating uzivatele
(22 hodnocení)
14. 7. 2016 19:45:50
Jsem četl pár dní zpět, tak snad by šel tenhle směr - http://www.lupa.cz/clanky/seznam-cz-pri-registraci-sleduje-stisky-klaves-aby-odhalil-roboty/
14. 7. 2016 19:45:50
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210872
Napsal Tomve;1309245
Jsem četl pár dní zpět, tak snad by šel tenhle směr - http://www.lupa.cz/clanky/seznam-cz-pri-registraci-sleduje-stisky-klaves-aby-odhalil-roboty/
Jenze v tomhle pripade bych musel provest kontrolu az na zaklade nejaky operace s klavesnici ... coz neni asi uplne idealni.
Pro predstavu: navstevnik se skrze google/jiny web/preklep dostane na domenu 2.fr ... ted s tim requestem na pozadi serveru hodim pozadavek pres API na PPV providera, a bud mi posle URL kam mam cloveka poslat (a poslu ho pres 301 redirect) nebo neposle, a pak ho poslu random na ww2.2.fr, ww9.2.fr, atd. coz jsou ruzne parkovaci spolecnosti.
Nedokazu si moc predstavit, ze bych navstevnikovi zobrazil statickou stranku, ci prazdnou stranku, cekajici na nejaky keydown/keyup na zaklade kteryho by pak zprocesoval cely ten redirect ... protoze v takovym pripade muzu o nej prijit ... uvidi prazdnou stranku, tak ji zavre. Proto bych rad celou tu detekci delal bez uzivatelsky interakce
14. 7. 2016 19:50:44
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210871
lukaspulda
verified
rating uzivatele
(24 hodnocení)
14. 7. 2016 23:32:58
vše jde emulovat, ale začal bych osobně tímhle:
- trackování co tam vlastně leze (koukni podle čeho se vypočítává fingerprint browseru byvaji to fonty, jazyk, rozliseni, atd) mozna narazis na nejakou "velkou" skupinu parametru kterou kdyz bloknes tak se ti zlepší poměr realnych lidi vs botů
- detekovat document.body.addEventListener("mousemove"); neni spatny napad .. na netu najdes ukazky vypoctu rychlosti nebo vzdalenosti, tohle bych zacal logovat a nejvetsi skupiny stejnych hodnot bych blokoval. Pro uzivatele to realne muze znamenat napr jen 500ms cekani (ktere se spusti az kdyz je stranka nactena a ma focus) behem ktereho meris aktivitu
14. 7. 2016 23:32:58
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210870
Petr Soukup
verified
rating uzivatele
(5 hodnocení)
15. 7. 2016 00:24:42
Jde tedy o to detekovat to ještě předtím, než se stránka vygeneruje? Nebo jde třeba o blokování odeslání formuláře na té stránce?
15. 7. 2016 00:24:42
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210869
Petr Soukup
verified
rating uzivatele
(5 hodnocení)
15. 7. 2016 00:30:03
Mimochodem u detekování myši pozor na mobilní zařízení - tam se nic nehýbe. Spíš bych dal timeout třeba 3-5s od načtení stránky - když se formulář odešle dřív, je to podezřelé.
15. 7. 2016 00:30:03
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210868
predator129
verified
rating uzivatele
(4 hodnocení)
15. 7. 2016 00:59:24
Napsal Souki;1309306
Mimochodem u detekování myši pozor na mobilní zařízení - tam se nic nehýbe. Spíš bych dal timeout třeba 3-5s od načtení stránky - když se formulář odešle dřív, je to podezřelé.
Presne tento nápad som mal aj ja. Akurát ja by som vyskúšal za aký najmenší čas sa dá formulár vyplniť a vychádzal na základe toho času.
15. 7. 2016 00:59:24
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210867
Napsal Souki;1309305
Jde tedy o to detekovat to ještě předtím, než se stránka vygeneruje? Nebo jde třeba o blokování odeslání formuláře na té stránce?
ano, nejlepe detekovat pred tim, nez se stranka vygeneruje
---------- Příspěvek doplněn 15.07.2016 v 07:29 ----------
Napsal lukaspulda;1309297
- trackování co tam vlastně leze (koukni podle čeho se vypočítává fingerprint browseru byvaji to fonty, jazyk, rozliseni, atd) mozna narazis na nejakou "velkou" skupinu parametru kterou kdyz bloknes tak se ti zlepší poměr realnych lidi vs botů
Ten fingerprint neni blbej napad s tim ze ho muzu zacit sbirat uz ted a podle toho co vyleze tak se rozhodnout jestli ho pouzit ci ne ... samotnej user-agent totiz nestaci, ale nenapadlo me ze muzu vlastne sbirat i ty dalsi veci pres JS pro jeho vypocet
---------- Příspěvek doplněn 15.07.2016 v 07:30 ----------
Napsal Souki;1309306
Mimochodem u detekování myši pozor na mobilní zařízení - tam se nic nehýbe. Spíš bych dal timeout třeba 3-5s od načtení stránky - když se formulář odešle dřív, je to podezřelé.
je fakt, ze mi toto vnutklo myslenku nacist ten JS redirect ajaxem prave az po 3 - 5 vterinach ... to by mohlo zafungovat dobre
15. 7. 2016 08:28:33
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210866
Petr Soukup
verified
rating uzivatele
(5 hodnocení)
15. 7. 2016 08:49:45
Ideální by možná bylo to zkombinovat - když je podezřelý, dát Google Captchu.
Případně formulář hnát přes proxy a pak jdou používat klasické triky. Nám například s přehledem nejlépe funguje skryté pole na URL - většina robotů ji nadšeně vyplňuje, takže se takové formuláře zahazují. Spoustu jich hodnotu "url" posílá, aniž by na to bylo ve formuláři pole.
15. 7. 2016 08:49:45
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210865
Napsal Souki;1309334
Ideální by možná bylo to zkombinovat - když je podezřelý, dát Google Captchu.
Případně formulář hnát přes proxy a pak jdou používat klasické triky. Nám například s přehledem nejlépe funguje skryté pole na URL - většina robotů ji nadšeně vyplňuje, takže se takové formuláře zahazují. Spoustu jich hodnotu "url" posílá, aniž by na to bylo ve formuláři pole.
Jak jsem psal jiz na zacatku i v druhem mem prispevku - jedna se o detekci pri redirectu na zaparkovanych domenach - nejde tedy o formulare a uz vubec tam neni mozne vyzadovat uzivatelskou interakci - tedy vse musi projit plne automaticky. Jakykoliv uzivatelsky vstup = ztrata trafficu.
15. 7. 2016 08:58:24
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210864
Oleg
verified
rating uzivatele
(53 hodnocení)
15. 7. 2016 09:20:46
Ve skutecnosti detekce bota, ktery leze na web maskovany pod uzivatele, pres realny prohlizec je temer nemozne detekovat, chce to dlouhodobou analyzu a ciste dle statistiky pak manualni blokovani.
Pred casem jsme pouzivali tyto seznamy:
The Web Robots Pages
List of User-Agents (Spiders, Robots, Browser)
Pokud normalni uzivatel, ktery prichazi na web pres prohlizec tak se mu nacita robots.txt, pokud je to nejaky robot na zasilani dotazu, tak robots.txt vynechava, ale ty hodne dobre boty nacteni robots.txt imituji taky - tak jeste i na teto urovni to muzes zkusit vyfiltrovat.
15. 7. 2016 09:20:46
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/#reply1210863
Pro odpověď se přihlašte.
Přihlásit