Zadejte hledaný výraz...

Jak detekovat co nejlepe roboty

i-PRESS
verified
rating uzivatele
(2 hodnocení)
15. 7. 2016 10:31:43
Jak píše Oleg, stoprocentně to detekovat nejde... Podílím se na vývoji SW na vyhledávání padělků, porušení OZ a dalších průmyslových práv. Robot (v NodeJS) emuluje browser včetně hlaviček (náhodně pluginy etc), běhá z mnoha workerů (různé IP) a dbá také na to, aby formuláře nevyplňoval přiliš rychle, neprováděl přechody mezi stránkami v nápadně krátkých intervalech atd...
Pokud jde o to zpožděné načtení, možná by to část mohlo odfiltrovat, ale i browser na serveru si počká, než se mu vše dotáhne a až následně spustí JS. Ajax problém není. V zásadě se bude browser na serveru chovat stejně, jako ten na desktopu. Jediné, co ty dva typy bude rozlišovat je chování na stránce, tedy třeba pohyb myši (mnoho lidí si "ukazuje" když čte atd), ale zase i já na laptopu jedu často bez myši.
Kdysi se dalo jako jedno z vodítek resolvnout ASN na stats.ripe.net a chovat se dle typu sítě (datacentra vs ISP), jenže toto už také moc nejde díky rozšířenosti VPN.
15. 7. 2016 10:31:43
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210862
Prave ... my mame taky robota co provadi plne automatizovane operace v SK, CL, AR registrech, co maji pouze jen webovy ksicht - a to v CL/AR navic vcetne plateb platebni kartou pres ruzne platebni brany ruznych bank, ktere jsou jeste vice chraneny proti tem webum samostnym ... a fungujem :D
Takze kdyz nad tim premyslim, tak defakto hledam ochranu proti sobe sama :DD
15. 7. 2016 10:35:10
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210861
TomasX
verified
rating uzivatele
(4 hodnocení)
15. 7. 2016 13:11:39
bohužel automatizované spolehlivé řešení neznám. Jak doporučoval likaspulda, logovat řadu metrik a zkusit v nich najít společné znaky pro roboty a proces opakovat klidně po měsíci.
Pokud máš k dispozici data ze více stránek, ideálně z celého datacentra, křížovou analýzou dokážeš najít zdroje s určitým paternem, které trěba jedou nonstop, bingo.
Jinak je to boj s větřnými mlýni a raději bych do cesty dal nějakou transparentní cache a odstínil API od náporu. Další řešení je třeba dotazy do API frontovat a nepustit jich více než můžeš, člověku dokážeš vysvětlit, že má chvilku počkat ve špičce, robot to rychle vzdá a uvolní slot...
Anyláza chování na stránce je složitá věc a potřebuješ na ní ideálně ještě více dat než máš
15. 7. 2016 13:11:39
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210860
Cache nepripada v uvahu, ja dostavam v ramci PPV zaplaceno za kazdou navstevu, tedy nemohu toto cachovat, logicky by z toho nebylo pak nic :)
15. 7. 2016 13:15:40
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210859
Pavol-s
verified
rating uzivatele
15. 7. 2016 18:37:26
Mozete uviest nejaky priklad bota beziaceho z prehliadaca?
15. 7. 2016 18:37:26
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210858
Napsal Pavol-s;1309609
Mozete uviest nejaky priklad bota beziaceho z prehliadaca?
napriklad malware nebo viry zneuzivajici IE
15. 7. 2016 18:43:42
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210857
Pavol-s
verified
rating uzivatele
15. 7. 2016 18:47:49
Napsal gransy;1309611
napriklad malware nebo viry zneuzivajici IE
jj, myslel som meno, realnu implementaciu. Btw, myslil si, ze boti na nete, SEO alebo vojna zrodi AI, tak ako ju pozname zo scifi.
15. 7. 2016 18:47:49
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210856
Napsal Pavol-s;1309613
jj, myslel som meno, realnu implementaciu. Btw, myslil si, ze boti na nete, SEO alebo vojna zrodi AI, tak ako ju pozname zo scifi.
Protoze napriklad skodlivy kod pro malware schovava pres X ruznych adres (za pomoci X ruznych JS redirectu) aby slo blbe vystopovat cilovou destinaci, tak jsou i tyto "boti" nauceny tyto redirecty nasledovat. Tedy mam z praxe vyzkouseno, ze tento traffic ktery ma User-Agent a vse kolem jako realny browser, dokaze nasledovat jak 301 redirect, tak Java script redirect (window.location) - proto jak pisu, nemuzu ho vyfiltrovat timto pouhym JS redirectem, ale je nutne na nej jit sotisfikovaneji.
15. 7. 2016 18:52:56
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210855
tomve
verified
rating uzivatele
(22 hodnocení)
23. 7. 2016 00:11:28
Dnes mě napadlo, že by si mohl přes js detekovat prohlížeč a spol. (něco co se nemá z etickýho hlediska dělat), pak z toho udělat seznam a porovnat s minulosti, zda provedl něco po redirectu nebo ne a za jak dlouho.
JavaScript Browser Information — Installed Plug-Ins — IE Components —…
http://www.pinlady.net/PluginDetect/All/
23. 7. 2016 00:11:28
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210854
Ja to zatim vyresil takhle:
Jak detekovat co nejlepe roboty | devel.cz
23. 7. 2016 02:24:19
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210853
Bacon
verified
rating uzivatele
(2 hodnocení)
23. 7. 2016 12:57:01
Zkusil jsem přistoupit na ten tvůj PHP skript z tvého řešení přímo a v tom JSONu mi to zhruba v 50% případů nevrací mou IP (37.188.233.x), ale nějakou cizí (185.28.193.x), na které běží jakejsi divnej web.
23. 7. 2016 12:57:01
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210852
to nicemu nevadi, to se k nicemu nepouziva - jede za proxy vic webserveru, a jeden nema mod_rpaf, proto vidis jednou svoji IP jindy zas IP te proxy :D
kdyz to zavolas ale z nejakyho webu, tak to dostane referrer a dulezity je ze to vrati tu URL pro redirect, ktera se aplikuje v JS. Coz me ted napadlo ze tam muzu dat projistotu pojistku na to kdyby se referer nevratil, at ten traffic udrzi a neposila to do diry.
Kazdopadne funkcnost je videt trebas zde http://keznews.com
23. 7. 2016 13:09:15
https://webtrh.cz/diskuse/jak-detekovat-co-nejlepe-roboty/strana/2#reply1210851
Pro odpověď se přihlašte.
Přihlásit