Zadejte hledaný výraz...

Detekce ROBOTU v PHP – počet zobrazení reklamy

Vít Michalek
verified
rating uzivatele
(14 hodnocení)
28. 2. 2012 13:51:35
Zdravím, nevíte jak detekovat roboty v PHP?
Mám nějaký seznam základních robotů:
$bots = array(
'ia_archiver','Scooter/','Ask Jeeves','Baiduspider+(','Exabot/','FAST Enterprise Crawler','FAST-WebCrawler/','http://www.neomo.de/','Gigabot/','Mediapartners-Google','Google Desktop','Feedfetcher-Google','Googlebot', 'heise-IT-Markt-Crawler','heritrix/1.','ibm.com/cs/crawler','ICCrawler - ICjobs','ichiro/2','MJ12bot/','MetagerBot/','msnbot-NewsBlogs/', 'msnbot/','msnbot-media/','NG-Search/','http://lucene.apache.org/nutch/','NutchCVS/','OmniExplorer_Bot/','online link validator','psbot/0', 'Seekbot/','Sensis Web Crawler','SEO search Crawler/','Seoma ','SEOsearch/','Snappy/1.1 ( http://www.urltrends.com/ )','http://www.tkl.iis.u-tokyo.ac.jp/~crawler/','SynooBot/','crawleradmin.t-info@telekom.de','TurnitinBot/','voyager/1.0','W3 SiteSearch Crawler','W3C-checklink/','W3C_*Validator','http://www.WISEnutbot.com','yacybot','Yahoo-MMCrawler/','Yahoo! DE Slurp','Yahoo! Slurp','YahooSeeker/','FindWeb','urldispatcher','URLGetFile','urllib','URLSpiderPro','URLy','User-Agent','UserAgent','USyd','Vacuum','vagabo','Valet','Valid','Vamp','vayala','VB_','VCI','VERI~LI','verif','versus','via','Viewer','virtual','visibilitygap','Visual','vobsub','Void','VoilaBot','voyager','vspider','VSyn','w:PACBHO60','w0000t','W3C','w3m','w3search','walhello','Walker','Wand','WAOL','WAPT','Watch','Wavefire','wbdbot','Weather','web.by.mail','Web.Data.Extractor','Web.Downloader','Web.Ima','Web.Mole','Web.Sucker','Web2Mal','Web2WAP','WebaltBot','WebAuto','WebBandit','Webbot','WebCapture','WebCat','webcraft@bea','Webclip','webcollage','WebCollector','WebCopier','WebCopy','WebCor','webcrawl','WebDat','WebDav','webdevil','webdownloader','Webdup','WebEMail','WebEMailExtrac','WebEnhancer','WebFetch','WebGo','WebHook','Webinator','WebInd','webitpr','WebFilter','WebFountain','WebLea','Webmaster','WebmasterWorldForumBot','WebMin','WebMirror','webmole','webpic','WebPin','WebPix','WebReaper','WebRipper','WebRobot','WebSauger','WebSite','Website.eXtractor','Website.Quester','WebSnake','webspider','Webster','WebStripper','websucker','WebTre','WebVac','webwalk','WebWasher','WebWeasel','WebWhacker','WebZIP','Wells','WEP_S','WEP.Search.00','WeRelateBot','wget','Whack','Whacker','whiz','WhosTalking','Widow','Win67','window.location','Windows.95;','Windows.95)','Windows.98;','Windows.98)','Winodws','Wildsoft.Surfer','WinHT','winhttp','WinHttpRequest','WinHTTrack','Winnie.Poh','wire','WISEbot','wisenutbot','wish','Wizz','WordP','Works','world','WUMPUS','Wweb','WWWC','WWWOFFLE','WWW-Collector','WWW.Mechanize','www.ranks.nl','wwwster','^x$','X12R1','x-Tractor','Xaldon','Xenu','XGET','xirq','Y!OASIS','Y!Tunnel','yacy','YaDirectBot','Yahoo-MMAudVid','YahooSeeker','YahooYSMcm','Yamm','Yand','yang','Yeti','Yoono','yori','Yotta','YTunnel','Zade','zagre','ZBot','Zeal','ZeBot','zerx','Zeus','ZIPCode','Zixy','zmao','Zyborg',''','%','_iRc','_Works','@$x','<?','$x0e','+select+','+union+','1,1,1,','2icommerce','3GSE','4all','59.64.153.','A_Browser','ABAC','Abont','abot','Accept','Access','Accoo','AceFTP','Acme','ActiveTouristBot','Address','Adopt','adress','adressendeutschland','ADSARobot','agent','ah-ha','Ahead','AESOP_com_SpiderMan','aipbot','Alarm','Albert','Alek','Alexibot','Alligator','AllSubmitter','alma','almaden','ALot','Alpha','aktuelles','Akregat','Amfi','amzn_assoc','Anal','Anarchie','andit','Anon','AnotherBot','Ansearch','AnswerBus','antivirx','Apexoo','appie','Aqua_Products','Arachmo','archive','arian','ASPSe','ASSORT','aster','Atari','ATHENS','AtHome','Atlocal','Atomic_Email_Hunter','Atomz','Atrop','^attach','attrib','autoemailspider','autohttp','axod','batch','b2w','Back','BackDoorBot','BackStreet','BackWeb','Badass','Baid','Bali','Bandit','Baidu','Barry','BasicHTTP','BatchFTP','bdfetch','beat','Become','Beij','BenchMark','berts','bew','big.brother','Bigfoot','Bilgi','Bison','Bitacle","Biz360','Black','Black.Hole','BlackWidow','bladder.fusion','Blaiz','Blog.Checker','Blogl','BlogPeople','Blogshares.Spiders','Bloodhound','Blow','bmclient','Board','BOI','boitho','Bond','Bookmark.search.tool','boris','Bost','Boston.Project','BotRightHere','Bot.mailto:craftbot@yahoo.com','BotALot','botpaidtoclick','botw','brandwatch','BravoBrian','Brok','Bropwers','Broth','browseabit','BrowseX','Browsezilla','Bruin','bsalsa','Buddy','Build','Built','Bulls','bumblebee','Bunny','Busca','Busi','Buy','bwh3','c-spider','CafeK','Cafi','camel','Cand','captu','Catch','cd34','Ceg','CFNetwork','cgichk','Cha0s','Chang','chaos','Char','char(32,35)','charlotte','CheeseBot','Chek','CherryPicker','chill','ChinaClaw','CICC','Cisco','Cita','Clam','Claw','Click.Bot','clipping','clshttp','Clush','COAST','ColdFusion','Coll','Comb','commentreader','Compan','contact','Control','contype','Conc','Conv','Copernic','Copi','Copy','Coral','Corn','core-project','cosmos','costa','cr4nk','crank','craft','Crap','Crawler0','Crazy','Cres','cs-CZ','cuill','Curl','Custo','Cute','CSHttp','Cyber','cyberalert','^DA$','daoBot','DARK','Data','Daten','Daum','dcbot','dcs','Deep','DepS','Detect','Deweb','Diam','Digger','Digimarc','digout4uagent','DIIbot','Dillo','Ding','DISC','discobot','Disp','Ditto','DLC','DnloadMage','DotBot','Doubanbot','Download','Download.Demon','Download.Devil','Download.Wonder','Downloader','drag','DreamPassport','Drec','Drip','dsdl','dsok','DSurf','DTAAgent','DTS','Dual','dumb','DynaWeb','e-collector','eag','earn','EARTHCOM','EasyDL','ebin','EBM-APPLE','EBrowse','eCatch','echo','ecollector','Edco','edgeio','efp@gmx.net','EirGrabber','email','Email.Extractor','EmailCollector','EmailSearch','EmailSiphon','EmailWolf','Emer','empas','Enfi','Enhan','Enterprise_Search','envolk','erck','EroCr','ESurf','Eval','Evil','Evere','EWH','Exabot','Exact','EXPLOITER','Expre','Extra','ExtractorPro','EyeN','FairAd','Fake','FANG','FAST','fastlwspider','FavOrg','Favorites.Sweeper','Faxo','FDM_1','FDSE','fetch','FEZhead','Filan','FileHound','find','Firebat','Firs','Flam','Flash','FlickBot','Flip','fluffy','flunky','focus','Foob','Fooky','Forex','Forum','ForV','Fost','Foto','Foun','Franklin.Locator','freefind','FreshDownload','FrontPage','FSurf','Fuck','Fuer','futile','Fyber','Gais','GalaxyBot','Galbot','Gamespy_Arcade','GbPl','Gener','geni','Geona','Get','gigabaz','Gira','Ginxbot','gluc','glx.?v','gnome','Go.Zilla','Goldfire','Google.Wireless.Transcoder','Googlebot-Image','Got-It','GOFORIT','gonzo','GornKer','GoSearch','^gotit$','gozilla','grab','Grabber','GrabNet','Grub','Grup','Graf','Green.Research','grub','grub-client','gsa-cra','GSearch','GT::WWW','GuideBot','guruji','gvfs','Gyps','hack','haha','hailo','Harv','Hatena','Hax','Head','Helm','herit','hgre','hhjhj@yahoo','Hippo','hloader','HMView','holm','holy','HomePageSearch','HooWWWer','HouxouCrawler','HMSE','HPPrint','htdig','HTTPConnect','httpdown','http.generic','HTTPGet','httplib','HTTPRetriever','HTTrack','human','Huron','hverify','Hybrid','Hyper','ia_archiver','iaskspi','IBM_Planetwide','iCCra','ichiro','ID-Search','IDA','IDBot','IEAuto','IEMPT','iexplore.exe','iGetter','Ilse','Iltrov','Image','Image.Stripper','Image.Sucker','imagefetch','iimds_monitor','Incutio','IncyWincy','Indexer','Industry.Program','Indy','InetURL','informant','InfoNav','InfoTekies','Ingelin','Innerpr','Inspect','InstallShield.DigitalWizard','Insuran.','Intellig','Intelliseek','InterGET','Internet.Ninja','Internet.x','Internet_Explorer','InternetLinkagent','InternetSeer.com','Intraf','IP2','Ipsel','Iria','IRLbot','Iron33','Irvine','ISC_Sys','iSilo','ISRCCrawler','ISSpi','IUPUI.Research.Bot','Jady','Jaka','Jam','^Java','java/','Java(tm)','JBH.agent','Jenny','JetB','JetC','jeteye','jiro','JoBo','JOC','jupit','Just','Jyx','Kapere','kash','Kazo','KBee','Kenjin','Kernel','Keywo','KFSW','KKma','Know','kosmix','KRAE','KRetrieve','Krug','ksibot','ksoap','Kum','KWebGet','Lachesis','lanshan','Lapo','larbin','leacher','leech','LeechFTP','LeechGet','leipzig.de','Lets','Lexi','lftp','Libby','libcrawl','libcurl','libfetch','libghttp','libWeb','libwhisker','libwww','libwww-FM','libwww-perl','LightningDownload','likse','Linc','Link','Link.Sleuth','LinkextractorPro','Linkie','LINKS.ARoMATIZED','LinkScan','linktiger','LinkWalker','Lint','List','lmcrawler','LMQ','LNSpiderguy','loader','LocalcomBot','Locu','London','lone','looksmart','loop','Lork','LTH_','lwp-request','LWP','lwp-request','lwp-trivial','Mac.Finder','Macintosh;.I;.PPC','Mac_F','magi','Mag-Net','Magnet','Magp','Mail.Sweeper','main','majest','Mam','Mana','MarcoPolo','mark.blonin','MarkWatch','MaSagool','Mass','Mass.Downloader','Mata','mavi','McBot','Mecha','MCspider','mediapartners','^Memo','MEGAUPLOAD','MetaProducts.Download.Express','Metaspin','Mete','Microsoft.Data.Access','Microsoft.URL','Microsoft_Internet_Explorer','MIDo','MIIx','miner','Mira','MIRE','Mirror','Miss','Missauga','Missigua.Locator','Missouri.College.Browse','Mist','Mizz','MJ12','mkdb','mlbot','MLM','MMMoCrawl','MnoG','moge','Moje','Monster','Monza.Browser','Mooz','Moreoverbot','MOT-MPx220','mothra/netscan','mouse','MovableType','Mozdex','Mozi!','^Mozilla$','Mozilla/1.22','Mozilla/22','^Mozilla/3.0.(compatible','Mozilla/3.Mozilla/2.01','Mozilla/4.0(compatible','Mozilla/4.08','Mozilla/4.61.(Macintosh','msnbot-media','msnbot-Products','MSNPTC','MSProxy','MSRBOT','multithreaddb','musc','MVAC','MWM','My_age','MyApp','MyDog','MyEng','MyFamilyBot','MyGetRight','MyIE2','mysearch','myurl','NAG','NAMEPROTECT','NASA.Search','nationaldirectory','Naver','Navr','Near','NetAnts','netattache','Netcach','NetCarta','Netcraft','NetCrawl','NetMech','netprospector','NetResearchServer','NetSp','Net.Vampire','netX','NetZ','Neut','newLISP','NewsGatorInbox','NEWT','NEWT.ActiveX','Next','^NG','NICE','nikto','Nimb','Ninja','Ninte','NIPGCrawler','Noga','nogo','Noko','Nomad','Norb','noxtrumbot','NPbot','NuSe','Nutch','Nutex','NWSp','Obje','Ocel','Octo','ODI3','oegp','Offline','Offline.Explorer','Offline.Navigator','OK.Mozilla','omg','Omni','Onfo','onyx','OpaL','OpenBot','Openf','OpenTextSiteCrawler','OpenU','Orac','OrangeBot','Orbit','Oreg','osis','Outf','Owl','P3P','PackRat','PageGrabber','PagmIEDownload','pansci','Papa','Pars','Patw','pavu','Pb2Pb','pcBrow','PEAR','PEER','PECL','pepe','Perl','PerMan','PersonaPilot','Persuader','petit','PHP','PHP.vers','PHPot','Phras','PicaLo','Piff','Pige','pigs','^Ping','Pingd','PingALink','Pipe','Plag','Plant','playstarmusic','Pluck','Pockey','POE-Com','Poirot','Pomp','Port.Huron','Post','powerset','Preload','press','Privoxy','Probe','Program.Shareware','Progressive.Download','ProPowerBot','prospector','Provider.Protocol.Discover','ProWebWalker','Prowl','Proxy','Prozilla','psbot','PSurf','psycheclone','^puf$','Pulse','Pump','PushSite','PussyCat','PuxaRapido','PycURL','Pyth','PyQ','QuepasaCreep','Query','Quest','QRVA','Qweer','radian','Radiation','Rambler','RAMP','RealDownload','Reap','Recorder','RedCarpet','RedKernel','ReGet','relevantnoise','replacer','Repo','requ','Rese','Retrieve','Rip','Rix','RMA','Roboz','Rogue','Rover','RPT-HTTP','Rsync','RTG30','.ru)','ruby','Rufus','Salt','Sample','SAPO','Sauger','savvy','SBIder','SBP','SCAgent','scan','SCEJ_','Sched','Schizo','Schlong','Schmo','Scout','Scooter','Scorp','ScoutOut','SCrawl','screen','script','SearchExpress','searchhippo','Searchme','searchpreview','searchterms','Second.Street.Research','Security.Kol','Seekbot','Seeker','Sega','Sensis','Sept','Serious','Sezn','Shai','Share','Sharp','Shaz','shell','shelo','Sherl','Shim','Shiretoko','ShopWiki','SickleBot','Simple','Siph','sitecheck','SiteCrawler','SiteSnagger','Site.Sniper','SiteSucker','sitevigil','SiteX','Sleip','Slide','Slurpy.Verifier','Sly','Smag','SmartDownload','Smurf','sna-','snag','Snake','Snapbot','Snip','Snoop','So-net','SocSci','sogou','Sohu','solr','sootle','Soso','SpaceBison','Spad','Span','spanner','Speed','Spegla','Sphere','Sphider','spider','SpiderBot','SpiderEngine','SpiderView','Spin','sproose','Spurl','Spyder','Squi','SQ.Webscanner','sqwid','Sqworm','SSM_Ag','Stack','Stamina','stamp','Stanford','Statbot','State','Steel','Strateg','Stress','Strip','studybot','Style','subot','Suck','Sume','sun4m','Sunrise','SuperBot','SuperBro','Supervi','Surf4Me','SuperHTTP','Surfbot','SurfWalker','Susi','suza','suzu','Sweep','sygol','syncrisis','Systems','Szukacz','Tagger','Tagyu','tAke','Talkro','TALWinHttpClient','tamu','Tandem','Tarantula','tarspider','tBot','TCF','Tcs/1','TeamSoft','Tecomi','Teleport','Telesoft','Templeton','Tencent','Terrawiz','Test','TexNut','trivial','Turnitin','The.Intraformant','TheNomad','Thomas','TightTwatBot','Timely','Titan','TMCrawler','TMhtload','toCrawl','Todobr','Tongco','topic','Torrent','Track','translate','Traveler','TREEVIEW','True','Tunnel','turing','Turnitin','TutorGig','TV33_Mercator','Twat','Tweak','Twice','Twisted.PageGetter','Tygo','ubee','UCmore','UdmSearch','UIowaCrawler','Ultraseek','UMBC','unf','UniversalFeedParser','unknown','UPG1','UtilMind','URLBase','URL.Control','URL_Spider_Pro','Seznambot','MOZILLA 5.0'
);
Jde mi o to, že na webu zobrazuji reklamu jak přímo v HTML, tak až po volaní JS.
Já naměřím celkový počet zobrazení na 300 000, ale jiný reklamní systém (jehož ikonku(kod), jse uístil ke každému zobrazení banneru) naměří je 100 000 zobrazení.
A stále nemůžu přijt nato, ked se bere rozdíl a napadají mě jen ti roboti.
Budu rád za kařdou radu, díky.
28. 2. 2012 13:51:35
https://webtrh.cz/diskuse/detekce-robotu-v-php-pocet-zobrazeni-reklamy#reply736579
Může to být ledaccos. Hity vs návštěvy, adblock, reklamní systém může uznávat jen některá zobrazení např. na základě geografické lokace.
Ad detekce botů - jednoduše třeba takto:
$bots = array(...);
$robot = is_robot($_SERVER, $bots);
function is_robot($agent, $bots_list)
{
foreach($bots_list as $bot) { if(preg_match('/'.$bot.'/i', $agent)) return true; }
return false;
}
Zachytíte tak vychované roboty (=většina), ale samozřejmě né ty, co fikslují hlavičku agent.
28. 2. 2012 14:50:50
https://webtrh.cz/diskuse/detekce-robotu-v-php-pocet-zobrazeni-reklamy#reply736578
Vít Michalek
verified
rating uzivatele
(14 hodnocení)
28. 2. 2012 14:55:40
Samozřejmě, tak to mám uděláno.
Jde mi o to jestli není njaký jiný způsob jak detekovat robota? Jak to třeba dělá google :)
28. 2. 2012 14:55:40
https://webtrh.cz/diskuse/detekce-robotu-v-php-pocet-zobrazeni-reklamy#reply736577
Jak to dělá google vám tady nikdo neřekne ale vzhledem k domu, že:
1) analytics neukazuje návštěvnost přesně
2) musí zpracovávat obrovské objemy dat
tak velice pochybuji, že to dělají o mnoho sofistikovanějším způsobem než vy nebo já.
Každopádně rozdíl 100k vs 300k není dán tím, že byste špatně detekoval roboty, ale spíš tím, že detekujete zobrazení stránky a né zobrazení reklamy anebo tím, že provozovatel reklamního systému má jiná kritéria, co se počítá jako zobrazení, než vy.
28. 2. 2012 15:17:38
https://webtrh.cz/diskuse/detekce-robotu-v-php-pocet-zobrazeni-reklamy#reply736576
Vít Michalek
verified
rating uzivatele
(14 hodnocení)
28. 2. 2012 15:28:50
To je mi jasné, já to myslel s nadsázkou :)
No ten rozdíl, při každém zobrazení stránky je v něm HTML prvek IMG, kterým vracím přes PHP obrázek a zároven si zapíšu informaci o zobrazení obrázku. hned vedle obrázku je ten kod jiné společnosti.
Nebavíme se o unikátech, prostě při každém zobrazení stránky se zobrazí jak obrazek tak jejich prvek.
Je mi jasné že může mít jiná kriteria, ale přece zobrazení je zobrazení tam nic jiného asi nevymyslí.Proto se divím až takovému rozdílu měření.
28. 2. 2012 15:28:50
https://webtrh.cz/diskuse/detekce-robotu-v-php-pocet-zobrazeni-reklamy#reply736575
naniccz
verified
rating uzivatele
(3 hodnocení)
28. 2. 2012 19:28:11
Napadá mě, jestli ten tvůj "obrázek" někdo po cestě nekešuje.
28. 2. 2012 19:28:11
https://webtrh.cz/diskuse/detekce-robotu-v-php-pocet-zobrazeni-reklamy#reply736574
Bacon
verified
rating uzivatele
(2 hodnocení)
28. 2. 2012 19:34:03
Tak pak by mělo pomoct dát tomu obrázku parametr "time" a přidávat tam aktuální timestamp. To by mělo zabránit cachování.
28. 2. 2012 19:34:03
https://webtrh.cz/diskuse/detekce-robotu-v-php-pocet-zobrazeni-reklamy#reply736573
Vít Michalek
verified
rating uzivatele
(14 hodnocení)
28. 2. 2012 21:05:17
Jasně to by šlo, ale ty čísla co jsem psal jsou za 24h měření. Nevím jestli by to bylo tou cachy
28. 2. 2012 21:05:17
https://webtrh.cz/diskuse/detekce-robotu-v-php-pocet-zobrazeni-reklamy#reply736572
Kamil Tomšík
verified
rating uzivatele
(3 hodnocení)
28. 2. 2012 21:31:04
Robota uz se stoprocentni jistotou nepoznas - mrkni na http://www.phantomjs.org/
je to maly headless prohlizec, staci nastavit jinou user-agent hlavicku.
28. 2. 2012 21:31:04
https://webtrh.cz/diskuse/detekce-robotu-v-php-pocet-zobrazeni-reklamy#reply736571
ng9
verified
rating uzivatele
10. 3. 2012 14:37:04
Jak psali předemnou.
Buď kontrolovat user agenta jestli neobsahuje informaci o botovi. Dál by se daly filtrovat ip adresy což asi není úplně ideální. Mohl bys to skloubit i s javascriptem, jelikož roboti neumí zpracovat js (složitější javascript), tím by se dal odstínit robot ale i běžný uživatel, který má vypnutý js (tady by to chtělo znovu překontrolovat user agenta - vetší šance na rozlišení robota a uživatele s vypnutým js). Dál mě napadá, jestli by nešly odchytávat hity, jelikož boti nehitují .css a další.
Víc mě zatím nenapadá, 100% řešení podle mě ale neexistuje.
Osobně kontroluji jenom user agenta a ve většině případů to funguje dobře, sem tam se najde nějaký bot, který systém nezachytí a toho ručně odstíním.
10. 3. 2012 14:37:04
https://webtrh.cz/diskuse/detekce-robotu-v-php-pocet-zobrazeni-reklamy#reply736570
Pro odpověď se přihlašte.
Přihlásit