logo
20.10.2020 12:37
1
Ahoj,
budete tak laskavi a testne mi nekdo domenu, zda jsem zablokoval dobre nebo ne tyto boty?

Jde o domenu: https://viralking.cz/


Dekuji moc

Co se právě děje na Webtrhu?

20.10.2020 12:52
2
Jop, u mě jsou oba zablokovaní. Otestuješ si to přes prohlížeč i sám. klikni do webu pravým, pak Prozkoumat, nahoře na tři tečky, tam More Tools, Network Conditions a dole si dej Custom Bota, pokud není ve výběru a pak jen refreshni web.
20.10.2020 12:59
3
Diky Tomasi.
Synteticky test jsem delal, ale nekde jsme se setkal, ze neni zcela presny a jelikoz nepouzivam tyto nastroje, chtel jsem je testnout primo. Premyslim zda staci zapis do .ht ve tvaru:

Kód:
BrowserMatchNoCase "SemrushBot" bots
Order Allow,Deny
Allow from ALL
Deny from env=bots
Nebo pro jistotu bloknout cely rozsah IP a pojistit to jeste robots.txt ve formatu:

Kód:
User-agent: SemrushBot-SA
Disallow: / 

User-agent: SemrushBot-BA
Disallow: /

apod
Nebo toto staci?
20.10.2020 13:02
4
Robots.txt by mohl stačit, ale není to 100% podle mě. IP adresy zase nedoporučuje Semrush, prý nepoužívají žádný ucelený blok adres.

Jinak tady mají ofic instrukce i v Semrush https://www.semrush.com/bot/
20.10.2020 13:17
5
Ze zkusenosti block pres robots.txt nikdy nefunguje u techto link crawleru. Pro overeni zda ti block pres .ht funguje se podivej do access logu webu, jejich navsteva by mela davat error. Po zablokovani bot jeste nekolikrat prijde, takze uvidis errory opakovane.

Pro blokaci v .ht jsou ruzne zapisy a nektere obcas nefunguji (napr. homepage je zablokovana, ale interni url ne, nebo pres zmenu useragenta v browseru sice je block, ale realne bot nedostane error).

Tento zapis pouzivam a funguje:

Kód:
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} ^(.*)AhrefsBot(.*) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)SemrushBot(.*) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^-?$
RewriteRule ^(.*) - [F,L]
</IfModule>
20.10.2020 13:18
6
Důvod blokace?
Akorát o tom píšu poměrně dlouhý článek (blokace BOTů na úrovni hostingu).
20.10.2020 13:21
7
Tak tihle dva boti jsou zrovna úplně zbyteční, pokud sám nepoužíváš ty nástroje pro monitoring a analýzy svýho projektu. Zbytečnej traffic navíc.
20.10.2020 13:23
8
Tomasi, diky. Jasny IP range nemaji nikde ofiko uvedeny, takze boj s vetrnymi mlyny...

@marcosalatin
diky, zatim jsem nastavil to co jsem uvedl vyse, tak uvidim jak to bude fungovat a prave robots.txt neni spolehlivy.

Jednoduse na serveru mam par desitek webu, na ktere pravidelne chodi boty ahrefs a semrush a celkem to udela zatez, takze je proste bloknu.

---------- Příspěvek doplněn 20.10.2020 v 13:27 ----------

Původně odeslal Wladass
Důvod blokace?
Akorát o tom píšu poměrně dlouhý článek (blokace BOTů na úrovni hostingu).
pokud na serveru ma clovek X-XX webu a prijde lozja s ahrefs, semrush apod. tak proste extremne vytizi server az to spadne do err500.

Nedavno to delal Yandex, 2x denne, ale tam jsem to vyresil pomoci crawl rate a zatim je klid a oba jsme spokojeni.
20.10.2020 16:25
9
u velkých projektů nastavujeme QoS/ratelimit pro tyhle roboty a zpomalujeme je omezením počtu dotazů za třeba hodinu a postupným umělým navyšováním latencí.

Úplné zakázání může generovat jiné příhody a problémy, u vlastních webů si to ale člověk přetrpí sám. Je ale pak těžké najít všechny ty vytěžovatele.

U apache jsem na to dříve používal mod_qos, dnes je ale lepší mod_ratelimit. Služby neodřízneš a zabráníš tím aspoň přetěžování webů.

Ahrefs, semrush i yandex s tím fungují dobře. Všichni tři dávají tolik požadavků, kolik jich dokážeš odbavit s dobrou latencí, jakmile se zvyšuje latence, zbrzdí. Bohužel hodně webům to takhle vyčerpá nějaký zdroj (počet spojení na db, počet otevřených souborů, paměť) a slítnout znenadání, místo aby se postupně zpomalovaly. Stupňovaný ratelimit je univerzální je řešení, funguje i proti borcům s apache benchmark, nemusíš pak každý měsíc hledat nového robota.

Ještě jednodušší je, pokud člověk má k dispozici nějakou dospělou proxy jako haproxy, nginx, varnish nebo stačí použít cloudflare.
20.10.2020 16:35
10
Presne tak.
V podstate mi tyto boty nevadi, vykukove nam zacali scanovat pomoci techto sluzeb a zacalo to byt cim dal narocnejsi.

Google, Bing ani Yandex problemy nedelaji, tam je to vse letos optimalni.

Dnes zablokovane tyto dva boty, tady vysledek poklesu dotazu k DB:



Tady vytezovani CPU za posledni tyden a to na tomto serveru mam pres kilo webu a delaji obvykle zatizeni do 50 % z 2x 2CPU 3.2GHz:



Vytizeni RAM tez zacina klesat:

21.10.2020 10:58
11
Blokace BOTů ze strany poskytovatelů hostingu