Zadejte hledaný výraz...

Co říkáte na české web scrapery?

carlos
verified
rating uzivatele
(19 hodnocení)
22. 3. 2013 22:46:26
Jaký je váš názor na content scrapery, které se mohutně rozjíždí i na českém webu...
Namátkou www.seznam-inzerce.cz
Tyto weby parazitují na vašem pracně vytvořeném obsahu, který obalí reklamou a navíc většinou odkazují na zdroj javascriptem (nikoliv hyperlinkem).
Bohužel se často dostanou vysoko do výsledků hledání a při malém zaváhání vás mohou i předstihnout, což zamrzí.
22. 3. 2013 22:46:26
https://webtrh.cz/diskuse/co-rikate-na-ceske-web-scrapery#reply881502
Roman
verified
rating uzivatele
(15 hodnocení)
22. 3. 2013 23:01:04
zakázat botům prolejzat moji stránku? Resp. povolit jen vybrané boty? Na to stačí robots.txt
22. 3. 2013 23:01:04
https://webtrh.cz/diskuse/co-rikate-na-ceske-web-scrapery#reply881501
Registrace
verified
rating uzivatele
(1 hodnocení)
22. 3. 2013 23:06:34
Napsal Caesar;926688
zakázat botům prolejzat moji stránku? Resp. povolit jen vybrané boty? Na to stačí robots.txt
Bot kterej chce krást obsah rozhodně nebude brát na robots.txt, meta noindex, nebo podobný věci ohled :-)
Technicky proti tomu není obrana.
22. 3. 2013 23:06:34
https://webtrh.cz/diskuse/co-rikate-na-ceske-web-scrapery#reply881500
Roman
verified
rating uzivatele
(15 hodnocení)
22. 3. 2013 23:07:33
Napsal Registrace;926690
Bot kterej chce krást obsah rozhodně nebude brát na někej robots.txt ohled :-)
to je vlastně taky pravda. Ale existuje jich spousta, a jsou známé, které se vyfiltrovat dají
22. 3. 2013 23:07:33
https://webtrh.cz/diskuse/co-rikate-na-ceske-web-scrapery#reply881499
Registrace
verified
rating uzivatele
(1 hodnocení)
22. 3. 2013 23:09:47
Napsal Caesar;926692
to je vlastně taky pravda. Ale existuje jich spousta, a jsou známé, které se vyfiltrovat dají
Samozřejmě, ale to nejsou boti kteří kradou obsah pro nějaký vyčůránky, to jsou vyhledávače, různý archivy, apod...
Pokud někdo naprogramuje bota tak aby kradl obsah, tak mu nebude dávat žádný identifikační znaky, aby se dal blokovat.
22. 3. 2013 23:09:47
https://webtrh.cz/diskuse/co-rikate-na-ceske-web-scrapery#reply881498
Bacon
verified
rating uzivatele
(2 hodnocení)
22. 3. 2013 23:10:44
Napsal Caesar;926692
to je vlastně taky pravda. Ale existuje jich spousta, a jsou známé, které se vyfiltrovat dají
Nasimulovat přístup návštěvníka, resp. několika návštěvníků není žádný problém a pokud dělám projekt, u kterého předpokládám, že scrapování nebude OK a mohl by být nějak technicky chráněn, použiju ve skriptu proxy, různé user agenty, náhodnou dobu přístupu (v rámci vteřin) a odesílání refererů, takže nemáš šanci poznat, že ti web prolézá skript a ne člověk.
22. 3. 2013 23:10:44
https://webtrh.cz/diskuse/co-rikate-na-ceske-web-scrapery#reply881497
carlos
verified
rating uzivatele
(19 hodnocení)
22. 3. 2013 23:18:15
Pokud je to na .cz doméně pak by možná šlo využít autorský zákon... ale je to dost neefektivní - podobně jako boj se spamem. Bojovat ručně proti botům je předem prohraná bitva... Než člověk vyřeší jednoho objeví se na jeho místě dva další... Celkem by mě zajímalo kolik na UOOU mají lidí na stížnosti na nevyžádanou poštu :)
22. 3. 2013 23:18:15
https://webtrh.cz/diskuse/co-rikate-na-ceske-web-scrapery#reply881496
Tyhle weby mi nějak zvlášť vrásky nedělají. Nemyslím si, že by byly nějak dlouhodobě udržitelné a jestliže jsou třeba zrovna teď "in" a objevují se v SERP, tak je to stejně jen dočasné.
Kdyby to někde přesahovalo míru únosnosti, jako např. že by se moje texty stabilně dostávaly na dotazy na nižší příčky v SERP, asi bych napsal googlu, ať s tím něco udělá.
Jinak občas zakážu nějaký user-agent přes .htaccess a posílám ho jen na stránku forbidden, ale dělám to zcela výjimečně a spíš proto, že se chová otravně a zkresluje mi logy a statistiky, než že bych si dělal nějaké falešné iluze, že můžu crawlování zabránit.
23. 3. 2013 14:51:16
https://webtrh.cz/diskuse/co-rikate-na-ceske-web-scrapery#reply881495
carlos
verified
rating uzivatele
(19 hodnocení)
23. 3. 2013 20:04:14
problem je ten ze tech webu za posledni leta jsou desitky a to by clovek nedelal nic jineho nez bonzoval ;)
chtelo by to nejake systemove reseni ...
23. 3. 2013 20:04:14
https://webtrh.cz/diskuse/co-rikate-na-ceske-web-scrapery#reply881494
Pro odpověď se přihlašte.
Přihlásit