Zadejte hledaný výraz...

SeznamBot -> permanentně chybně vygenerované náhledy

Luděk Kvapil
verified
rating uzivatele
8. 12. 2016 12:31:05
Existuje nějaký způsob, jak přinutit SeznamBota, aby si načetl skutečný náhled stránky, místo nějakého náhodného obrázku, který zcela běžně zobrazuje? Kdyby to bylo jen o SEO, tak mi to tak nevadí, ale kazí to i reklamy v Skliku, kde se ukazují zcela špatné náhledy.
Už jsem to řešil jednou s podporou. Poslali tam bota, ať si to přescanuje. Stalo se... No a pak si to zase po nějaké době přescanoval na ten špatný náhled. Tedy ruční zásah funguje, ale to bych jim musel psát na podporu ob den, protože automatický náhled mají nefunkční.
Přemýšlel jsem o tom, že bych třeba na základě identifikace bota mu tam poslal screen stránky jako obrázek. To by snad už nespackal. Ovšem pokud by existovala jednoduší možnost, tak bych byl rád. Nechci programovat nějaké rozšíření jen kvůli tomu, že v Seznam.cz vymýšlí blbosti, které nefungují.
---------- Příspěvek doplněn 08.12.2016 v 12:33 ----------
viz: https://search.seznam.cz/?q=site%3Amctree.cz -> u všech drtivé většiny URL ukazuje náhled E 404. Na proklik všechny URL fungují ( E 200)
8. 12. 2016 12:31:05
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242067
TomasX
verified
rating uzivatele
(4 hodnocení)
8. 12. 2016 12:44:35
zjisti si, na kterou url ten bot chodí a podle toho uprav svůj systém. Dávat jinou stránku pro bota je porušení podmínek a může dojít k penalizaci.
8. 12. 2016 12:44:35
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242066
Luděk Kvapil
verified
rating uzivatele
8. 12. 2016 12:57:06
Napsal TomášX;1344725
zjisti si, na kterou url ten bot chodí a podle toho uprav svůj systém. Dávat jinou stránku pro bota je porušení podmínek a může dojít k penalizaci.
To by nebyla podvodná stránka.. Fulltextovému robotovi bych to nepředhodil normálně. Jen tomu generátoru náhledu, který prostě nefunguje, bych předhodil screen v .jpg. To by mohl pobrat.
---------- Příspěvek doplněn 08.12.2016 v 12:58 ----------
A víte co.. Kdyby v Seznam.cz dělali dobře svoji práci, tak si nikdo nemusí lámat hlavu tím, jak jejich robotovi dát výsledek, kterému rozumí.
8. 12. 2016 12:57:06
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242065
TomasX
verified
rating uzivatele
(4 hodnocení)
8. 12. 2016 16:39:02
já bych spíše hledal příčinu, proč tvůj web vyhazuje 404 na ty požadavky, je ideálně potřeba najít konkrétní url, které seznam dotazuje a co je na nich špatně.
S tímhle jsem se ještě nesetkal, hledej i problém u sebe. Stěžuješ si, že seznam nedělá svoji práci a přitom vůbec tvůj web nevyhovuje specifikaci https://validator.w3.org/check?uri=http%3A%2F%2Fwww.mctree.cz%2Fliebherr-shop%2Fkombinovane-chladnicky-mrazak-dole%2Fcu-2311%2F1811%2F%3Fpath%3D400%257C67&charset=%28detect+automatically%29&doctype=Inline&group=0
Ale přímo problém tam nevidím, kdo ví.
8. 12. 2016 16:39:02
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242064
Luděk Kvapil
verified
rating uzivatele
8. 12. 2016 16:56:32
Napsal TomášX;1344786
já bych spíše hledal příčinu, proč tvůj web vyhazuje 404 na ty požadavky, je ideálně potřeba najít konkrétní url, které seznam dotazuje a co je na nich špatně.
Ve výsledku vyhledávání je vždy URL, kterou zaindexuje. Title, description i URL fungují. Nefungují jim jen ty náhledy. Ten robot prostě ty URL nenavštěvuje, nebo je nějak pokažený. URL fungují. Kdyby tam šel, tak je načte...
Co se týče validity HTML, tak to nereším :). Důležité je, aby se web zobrazoval správně, což dělá. Například strukturovaná data a open graph a další věci, co tam v tom validátoru vyskočí, sice nepatří do standardu HTML, ale jsou to standardy Googlu, či Facebooku. A ti jsou pro mě důležitější, než nějaká pochybná validita HTML, která sama o sobě nic neznamená.
---------- Příspěvek doplněn 08.12.2016 v 16:59 ----------
Ještě k robotu: Generátor náhledu je upravený Firefox. Můj Firefox ten web zobrazí korektně. Každou URL. Takže z mého pohledu je všechno v pohodě. Musí být chyba v tom jejich botovi.
Také jsem sledoval náhledy jiných domén. Dost často tam mají takový ten prázdný obrázek, nebo náhled je úvodní strana a tudíž náhled nesedí k URL. Z toho pramení, že tenhle bot indexuje ještě pomaleji než fulltextový bot a navíc špatně.
---------- Příspěvek doplněn 08.12.2016 v 17:00 ----------
Navíc jsem na to podporu už upozorňoval. Tam to vyřešili tím, že URL nechali znovu načíst a fungovalo to... Chvilku.
8. 12. 2016 16:56:32
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242063
TomasX
verified
rating uzivatele
(4 hodnocení)
8. 12. 2016 17:03:27
ty náhledy co tam seznam zobrazuje vypadají jako 404 na tvém webu, nejspíš jeho bot tvůj web na nějaké url navštíví a něco je špatně.
Máš tam hodně chyb v html - chybějící type u script a další drobnost, které mohou způsobit špatné načtení stránky, to že to v Chromu/Firefoxu funguje, neznamená, že tam není chyba, oni jsou prohlížeče v tomhle až moc chytří, roboti nejsou tak moc chytří a často se používá starší Firefox engine.
---------- Příspěvek doplněn 08.12.2016 v 17:07 ----------
no už jen to, že používáš xhtml a máš tam nepárový a neukončený link tak může dělat řadě prohlížečů prostě problémy
Error Line 124, Column 59: end tag for "link" omitted, but OMITTAG NO was specified
Hodnoty atributů (třeba odkazy) nemáš escapované, jak by měly být opět dělá problémy při parsování, pak se buď načte špatná url nebo naopak dojde ke špatnému vykreslení stránky.
8. 12. 2016 17:03:27
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242062
Luděk Kvapil
verified
rating uzivatele
8. 12. 2016 17:09:13
jj.. Je to E404. To vím, ale URL prostě fungují. Pochopil bych chybu ve vykreslení. To by pak odkazovalo na ten nevalidní HTML/CSS, ale tohle chyba vykreslení není. Přemýšlel jsem, že by to mohla být ta roura v path, ale ono to hází špatný obrázek i u URL, která path ani rouru neobsahují. Teď žádné redirecty pro roboty nemám. Takže by to měl normálně načíst. Navíc kdyby ta URL byla nějaká divná (tzn. nefunkční pro toho bota), tak by mi to snad na té podpoře řekli, když tam znovunačítali ten screen, což proběhlo úspěšně...
---------- Příspěvek doplněn 08.12.2016 v 17:11 ----------
Hlavně jsem rozmrzelý z toho, že už jsem to na podpoře s nimi řešil a měl pocit, že vyřešil, ale problém se jen posunul. A připadá mi trapné chodit každý den na podporu se stejným problémem, ale asi to tak budu muset udělat. Kdo déle vydrží B|.
---------- Příspěvek doplněn 08.12.2016 v 17:14 ----------
Napsal TomášX;1344796
Hodnoty atributů (třeba odkazy) nemáš escapované, jak by měly být opět dělá problémy při parsování, pak se buď načte špatná url nebo naopak dojde ke špatnému vykreslení stránky.
Zítra přidám ta lomítka, ale stejně se mi nechce věřit, že by chyba ve validitě xHTML způsobila nefunkční URL. To je přece něco odlišného... Však se tam vykresluje E 404 a ta tutově také není validní.
---------- Příspěvek doplněn 08.12.2016 v 17:15 ----------
Mimochodem úvodní stránka se také správně načetla.. Tam to funguje... A ta také není validní. Tím jsem si také jist :)))
8. 12. 2016 17:09:13
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242061
TomasX
verified
rating uzivatele
(4 hodnocení)
8. 12. 2016 17:17:28
jenže ty odkazy na projítí pro screen robota musí naparsovat z html, pokud se špatně vykresluje/jsou chyby v html, vezme si špatné odkazy a ty pak zobrazují 404. Zjisti z logů navštívené adresy s 404 na kerých byl seznam a nejspíš uvidíš příčinu.
Screen robot je na seznamu oddělený systém, o který se starají jiní lidé než o fulltext, fulltext běží na naprosto jiném enginu, v tom mohou být rozdíly. Používají firefox, ale pěkně starou verzi, ono není snadné udržovat upravený fork.
Podpora ten náhled tam dodá zadáním konkrétní url do formuláře a ta url je už správně, tak to funguje. Jen, jak tam znovu vběhne screen bot, znovu to rozbije a já si myslím, že už načítá špatná url ze zdrojáků právě kvůli nevalidnímu html (neukončené tagy, neescapované hodnoty), ale to je jen odhad. Moc dlouho jsem tu stránku nezkoumal. Ona pak ve výsledku totiž může být zobrazena správně, ale odkazy nemusí fungovat.
8. 12. 2016 17:17:28
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242060
Luděk Kvapil
verified
rating uzivatele
8. 12. 2016 17:26:03
Také mě napadlo, že třeba tam ten bot přišel v nějakou chvíli, kdy web nefungoval, což sice nevím kdy by se to stalo, ale čistě teoreticky to možné je... Pak by E404 se dalo vysvětlit.
Blbé je, že nejde toho bota poslat znovu, aŤ si to načte správně. Tuhle funkci vůbec nemají. Osobně bych ty náhledy webů rovnou odstranil. Je to zbytečné. Žádný vyhledávač to nemá.
---------- Příspěvek doplněn 08.12.2016 v 17:28 ----------
Napsal TomášX;1344806
jenže ty odkazy na projítí pro screen robota musí naparsovat z html, pokud se špatně vykresluje/jsou chyby v html, vezme si špatné odkazy a ty pak zobrazují 404. Zjisti z logů navštívené adresy s 404 na kerých byl seznam a nejspíš uvidíš příčinu.
Já teda nevím, jak to tam mají, ale kdyby ten generágor náhledů sám indexoval URL, tak by to bylo dost hloupé (duplicitní práce), když to dělá fulltextový robot. Kdybych to psal já, tak jeden bot sbírá odkazy a další je zpracovávají, takže by musely být všude URL stejné... To by byla logická konstrukce vyhledávače.
8. 12. 2016 17:26:03
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242059
TomasX
verified
rating uzivatele
(4 hodnocení)
8. 12. 2016 18:22:34
tak řešení, které ti příjde logické nemusí být uskutečnitelné v reálném prostředí a ve velkém projektu.
Screeenovač si klidně může url zjištovat sám nebo dělá jinou chybu, zjistit by se to dalo podle url, které navštivil.
8. 12. 2016 18:22:34
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242058
Luděk Kvapil
verified
rating uzivatele
9. 12. 2016 09:47:53
Zamyslel jsem se nad svým egem a došlo mi, že mi nevadí, že generátor náhledu zobrazuje špatnou stránku, ale že je ta stránka ošklivá. Tak jsem vylepšil vstupní stránku pro generátor náhledu Seznamu :)
9. 12. 2016 09:47:53
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242057
TomasX
verified
rating uzivatele
(4 hodnocení)
9. 12. 2016 09:49:17
hezké řešení a máš po problému :)
9. 12. 2016 09:49:17
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242056
carlos
verified
rating uzivatele
(19 hodnocení)
11. 12. 2016 21:25:17
Ubehlo par dni a zda se ze mas nahledy OK...
Mne to taky obcas vygeneruje nesmysl a cekam par dni nez se to spravi..
11. 12. 2016 21:25:17
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242055
Luděk Kvapil
verified
rating uzivatele
14. 12. 2016 14:04:36
Spíše dostaly náhledy KO. Já říkal, že je to blbost, ale fakt jsem netušil, že v Seznam.cz tak dají na můj názor :D
21896
14. 12. 2016 14:04:36
https://webtrh.cz/diskuse/seznambot-permanentne-chybne-vygenerovane-nahledy#reply1242054
Pro odpověď se přihlašte.
Přihlásit