Nový fulltext?

8. 12. 2007 11:35:40

V návaznosti na toto téma bych tady chtěl nadhodit možná nesmyslný nápad. Docela mě překvapily odezvy diskutujících, které ani nebyly moc kritické, mě osobně to teda moc nezaujalo, především díky velmi nápadné podobnosti s jyxem a minimálním přínosem něčeho nového.

Zkusím nadhodit myšlenku svou, každoéádně prosím nekamenovat :-)

SEO je super věc, nicméně jsou i kvalitní weby, kterým seo absolutně nic neříká. Myslím tím kvalitiní informační hodnotou. Takové weby nikdy nedokáže fulltextový robot rozpoznat jako kvalitní. Myšlenka tedy spočívá mimo standardního robota i v možnosti zaklikávat, že toto je kvalitní nebo toto je brak. Určitě už by někteří provozovatelé MFA webů kopali do mé zadnice, ale myslím, že ta myšlenka není zas tak špatná. Podle toho by se mohl robot učit, jaké stránky jsou typicky špatné. Věřím, že pokud by to využívalo dostatečně hodně lidí, mohlo by to být i docela objektivní. Podle toho by se pak samozřejmě mohly taky řadit výsledky atd., případně by část výsledků byla "kvalitních" a část ostatních, které by se mohly do kvalitních probojovat, kdyby měly dostatečně kvalitních hlasů.

Zároveň by mi přišlo zajímavé, kdyby systém dokázal něco přijímání aktualizací z webů v nějakém standardním formátu - myslím že něco podobného je google sitemaps, prostě aby se systému dalo rozumně říst, že je stránka zaktualizovaná a tudíž že se na ni má znova kouknout.

Určitě tu většina diskutujících ví, že dělám trošku do serverů a v tom směru myšlenku tady toho fulltextu rozvíjím. Většina serverů má v noci hodně malé vytížení, kromě kupy vlastních máme desítky dalších ve správě, kde by majitelům nevadilo, že by v noci indexovaly. Tím se dá dat dohromady obrovský výpočetní výkon pro takovou věc. Udělalo by se to jako běh na virtuálním serveru pomocí jednoho skriptu, takže věřím, že bych určitě mezi známými našel spoustu dobrovolníků, kteří by to pustili i u sebe v době klidu na serverech. Defacto by to mohlo fungovat na principu seti@home.

Z mé strany není problém komplet zázemí, našel by se někdo, kdo by do toho šel se mnou?

8. 12. 2007 11:35:40

https://webtrh.cz/diskuse/novy-fulltext#reply30650

Mário Roženský

(15 hodnocení)

8. 12. 2007 12:03:44

Nápad je to dobrý, proto ostatně i google začal dávat hvězdičky k odkazům, nevím, jak to přesně funguje, jen jsem to zahlídl....

A s tím zaškrtáváním dobrých webů je tu jeden malý háček, stejně, jak si najmeš linkbuildera, tak si najmeš "zaškrtávače" a jsi v háji(případně nějakou aplikaci, která ti to zaškrtá z různých serverů)

8. 12. 2007 12:03:44

https://webtrh.cz/diskuse/novy-fulltext#reply30649

kraja

(12 hodnocení)

8. 12. 2007 12:20:29

Y2K.bug - jasne, vsecko se da osrat. ale postupne se daji vyfiltrovat ruzny proxy apod., na ktery se prijde. a pokud to bude vyuzivat dostatecne hodne lidi, tak par desitek ci set zaskrtavacu tomu zas tolik skodit nemusi. a pokud si je najme na dany klicovy slovo vic webu zaklikavace, tak se to navzajem skoro vykompenzuje...

8. 12. 2007 12:20:29

https://webtrh.cz/diskuse/novy-fulltext#reply30648

Mgr. Ivo Toman

(7 hodnocení)

8. 12. 2007 12:55:09

Jenže jak píšeš "a pokud si je najme na dany klicovy slovo vic webu zaklikavace, tak se to navzajem skoro vykompenzuje" - tak kde potom zůstanou ty "kvalitní" weby, které nemají na zaklíkavače? Říkám ti na rovinu, ničeho nedosáhneš. Vždycky bude nějaká cesta jak posouvat web nahoru (at se to bude jmenovat seo, či jakkoliv jinak) - tedy dokud nebude umělá inteligence která by dokázala sama rozpoznat kvalitní a nekvalitní.

8. 12. 2007 12:55:09

https://webtrh.cz/diskuse/novy-fulltext#reply30647

kraja

(12 hodnocení)

8. 12. 2007 13:06:41

jo, to mas pravdu, jsem rychlej psal nez uvazoval, ze se tim sice par webu vykompenzuje, ale urcite ne vsechny... nicmene i tak mi ta idea neprijde spatna:) a zbytek napadu bych taky nezahazoval...

8. 12. 2007 13:06:41

https://webtrh.cz/diskuse/novy-fulltext#reply30646

Martin Schlemmer

(36 hodnocení)

8. 12. 2007 13:17:40

Social voting ve výsledcích vyhledávání není nová idea, už jsem viděl pár mashupů, které např. mixovaly výsledky Yahoo a Google a nechaly uživatele hlasovat o těch nejužitečnějších (teď je nemůžu najít). Yahoo určitě používá data z Delicious, Google z Bookmarks, AdSense a Analytics a teď chystá zavést hlasování přímo do výsledků vyhledávání.

http://www.techcrunch.com/2007/11/28/straight-out-of-left-field-google-experimenting-with-digg-style-voting-on-search-results/

http://venturebeat.com/2007/11/29/googles-first-social-search-step-your-vote-please/

Nicméně "naprogramovat svůj vyhledávač" není tak jednoduché. :) To už by mohlo být proveditelnější tahat výsledky z českých vyhledávačů, mixovat je a nechat lidi hlasovat a personalizovat si.

8. 12. 2007 13:17:40

https://webtrh.cz/diskuse/novy-fulltext#reply30645

toshi

(4 hodnocení)

8. 12. 2007 13:21:58

google už to taky napadlo (http://www.google.com/experimental/a840e102.html) ...

ghh druhej

8. 12. 2007 13:21:58

https://webtrh.cz/diskuse/novy-fulltext#reply30644

Mário Roženský

(15 hodnocení)

8. 12. 2007 14:48:50

ad toshi - to jsou presne ty hvezdicky:)

ad kraja - je spousta kvalitnich webu, ktere jsou nekde zapadle, nezaobiraji se SEO, jen proste dobre popisou dany problem, proto by se nestaraly o nejake naklikavani hodnoceni, kdezto ciste komercne zamerene weby by klikaly jak ujete.

Jeste me napadla jedna vec, pokud neco hledam a najdu, tak z vyhledavace jdu rovnou na tu stranku, tam si o danem problemu poctu, ale uz se nevracim zpet, abych to ohodnotil!!! Toto je si myslím významný problém. Toto by mohla řešit nějaká lišta, kde by hodnotily ty stránky uživatelé...Ale to už by pak člověk měl více lišt, než stránky:)

8. 12. 2007 14:48:50

https://webtrh.cz/diskuse/novy-fulltext#reply30643

kraja

(12 hodnocení)

8. 12. 2007 15:13:34

retal - me je jasny ze to neni jen tak udelat fulltext :-) ale srovnavani vysledku vice vyhledavacu a vypisovani nejrelevantnejsich by taky nemuselo byt marny.

8. 12. 2007 15:13:34

https://webtrh.cz/diskuse/novy-fulltext#reply30642

jirin

(5 hodnocení)

8. 12. 2007 15:56:54

Hlasovni uzivatele ve vysledcich se mi zda celkem ujete, dle me bez smyslu. Ja si myslim, ze uz to "existuje" a to v podobe relevantnich baclinks, protoze preci pokud uz se nekomu ten web libi tak na nej odkazuje, v relativnim kontextu...

Ale rozhodne samotne halsovani bych nezatracoval, ale delal v jinem kontextu, proste robot by indexoval normalne klasicky vse, a pak by nejaky admin projizdel ty nove weby a sam urcoval, zda je to dle nej kvalitni obsah ci ne, nebo proste nejak ohodnotil treba na stupnici 1-5, a to by se bralo jako hlavni rozhodujici pravidlo. Ale problem by byl, ze by se pak dany web zlepsil v obsahu a mel by jit tedy nahoru, to uz by pak chtelo vedet jak to osefovat, ale treba by se dalo zase zajistit tak, ze by najednou pribylo vice baclinku, tak by se to pak dalo znovu na zhodnoceni, bylo by to asi problem drzet, ale bylo by to mozna relevantnejsi nez dbat na SEO a baclinky, bnaclinky by se tak hlidaly prakticky jen pro to, kdyby pribylo dost baclinku znova zkontrolovat:)

8. 12. 2007 15:56:54

https://webtrh.cz/diskuse/novy-fulltext#reply30641

kraja

(12 hodnocení)

8. 12. 2007 16:11:15

Jyxo uvadi ze hleda v cca 160M strankach, morfeo necelych 145M. mas predstavu, jak dlouho by to jeden (pet, deset, padesat) lidi projizdelo a nejak relevantne hodnotili obsah neceho, o cem vi navic treba prd?

8. 12. 2007 16:11:15

https://webtrh.cz/diskuse/novy-fulltext#reply30640

jirin

(5 hodnocení)

9. 12. 2007 00:03:07

Hledaji v tolik stranka != webech

Kolik stranek ma treba idnes, novinky, apod? Milion kazdy? Tam by stacilo proste jne ze temhel webum davat tolik, po case by se dala na tom udelat i urcita intelegence robota, ze by sam rozpoznal ze to je kvalitni obsah - napriklad na urovni porovnavani textu . Zas tak moc kvalitnich tech webu nebude:-) a pokud odectes porno, mas jen par tisic webu:-D

9. 12. 2007 00:03:07

https://webtrh.cz/diskuse/novy-fulltext#reply30639

Milo.catch22

9. 12. 2007 11:49:27

To neni blbej napad.. zustava otazka.. jak robota naucit aby se naucil rozpoznat kvalitni obsah...:)

9. 12. 2007 11:49:27

https://webtrh.cz/diskuse/novy-fulltext#reply30638

miniJOHN

(57 hodnocení)

9. 12. 2007 11:55:42

jak robota naucit aby se naucil rozpoznat kvalitni obsah

Momentálně jsou vyhledávaci roboti nastaveni tak, aby rozpoznaly kvalitní obsah,ale na to se vymyslelo SEO...a různé optimalizace...proto je myslím blbost, aby robot sám rozpoznal kvalitní obsah. Vždy to bude pomocí nějakých algoritmů, a pokud se zjistí pomocí jakých nebo aspoň přibližne, lze jim podstrčit pro ně kvalitní obsah.

9. 12. 2007 11:55:42

https://webtrh.cz/diskuse/novy-fulltext#reply30637

Pette

(2 hodnocení)

9. 12. 2007 12:10:33

Napsal miniJOHN;22836
proto je myslím blbost, aby robot sám rozpoznal kvalitní obsah. Vždy to bude pomocí nějakých algoritmů, a pokud se zjistí pomocí jakých nebo aspoň přibližne, lze jim podstrčit pro ně kvalitní obsah.

ano, ale...

ako clovek rozpoznava kvalitny obsah? zoberme si priklad. recept na jedlo.

ako clovek pozna, ze ten recept je kvalitny (odhliadnuc od jedla:)? zisti, ci ma kvalitny popis ingrediencii, potom dobry postup, popis specifickych veci co treba urobit (napr zamiesat pri vareni) a pod.

vsetky AI systemy sa snazia tento postup algoritmovat, teda za A-porozumiet pisanemu prejavu - obsahu, za B - mat databazu textov s ktorou bude porovnavat, za C - priradit subjektivnost.

napriklad IBM chce do konca desatrocia poskytnut nastroj na syntezu reci - teda diktovaniu pocitacu minimalne v anglictine zacne byt realitou.

na zaklade stoviek miliard stranok textu a dostatocneho vykonu teda AI zacne "premyslat", vykon uz nato dnes existuje.

9. 12. 2007 12:10:33

https://webtrh.cz/diskuse/novy-fulltext#reply30636