Zadejte hledaný výraz...
Jakub Glos
Webtrh.cz
Vývoj webových stránek na WordPressu a proklientský přístup pro freelancery
Třídenní infromacemi nabitý prezenční + online kurz v Praze od Webtrhu pouze za 2 871 Kč
Více informací

Jak Google skloňuje/časuje a pracuje se synonymy?

sthr
verified
rating uzivatele
1. 10. 2014 22:01:16
Google najde ohýbaná slova nebo synonyma, nemáte tušení, jak to dělá? Dělá spíš to nějakou analýzou založenou na pravidlech češtiny a tedy ve spolupráci s odborníky na češtinu, nebo to je nějakým strojovým učením, kdy na konkrétním jazyku nezáleží?
1. 10. 2014 22:01:16
https://webtrh.cz/diskuse/jak-google-sklonuje-casuje-a-pracuje-se-synonymy/#reply1058658
sthr
Viz Anatomie vyhledávače Google: http://infolab.stanford.edu/~backrub/google.html.
Fulltextové vyhledávače obecně pracují s tzv. lemmatizací, stemmingem, thesaurem (slovníkem synonym) a jazykovými korpusy (https://ucnk.ff.cuni.cz/struktura.php).
Podrobnosti si jistě dohledáš, ale myslím, že se jedná o dost složité a košaté téma. :)
2. 10. 2014 09:08:31
https://webtrh.cz/diskuse/jak-google-sklonuje-casuje-a-pracuje-se-synonymy/#reply1058657
sthr
verified
rating uzivatele
2. 10. 2014 15:48:07
Sice to přímo neodpovídá na moji otázku, ale dík, je to pro mě zajímavé. Ty korpusy je možné někde stáhnout nebo s nimi lze pracovat jen pomocí toho Korpusového manažeru Bonito?
2. 10. 2014 15:48:07
https://webtrh.cz/diskuse/jak-google-sklonuje-casuje-a-pracuje-se-synonymy/#reply1058656
Tom
verified
rating uzivatele
(7 hodnocení)
2. 10. 2014 16:00:35
Já bych naopak řekl, že to naprosto odpovídá na dotaz :o) http://cs.wikipedia.org/wiki/Lemmatiz%C3%A1tor
Například v php najdeš pspell, pro češtinu je to ale nepoužitelné. Tohle téma je skutečně obrovské, na netu najdeš spoustu videí od seznamu a uvidíš, že to je spíš matematika, než "stáhnutí programu"
2. 10. 2014 16:00:35
https://webtrh.cz/diskuse/jak-google-sklonuje-casuje-a-pracuje-se-synonymy/#reply1058655
sthr
verified
rating uzivatele
2. 10. 2014 16:59:46
Já ale nechci program na stáhnutí, mě právě zajímá ta jazykověda a matematika za tím. Za jakékoliv relevantní odkazy (i ty, které neodpovídají na mé otázky :-) předem děkuju.
1. Aby napsal svůj dotaz jasněji: Neví se nebo netuší, jak třeba Google ten svůj lematizátor pro češtinu dělá? Stojí za tím odborníci na češtinu, kteří znají čeké tvarosloví a alespoň částečně ručně dělané slovníky a na češtinu šité algroitmy nebo to je děláno nějakým strojovým učením fungujícím víceméně napříč jazyky? Někde jsem o tom kdysi četl nějaký článek, kde myslím bylo, že to je ta druhá varianta (nebylo to pro češtinu ale nějaký jiný jazyk), ale už ho nemůžu najít.
2. Existuje nějaký dostupný morfologicky označkovaný český korpus (i třeba jen rozsahem malý)?
2. 10. 2014 16:59:46
https://webtrh.cz/diskuse/jak-google-sklonuje-casuje-a-pracuje-se-synonymy/#reply1058654
Pro odpověď se přihlašte.
Přihlásit