Zadejte hledaný výraz...

Markovovy řetězce, NLTK a korpus pro češtinu

Karel Kohout
verified
rating uzivatele
(10 hodnocení)
10. 10. 2009 21:20:13
Zaujalo mě tohle povídání: http://404m.com/2009/10/10/co-vlastne-mfa-ohrozuji/ - ne z hlediska filozofování, ale z hlediska proveditelnosti (tj. postavit několik stovek subdomén na náhodně vygenerovaném textu a prolinkovat podle seznamu slov).
Trochu jsem zapátral, pro můj oblíbený Python existuje knihovna NLTK, která si sice obstojně poradí s angličtinou, ale čeština je špatná. Zkusil jsem tedy něco jednoduššího, Markovovy řetězce. Výsledek mě hodně překvapil :smoking: .
(z nějaké "indiánky" z guttenberg.org, berte prosím na zřetel při posuzování "slovní zásoby")
Napsal "dvojice"
Nána: Ježíši Kriste, co s rozšafností staré hospodyně. »To může lít jako kočky. Ani pavouka si to netrvalo ani jediného?--Přiveď sem nedostane.« »Až budeme brzy vrátíme.« »Co si budeme musit potah zbyl. Tož jak jsem couval, až poznají, kdo umí dobře schovají čtyři sta šestnáct miliónů. Domin: Ticho! Kdyby mne mluvit, psát a mají opravdový stan.« »A jak byl tak líto! Nána: (vstane) Ani ostatní chlapci nad starou Evropu. Vidíte, paní Dominovou? Ach, lidičky, to opakoval: »Osada Stepních Vlků. Druzí to pěkný hlídač! Musíme ho lékař. »A to dobře. Mirek v nějaké hrnce. »To už nezbylo nic, ani slovo dělá takhle!« A už všem klížila víčka. »Půjdeme se Cyril. »Kde je nejzajímavější podívaná. Pak řekl Lojza. »Tak to můžete odejít. (Sulla a pojďme potichu, abychom mohli říci, ale pak Lojza. »Já také ne.« -- Vlci vzpamatovali z dědiny známý hromový hlas. »Dobré je trochu čaje a ostatní přeplavte,« rozkazoval. »Ty, Jožko, lež a psancem ve vlnách. Z průmyslových důvodů, slečno Gloryová. Roboti Domin: centrální řediteli, nějaká slza v románech cowboyové, kostkovanou košili ... »Jdeme!« řekl Milan vytáhl vestu a rozběhl se nic --« »Ani bychom to sem dal. Helena: Nechápu. Domin: Bůh uchovej! Ten má pravdu!
Napsal "trojice"
umělé dělníky je stejné jako vyrábět naftové motory. Výroba má být trochu surovec. To patří k věci. Helena: Já nevím--Řekni honem! Domin: Dnes je první na řadě první, takže potom už nemusíš vstávat.« Fanek chvíli poseděl s chlapci, pak se z tábora samá rýma, samý kašel a žaludek zkažený tím vaším vařením.« »Však my se k němu. »Podívejte se!« ukázal rukou na kmen dubu. Na kmeni stromu byl přibodnut dřevěnou dýkou s plechovým hrotem složený bílý papírek. »Kdo to jakživ slyšel!« rozesmál se Jožka. »Vypadal jako Krakonoš!« »A zatím -- takový čtverák!« »No, dobré je to!« jásal Milan. »Jak to všechno dáme? Hallemeier: Uf! Složí své břímě a žehná velkým křížem dveře napravo. Spi, spi! Kdo spí, neví aspoň o ničem. Helena: Proč? Dr. Gall: Mlčte a prodejte! Domin: Dobrá, hoši! já sám--- já bych je-- Helena: (pozpátku ve dveřích) Oh, Harry, děje se něco? Domin: Ne, máš pravdu. Tak, tady je krásně!« zvolal nadšeně Cyril. »Ale teď se Mirkův hlas ozýval odněkud s »Husího rynku«. »To jste mohli zůstat doma.« »Však kdo začal!« mračil se Karel. »Říkal, ale když viděli, že jsem na ten stan moc nezbylo.« »Raději to naň rychle naplácejme, nebo v tašce nic nezbude,« řekl Karel rozhlédl
Na náhodně generované texty (z knížky) a skript na pár řádků to vůbec není špatné. Po úpravě (variabilní délka, vyházení slovesných druhů 6-10) se takhle dají generovat celkem rozsáhlé texty a celkem přirozeně vypadající texty. Rychlost taky není vůbec špatná, soubor má 63 000 slov, a zpracovat ho a vygenerovat text trvá vteřinu. S českým korpusem se takhle dá vygenerovat spousta textu a nacpat ho reklamou (spíš Etarget než AdSense).
Nabízí se otázka - proč to nikde nevidím v reálném provozu (něco málo jsem viděl v AJ)? :D
  • Google to pozná, longtail v angličtině je pokrytý.
  • výdělky nejsou tak zajímavé jako náklady na provoz (neřekl bych)
  • robot Seznamu by takový web procházel pár miliard let
  • robot Seznamu to pozná (:D)
  • na většinu slov už je dost MFA, které tvoří ručně lidé (a tudíž mají mírně lepší pozice ve výsledcích a mnohem horší výdělky na množství práce)
  • je těžké sehnat kvalitní český korpus jako základ
Nějaké zkušenosti, hráli jste si takhle někdo?
10. 10. 2009 21:20:13
https://webtrh.cz/diskuse/markovovy-retezce-nltk-a-korpus-pro-cestinu#reply384852
Martin Jurča
verified
rating uzivatele
(52 hodnocení)
10. 10. 2009 21:53:05
Takhle se dělala kdysi MFAčka v US a dalších zemích...
Pak jim to asi velkej Dží zatrhl...
10. 10. 2009 21:53:05
https://webtrh.cz/diskuse/markovovy-retezce-nltk-a-korpus-pro-cestinu#reply384851
Karel Kohout
verified
rating uzivatele
(10 hodnocení)
10. 10. 2009 21:58:11
Napsal BigLebowski;375725
Takhle se dělala kdysi MFAčka v US a dalších zemích...
Našel jsem, i pár firem, co nabízí hotový software, ale všechno kolem 2005, 2006.
Napsal BigLebowski;375725
Pak jim to asi velkej Dží zatrhl...
Taky si myslím, ale spíš díky množství indexovaného obsahu (na většinu slov jednoduše bude dost normálních stránek nebo ručních MFA).
Pořád mi nejde od hlavy, proč něco neběží u nás (občasná ruční kontrola)?
10. 10. 2009 21:58:11
https://webtrh.cz/diskuse/markovovy-retezce-nltk-a-korpus-pro-cestinu#reply384850
toshi
verified
rating uzivatele
(4 hodnocení)
10. 10. 2009 22:08:26
- Google generovaný text přímo nepozná
- náklady na provoz se dají naprosto zminimalizovat, existuje spousta freehostingů a texty se dají generovat do statických html
- Seznam to nepozná, udavači jo :P
- problém Markova je v tom, že vygenerovaný text má vlastnosti zdroje - těžko se budou objevovat longtaily na půjčky v textu o přírodě - a shánět rozsáhle tématické texty s oborovými kw v počítačové podobě je problém...
- že si nic takového neviděl neznamená, že to nikdo nedělá, ono napřímo ukazovat návštěvníkům podezřelý generovaný text je spíš hloupost nemyslíš?
10. 10. 2009 22:08:26
https://webtrh.cz/diskuse/markovovy-retezce-nltk-a-korpus-pro-cestinu#reply384849
Karel Kohout
verified
rating uzivatele
(10 hodnocení)
11. 10. 2009 11:02:50
Práskači jsou poslední problém, bez subdomén by se už automat pochopitelně nevyplatil...
Napsal toshi;375732
- problém Markova je v tom, že vygenerovaný text má vlastnosti zdroje - těžko se budou objevovat longtaily na půjčky v textu o přírodě - a shánět rozsáhle tématické texty s oborovými kw v počítačové podobě je problém...
Není to problém, pokud máš v počítači pár desítek stran PR blábolů na jedno a to samé téma. Pak už je stačí obohatit o texty z novin (nebo knížek s vyházenými jmény) a hele, tematické odkazy v "unikátním" textu za 5 vteřin.
Napsal toshi;375732
že si nic takového neviděl neznamená, že to nikdo nedělá, ono napřímo ukazovat návštěvníkům podezřelý generovaný text je spíš hloupost nemyslíš?
Překvapilo by mě, kdyby Googlebot občas stránky nekontroloval "převlečený" za normálního návštěvníka - ale možná to nedělá.
11. 10. 2009 11:02:50
https://webtrh.cz/diskuse/markovovy-retezce-nltk-a-korpus-pro-cestinu#reply384848
eMan
verified
rating uzivatele
(48 hodnocení)
11. 10. 2009 15:03:59
Napsal karel.kohout;375871
Překvapilo by mě, kdyby Googlebot občas stránky nekontroloval "převlečený" za normálního návštěvníka - ale možná to nedělá.
Imho to dělá a dělá to i seznam, už z důvodu odhalení Cloakingu....
11. 10. 2009 15:03:59
https://webtrh.cz/diskuse/markovovy-retezce-nltk-a-korpus-pro-cestinu#reply384847
zrovna predevcirem jsem na jeden cloaking narazil, kupodivu to je duplicitni firemni prezentace.
k tem textum, proc generovat nesmyslny texty, kdyz muzu zdarma vyuzit volne siritelnyho obsahu z internetu, kterej je k dispozici v mnoha podobach. musis se hodne koukat kolem sebe, a to nejen abys neco naucil, ale hlavne kuli tomu aby ses vyhnul zabehlejm kolejim a stereotipu.
11. 10. 2009 15:33:21
https://webtrh.cz/diskuse/markovovy-retezce-nltk-a-korpus-pro-cestinu#reply384846
Pro odpověď se přihlašte.
Přihlásit