Zadejte hledaný výraz...

Open refine = porovnání hodnot ve dvou sloupcích stejného projektu

Luděk Kvapil
verified
rating uzivatele
25. 3. 2015 11:37:25
Nějak se mi nedaří zjistit / eliminovat duplicity mezi sloupcem email a k_mail. Oba sloupce jsou ve stejném projektu. Jak na to?
25. 3. 2015 11:37:25
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101291
Udělat sloupec založený na sloupci email a dát do něj facetCount(value, "value", "k_mail"), pokud je výsledek větší než 0, jedná se o duplicitu.
25. 3. 2015 12:28:53
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101290
Luděk Kvapil
verified
rating uzivatele
26. 3. 2015 10:48:34
Napsal smitka;1180393
Udělat sloupec založený na sloupci email a dát do něj facetCount(value, "value", "k_mail"), pokud je výsledek větší než 0, jedná se o duplicitu.
jj.. díky.. Funguje to :)
---------- Příspěvek doplněn 26.03.2015 v 11:03 ----------
Tak jsem si našel učebnici. Je dokonce v NKP v elektronické verzi ke stažení, takže už "je doma" :)
Je to tahle
26. 3. 2015 10:48:34
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101289
O ní jsem chtěl napsat :-) K tomu bych doporučoval http://www.jython.org/jythonbook/en/1.0/ protože mimo GREL je to další jazyk, se kterým jde v refine pracovat. Dobré věci se dají najít na http://googlerefine.blogspot.cz/.
Uvažujeme, že uděláme na refine i nějaké školení, protože se v něm u nás pracuje už poměrně dlouho prakticky každý den.
26. 3. 2015 11:13:34
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101288
Luděk Kvapil
verified
rating uzivatele
30. 3. 2015 14:42:48
Ještě bych měl jeden dotaz. Jak udělat v OpenRefine skloňování v 5. pádě?
např. sloupec A bude příjmení a sloupec B oslovení. Mám takové schéma, jak se v češtině skloňuje. Třeba ák je na ku. Když to ovšem nechám zaměnit, tak mi to zamění všude, ne jen na konci slova. Navíc někde se jedná o poslední dvě písmena a někde poslední tři...
A: Novák
B: ??
30. 3. 2015 14:42:48
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101287
Nejjednodušší je to asi pomocí dotazu na externí službu - někde si rozjet službu, která umí skloňovat (např. pomocí http://www.pteryx.net/sklonovani.html) a bude vracet vyskloňované slovo z parametru v odpovědi a pak si vytvořit sloupec založený na A jako fetch url:
Možná bude existovat nějaká knihovna pro jython, ale takto mi to přijde opravdu nejjednodušší, děláme tak spousty věcí.
Samozřejmě to není 100% funkční, ale vyskloňuje toho vcelku dost :-)
30. 3. 2015 17:55:30
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101286
Luděk Kvapil
verified
rating uzivatele
31. 3. 2015 17:08:50
O.k. - už jsem našel web, kde to mají i jako parametr URL, tak už fetchuju: "http://www.kyblsoft.cz/prevedna5pad?prevedtext=" + value
---------- Příspěvek doplněn 01.04.2015 v 12:08 ----------
Tak to jsem si načetl ten web, dokonce ve správném formátování. Když ovšem dám value.parseHtml().select("div#hlavnipruh").toString(), tak se mi to přepíše do jiného kódování či co.. Každopádně to neumí česky. 'Web je v UFT-8, tak jsem zkusil value.reinterpret("utf-8"), ale to nezabírá. Místo čárek píše nesmysly (např.: "Ukázka zpracování českého textu skriptem: Napište své jméno (můžete i víceslovné) a skript ho převede do 5. pádu: " )
Čím to může být? Vzniká to až při tom parsování HTML
---------- Příspěvek doplněn 01.04.2015 v 12:09 ----------
Jinak ten pteryx.net to má v JavaScriptu, takže se nedá fetchovat výraz z URL. Chce to script v PHP
31. 3. 2015 17:08:50
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101285
Šel bych na to takto:
toString převede objekt na jeho textovou reprezentaci a pokud by byl použit, tak je třeba ještě k němu zavolat funkci .unescape("html"), která nahradí html entity.
---------- Příspěvek doplněn 01.04.2015 v 12:28 ----------
Jinak ten pteryx.net to má v JavaScriptu, takže se nedá fetchovat výraz z URL. Chce to script v PHP
To jo, ale níže na webu je k dispozici php skript ke stažení se stejnou funkcionalitou.
1. 4. 2015 12:26:38
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101284
Luděk Kvapil
verified
rating uzivatele
3. 4. 2015 20:55:52
Tak jsem to skloňování nakonec vyřešil přes .csv, které jsem ulovil na netu.. Vždy příjmení a 5. pád. V pohodě jsem to načetl i z jiného projektu.
Teď u jiného projektu se snažím spárovat xml feed z heureky a můj interní seznam zboží. No a tak jsem to zkoušel podle eanu, ale jen někde se to spáruje, ale u většiny se to nespáruje, přestože tam ta data jsou a jinak to párování z části funguje. Uvažoval jsem, že je to typem dat, tak jsem dal všechny sloupce na text a stejně to nepomohlo. Nechtějí se párovat, přestože tam jsou v obou sloupcích..
Dále řeším další pokus. Extrahovat meta description. Normálně si udělám fetch té URL, ale nedaří se mi extrahovat text z meta description. Zatím umím jen ten text v html. Tuším, že to bude asi přes innerHtml(), ale nedaří se mi sestavit funkční příkaz.
Jo a jde nějak fetchovat jen část toho html kódu z dané URL, nebo musím vždy načíst celou stránku a pak z ní to teprve extrahovat?
3. 4. 2015 20:55:52
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101283
Meta description jednoduše:
Je třeba si uvědomit, že selecty vrací pole.
Fatchovat část kódu nelze, je třeba stáhnout vše. Když pracuji s načítáním dat, tak si do sloupečku ukládám stažený surový výsledek a s ním pak dále pracuji.
---------- Příspěvek doplněn 04.04.2015 v 09:44 ----------
Doporučuji pročíst http://jsoup.org/cookbook/extracting-data/selector-syntax
4. 4. 2015 09:14:44
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101282
Luděk Kvapil
verified
rating uzivatele
30. 4. 2015 14:57:36
TeĎ řeším jednu záludnost, kterou neumím vyřešit ani vygooglovat... Hodnoty v řádku se mi zalamují na dva řádky. Potřeboval bych to v jednom řádku jen s mezerama, bez zalomení... Jak to lze udělat?
30. 4. 2015 14:57:36
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101281
To záleží kde jsou zalomené. Vyměnit nové řádky za mezeru lze v datech jednoduše pomocí
Mimochodem, zrovna o Refine bude mít kolega workshop na této akci: http://www.marketacinavysocine.cz/5-sraz-workshop-jakub-kasparu/
Bude zde ukazovat i některé naše doplňky: https://www.youtube.com/watch?v=EwCiQ4408Tg
30. 4. 2015 15:11:08
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101280
Luděk Kvapil
verified
rating uzivatele
19. 8. 2015 12:42:03
Ještě bych měl jeden dotaz... Mám sloupec popis a tam je "TDA 150 C Kondenzační sušička T Classics FragranceDos pro svěží vůni prádla za výhodnou cenu". Pak je sloupec jméno a tam je "TDA 150 C". Jde nějak odebrat ten text obsažený ve sloupci jméno ze sloupce popis? value.split použít nemůžu, protože to jméno je pokaždé jiné...
19. 8. 2015 12:42:03
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101279
Udelal bych sloupec zalezenej na sloupci popis:
---------- Příspěvek doplněn 19.08.2015 v 13:12 ----------
nebo využít toho, že je název vždy na začátku a prostě to oříznout prvních x znaků, kde x je délka jména - cca:
19. 8. 2015 13:01:28
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101278
Luděk Kvapil
verified
rating uzivatele
27. 8. 2015 15:11:35
Už zase bloudím.. Tak nějak jsem pochopil, že aktuální problém se řeší přes forEach, ale vůbec netuším, jak to aplikovat... Ty návody jsou psané příliš obecně, nebo řeší něco jiného.
16551
Mám jeden záznam na více řádků, ale byl bych rád, kdyby byl v jednom řádku.. Třeba to šoupnout do jednoho pole oddělené středníkem, to už si umím rozsekat. Jen nevím, jak to do toho jednoho pole narvat. Jde o ten sloupec value, kde je prostě více hodnot, které patří ke stejnému produktu.
27. 8. 2015 15:11:35
https://webtrh.cz/diskuse/open-refine-porovnani-hodnot-ve-dvou-sloupcich-stejneho-projektu/#reply1101277
Pro odpověď se přihlašte.
Přihlásit