Zadejte hledaný výraz...

Bayesův filtr spamu – české vzory spamu a hamu

Pavel Straka
verified
rating uzivatele
(23 hodnocení)
9. 8. 2016 20:33:59
Dobrý večer, rád bych poprosil o radu.
Před časem jsem jako školní projekt zpracovával Bayesův filtr spamu v Javě. Stáhl jsem si nějaký vzorový korpus dat, kde byly stovky příkladů spamu a tisíce hamu (všechny texty byly v angličtině). Nyní bych chtěl podobný filtr aplikovat na český web, stáhl jsem si PHP třídu, ale pokud nemám k dispozici dostatečný vzorek dat (české vzory spamu a hamu), je mně k ničemu. Je někde něco takového k dispozici?
Děkuji za ochotu.
9. 8. 2016 20:33:59
https://webtrh.cz/diskuse/bayesuv-filtr-spamu-ceske-vzory-spamu-a-hamu#reply1216582
TomasX
verified
rating uzivatele
(4 hodnocení)
9. 8. 2016 21:47:43
jaký je účel?
Samozřejmě nic takového není k dispozici už z principu. Kdyby taková databáze existovala, přestala by plnit svůj účel. V současné době samotný obsah emailu již není pro označení jako spam určující, důležitý je technický stav emailu, servery přes které email přišel a samotný odesílatel, stejně tak jestli stejný email nedošel náhodou velkému množství schránek. Dobře působí i zpětná vazba od uživatelů (rychlé smazání, označení jak spam atd.), kontroluje se i samotná doména a její historie atd.
U náš v ČR je spam jasně legislativně vymezen. V ČR chodí několik druhu spamu (osobní zkušenost správce několika tisíců firemních schránek), obchodní nabídky (slevto.cz např.), podvodné emaily schovávající se za výzvu od banky/facebooku/operátora, výhružky a žádost o různou finanční podporu, různé hoaxy s žádostí o podporu, k tomu řada cizojazyčných.
Pro ale tvoji osobní analýzu bych spíše čerpal data z http://hoax.cz/hoax/databaze/ a k tomu bych ještě přehodnotil cíl a místo určování spamu bych raději viděl kategorizaci emailů a jejich tagování (obchodní nabídky, sociální sítě, soukromé zprávy atd. atd.).
9. 8. 2016 21:47:43
https://webtrh.cz/diskuse/bayesuv-filtr-spamu-ceske-vzory-spamu-a-hamu#reply1216581
Pro odpověď se přihlašte.
Přihlásit