Obecná diskuze na téma Spam napříč českým internetem

3. 6. 2010 08:22:06

Ahoj,

dnes jsem přemýšlel jaké jsou k dispozici možnosti jak řešit ochranu proti spamu, robotům a textům které obsahují nežádoucí výrazy došel jsem k závěru že jsou zde dvě základní techniky:

- ochrana kódem, který je reprezentován v jakékoliv podobě (obrázek tzv. captcha, logická otázka, atd.), tato technika spíš slouží k odstranění problému, kdy vám diskuze atd. zahlcují roboti, ale již neřeší obsah a význam textu.

- další možností je klasifikace vstupu podle různých metod, které jsou běžně používané v antispamové kontrole emailů nebo úplně základní metody.

Základní metody jsou jednoduché vyhledávání zakázaných slov či výrazů ve vstupním textu, dále jsou složitější algoritmy, které jsou postaveny na Bayesově teorému (http://bayesuv-teorem.navajo.cz/), a n-gramových modelech (http://en.wikipedia.org/wiki/N-gram) kdy máme třídy reprezující spamy a pomoci algoritmu zjišťujeme pravděpodobnost podobnosti vstupu s danou třídou. Selsky popsáno, v databázi máme například uloženo 10 000 záznamu textu různé délky o kterých víme, že jsou spamem tyto data se zpracují do n-gramového modelu (2 nebo 3-gramový - trigram model), my vezmeme vstup u kterého chceme zjistit jestli se jedná o spam, ten převedemé natké na model a pomocí Baysova teorému zjistíme jak moc text odpovídá předpokladu, že se jedná o spam. Pro zajímavost tato metoda se třeba používá i pro rozpoznání jazyku ve kterém je text napsán nebo klasifikaci textu o jakém tématu píše jako sport, politika atd.

Zásadní problém v používání captchy je ten, že zamezuje pouze automatickému spamování, ale neřeší již jestli text je závadný (obsahuje sprostá slova, či má rasistický podtext, obsahuje odkazy na warez atd.).

Mě by zajímalo jaké vy osobně techniky používáte ve svých systémech, kolik času vám zabere řešení správy spamu, jako odstranění, kontrola záznamů od uživatelů, jestli používáte nějaké automatické techniky pro predicky, že se jedná o spam atd. Předpokládám, že jako základní kontrola bude převažovat captcha, která bude zamezovat práci robotům a dále budete využívat základních technik vyhledávání zakázaných slov.

Dále by mě zajímalo jak to mají například řešeny velké deníky jako idnes, novinky atd., jestli mají systémy které automaticky klasifikují příspěvky v diskuzích a ty potom automaticky odstraňují nebo ještě kontrolují jestli se opravdu jedná o závadný obsah.

Byl bych rád kdyby se do této diskuze zapojilo co nejvíce lidí, abych znal jejich zkušenosti a postřehy.

A poslední otázka je měli byste zájem o službu, která by vám poskytovala možnost automatické kontrolu vstupu, sama by zjistila s jakou pravděpodobností vstup odpovídá spamu a upozornila vás na to. Jednalo by se o API, které by programátorovi poskytovalo možnost tuto kontrolu realizovat a posléze z výsledků vyhodnotit závěry. Například, jestliže komentář bude ohodnocen že se pravděpodobně jedná o spam tak bude nepublikován, až do té doby dokud jej nepovolíte, nebo automaticky může být smazán atd.

Eventuálně mě můžete kontaktovat v PM, jestliže budete mít zájem se dozvědět více o antispamové ochraně.

Bc. Petr Vytlačil

4People - Webdesign a reklama na internetu

www.4people.cz

3. 6. 2010 08:22:06

https://webtrh.cz/diskuse/obecna-diskuze-na-tema-spam-napric-ceskym-internetem#reply512227

Tomáš Faldyna

(54 hodnocení)

3. 6. 2010 18:33:33

Captcha je vetsinou spolehlive reseni, bohuzel obcas da i cloveku zabrat (napr zname kocky na rapidshare). Osobne pouzivam pole "co je na obrazku" - samozrejme s jednoznacnym obsahem, nebo pole s textem "smazte tento text" - odesle se prave prazdna hodnota.

Urcite je to lepsi nez prepisovat nejake W7t9iCmV nebo pocitani cisel... kazdopadne overovacich metod je nespocet

3. 6. 2010 18:33:33

https://webtrh.cz/diskuse/obecna-diskuze-na-tema-spam-napric-ceskym-internetem#reply512226

Tomáš Mašek

(20 hodnocení)

4. 6. 2010 13:51:39

Osvedcilo sa pouzitie nejakej jednoduchej otazky (kolko je na ruke prstov.. apod.), ktora je navyse javascriptom ukryta a zaroven je javascriptom prednastavena spravna odpoved. Bezny uzivatel so zapnutym javascriptom (velka väcsina ludi), vobec ziadnu otazku neuvidi. Tych par percent, co ma vypnuty javascript, musi na nu zodpovedat. No a bot nou neprejde. Za cca 3/4 roka pouzivania na niektorych weboch nedosiel ziadny spam.

(tuto techniku som vycital na nejakom CZ webe, nie je to moj napad :))

4. 6. 2010 13:51:39

https://webtrh.cz/diskuse/obecna-diskuze-na-tema-spam-napric-ceskym-internetem#reply512225

Pro odpověď se přihlašte.

Přihlásit