Filtri Bayesiani
I filtri bayesiani sono basati sulla regola di Bayes, descritta esaurientemente dalla Stanford enciclopedia o in italiano da una semplice spiegazione. Permettono il calcolo della probabilità che un testo ricevuto sia di un certo tipo, per esempio spam, basandosi sui messaggi ricevuti in precedenza e classificati da un essere umano.

Innanzi tutto si suppongono le parole del testo indipendenti, cosa non vera ma che da buoni risultati pratici, il messaggio:
X = [x1, ... ,xn]
viene trattato come un vettore di v.a. (variabili aleatorie) indipendenti ed equidistribuite, ogni v.a. ha come realizzazione una parola del vocabolario. Dall'indipendenza segue che (considero l'evento spam):
P[ X = spam | X=(a1, ... ,an) ] = ∏i P[ X = spam | ai = xi]
Le ai sono semplicemente le parole del messaggio ricevuto. A questo punto si applica la regola di Bayes:
                         P[ ai = xi | X = spam ]
P[ X = spam | ai = xi] = ------------------------ * P[ X = spam ]
P[ai]
Si applica la teoria frequentista e si calcolano le frequenze delle parole contenute nei messaggi riconosciuti dall'utente come spam:
P[ ai = xi | X = spam ] = frequenza della parola ai in 
tutti i messaggi di spam
Le frequenze delle parole a priori si possono trovare facilmente:
P[ai] = frequenza a priori della parola ai Le frequenze dei messaggi di spam sono banalmente cacolabili:
P[ X = spam ] = frequenza dello spam
Credo che il mio procedimento sia corretto e che almeno sia una spiegazione didattica. Il procedimento usato per esempio da Thunderbird che usa i filtri bayesiani non lo conosco ma l'argomento mi ha incuriosito.


Sandro kensan Data: 16 ott 2003
Letture di questo articolo: 1377

Firefox: Riprenditi il web


Firefox è stato scaricato 1 miliardi 312 milioni 797 mila 759 volte.









affinché l'italia non dimentichi le leggi razziali
Fonte NO(b)LOGO/hidden_side, licenza CC
Questo articolo tratta argomenti che sono trattati anche negli articoli:
(Il link all'argomento porta alla descrizione sommaria di tutti gli articoli aventi lo stesso tema)

argomento: Matematica, articoli: Anonymous Remailer (GnuPG e la posta elettronica), Palladium, Cifrario matriciale, Nozioni di Crittografia

argomento: Spam, articoli: SPEWS (la Black List)

argomento: Internet, articoli: Telnet per spedire la posta, Spedire la posta con Telnet (di ViCisLAcK), Censura (bavaglio alla rete delle reti), Carta dei diritti della Rete (Tunisi mon Amour), Internet e Antonio Di Pietro, Censura a Facebook, Google Sidewiki

Ciao Anonimo, commenta questo articolo!

NON ci sono ancora COMMENTI per questo articolo :

commenti abilitati per gli anonimi
Commenti sperimentali
by kensan & Mp
www.kensan.it Licenza Creative Commons 2.0
I miei testi sono sotto la Licenza "Creative Commons 2.0 Italia": se sei interessato a pubblicare i miei articoli leggi le note aggiuntive.
Questo sito usa Google AdSense come sistema pubblicitario e memorizza sul tuo pc uno o più cookie, leggi l'informativa sulla privacy che ti riguarda.
Kensan geek site

e-mail