Filtri Bayesiani
I filtri bayesiani sono basati sulla regola di Bayes, descritta esaurientemente dalla Stanford enciclopedia o in italiano da una semplice spiegazione. Permettono il calcolo della probabilità che un testo ricevuto sia di un certo tipo, per esempio spam, basandosi sui messaggi ricevuti in precedenza e classificati da un essere umano.

Innanzi tutto si suppongono le parole del testo indipendenti, cosa non vera ma che da buoni risultati pratici, il messaggio:
X = [x1, ... ,xn]
viene trattato come un vettore di v.a. (variabili aleatorie) indipendenti ed equidistribuite, ogni v.a. ha come realizzazione una parola del vocabolario. Dall'indipendenza segue che (considero l'evento spam):
P[ X = spam | X=(a1, ... ,an) ] = ∏i P[ X = spam | ai = xi]
Le ai sono semplicemente le parole del messaggio ricevuto. A questo punto si applica la regola di Bayes:
                         P[ ai = xi | X = spam ]
P[ X = spam | ai = xi] = ------------------------ * P[ X = spam ]
P[ai]
Si applica la teoria frequentista e si calcolano le frequenze delle parole contenute nei messaggi riconosciuti dall'utente come spam:
P[ ai = xi | X = spam ] = frequenza della parola ai in 
tutti i messaggi di spam
Le frequenze delle parole a priori si possono trovare facilmente:
P[ai] = frequenza a priori della parola ai Le frequenze dei messaggi di spam sono banalmente cacolabili:
P[ X = spam ] = frequenza dello spam
Credo che il mio procedimento sia corretto e che almeno sia una spiegazione didattica. Il procedimento usato per esempio da Thunderbird che usa i filtri bayesiani non lo conosco ma l'argomento mi ha incuriosito.


Sandro kensan Data: 16 ott 2003
Letture di questo articolo: 1492

Firefox: Riprenditi il web


Firefox è stato scaricato 1 miliardi 312 milioni 797 mila 758 volte.



IL TUO 5 PER MILLE PER GLI OSPEDALI DI EMERGENCY codice fiscale:
971 471 101 55

lo scorso anno i fondi sono stati usati cosė









Ricercato dall'Interpol
WANTED

Ricercato dall'Interpol, Reato: pedofilia, Residenza: Italia o Francia, parla perfettamente l'italiano, Nome: Christopher Ward DEININGER.
Scheda Interpol
Questo articolo tratta argomenti che sono trattati anche negli articoli:
(Il link all'argomento porta alla descrizione sommaria di tutti gli articoli aventi lo stesso tema)

argomento: Matematica, articoli: Anonymous Remailer (GnuPG e la posta elettronica), Palladium, Cifrario matriciale, Nozioni di Crittografia

argomento: Spam, articoli: SPEWS (la Black List)

argomento: Internet, articoli: Internet via GPRS, Fiorello Cortiana (partito dei Verdi), Internet via GPRS: TELIT MG10, Legge Levi-Prodi, Astroturfer, Google Sidewiki, Configurare una Internet key

argomento: Thunderbird, articoli: Avatar

Ciao Anonimo, commenta questo articolo!

NON ci sono ancora COMMENTI per questo articolo :

commenti abilitati per gli anonimi
Commenti sperimentali
by kensan & Mp
www.kensan.it Licenza Creative Commons 2.0
I miei testi sono sotto la Licenza "Creative Commons 2.0 Italia": se sei interessato a pubblicare i miei articoli leggi le note aggiuntive.
Questo sito usa Google AdSense come sistema pubblicitario e memorizza sul tuo pc uno o pių cookie, leggi l'informativa sulla privacy che ti riguarda.
Kensan geek site

e-mail