|
|
|||||||||
|
I
filtri bayesiani sono basati sulla regola di Bayes, descritta
esaurientemente dalla Stanford
enciclopedia o in italiano da
una semplice
spiegazione. Permettono il
calcolo della
probabilità che un testo ricevuto sia di un certo tipo, per
esempio spam, basandosi sui messaggi ricevuti in precedenza e
classificati da un essere umano. Innanzi tutto si suppongono le parole del testo indipendenti, cosa non vera ma che da buoni risultati pratici, il messaggio: X = [x1, ... ,xn]viene trattato come un vettore di v.a. (variabili aleatorie) indipendenti ed equidistribuite, ogni v.a. ha come realizzazione una parola del vocabolario. Dall'indipendenza segue che (considero l'evento spam): P[ X = spam | X=(a1, ... ,an) ] = ∏i P[ X = spam | ai = xi]Le ai sono semplicemente le parole del messaggio ricevuto. A questo punto si applica la regola di Bayes: P[ ai = xi | X = spam ]Si applica la teoria frequentista e si calcolano le frequenze delle parole contenute nei messaggi riconosciuti dall'utente come spam: P[ ai = xi | X = spam ] = frequenza della parola ai inLe frequenze delle parole a priori si possono trovare facilmente: P[ai] = frequenza a priori della parola ai Le frequenze dei messaggi di spam sono banalmente cacolabili: P[ X = spam ] = frequenza dello spamCredo che il mio procedimento sia corretto e che almeno sia una spiegazione didattica. Il procedimento usato per esempio da Thunderbird che usa i filtri bayesiani non lo conosco ma l'argomento mi ha incuriosito.
|
![]() Firefox è stato scaricato 1 miliardi 312 milioni 797 mila 758 volte. IL TUO 5 PER MILLE PER GLI OSPEDALI DI EMERGENCY codice fiscale: 971 471 101 55 lo scorso anno i fondi sono stati usati cosė
WANTED Ricercato dall'Interpol, Reato: pedofilia, Residenza: Italia o Francia, parla perfettamente l'italiano, Nome: Christopher Ward DEININGER. Scheda Interpol |
|||||||||
|
Questo articolo tratta argomenti che sono trattati anche negli articoli: (Il link all'argomento porta alla descrizione sommaria di tutti gli articoli aventi lo stesso tema) argomento: Matematica, articoli: Anonymous Remailer (GnuPG e la posta elettronica), Palladium, Cifrario matriciale, Nozioni di Crittografia argomento: Spam, articoli: SPEWS (la Black List) argomento: Internet, articoli: Internet via GPRS, Fiorello Cortiana (partito dei Verdi), Internet via GPRS: TELIT MG10, Legge Levi-Prodi, Astroturfer, Google Sidewiki, Configurare una Internet key argomento: Thunderbird, articoli: Avatar |
||||||||||
|
||||||||||
|
||||||||||