Filtri Bayesiani

Data: 16 ott 2003


Sito on line dal 2003
Home page
email
Chi sono
Translation
ℐ filtri bayesiani sono basati sulla regola di Bayes, descritta esaurientemente dalla Stanford enciclopedia o in italiano da una semplice spiegazione. Permettono il calcolo della probabilità che un testo ricevuto sia di un certo tipo, per esempio spam, basandosi sui messaggi ricevuti in precedenza e classificati da un essere umano.

Innanzi tutto si suppongono le parole del testo indipendenti, cosa non vera ma che da buoni risultati pratici, il messaggio:
X = [x1, ... ,xn]
viene trattato come un vettore di v.a. (variabili aleatorie) indipendenti ed equidistribuite, ogni v.a. ha come realizzazione una parola del vocabolario. Dall'indipendenza segue che (considero l'evento spam):
P[ X = spam | X=(a1, ... ,an) ] = ∏i P[ X = spam | ai = xi]
Le ai sono semplicemente le parole del messaggio ricevuto. A questo punto si applica la regola di Bayes:

Kensan.it

                         P[ ai = xi | X = spam ]
P[ X = spam | ai = xi] = ------------------------ * P[ X = spam ]
P[ai]
Si applica la teoria frequentista e si calcolano le frequenze delle parole contenute nei messaggi riconosciuti dall'utente come spam:
P[ ai = xi | X = spam ] = frequenza della parola ai in 
tutti i messaggi di spam
Le frequenze delle parole a priori si possono trovare facilmente:
P[ai] = frequenza a priori della parola ai Le frequenze dei messaggi di spam sono banalmente cacolabili:
P[ X = spam ] = frequenza dello spam
Credo che il mio procedimento sia corretto e che almeno sia una spiegazione didattica. Il procedimento usato per esempio da Thunderbird che usa i filtri bayesiani non lo conosco ma l'argomento mi ha incuriosito.



Non dimenticatevi di mettere la vostra opinione: scrivete il commento, premete "Inserisci" e il commento è immediatamente pubblicato nell'area qui sotto: grazie!






Altri testi sullo stesso argomento li trovate elencati di seguito sotto l'argomento Matematica

Diaspora* button
-
Facebook button
0
Twitter button
-
Google+ button
0
LinkedIn button
0
TzeTze button
voti: 0
Data: 16 ott 2003
argomento: Matematica, articoli: Anonymous Remailer (GnuPG e la posta elettronica), Palladium, Cifrario matriciale, Nozioni di Crittografia, La precisione dei sondaggi, Sondaggi, Informazione di una Password

argomento: Spam, articoli: APEWS (la Black List)

argomento: Internet, articoli: HotSpot in Italia, Internet e Antonio Di Pietro, Avatar, TOR per affrontare la censura, Cambiare i DNS su Linux, Appunti di Storia, Email professionale

argomento: Thunderbird, articoli: Le news su Thunderbird: seguire le discussioni

ball animated




Firefox: Riprenditi il web






A proposito dei giornalisti...

Non dico affatto che lei menta, dico che lei non sarebbe nel posto che occupa se non scrivesse quello che scrive.






La legge determina le condizioni in cui si esercita la libertà garantita alla donna di ricorrere all'interruzione volontaria della gravidanza.

Nuovo articolo della costituzione francese: libertà garantita






L'intervento sull'aborto della Onorevole Gilda Sportiello in merito agli antiabortisti nei Consultori, in cui racconta la sua storia: il personale è politico

Intervento della Onorevole del M5S Sportiello Gilda alla Camera dei Deputati
kensan logo Licenza Creative Commons 3.0
I miei testi sono sotto la Licenza "Creative Commons 3.0 Italia": se sei interessato a pubblicare i miei articoli leggi le note aggiuntive (Licenza di kensan.it) dove troverai anche le attribuzioni dei diritti per tutte le immagini pubblicate.
Questo sito memorizza sul tuo pc uno o più cookie di tipo tecnico, leggi l'informativa estesa.
Kensan site

e-mail
e-mail cifrata