Trasparenza, Glasnost, Transparency

Filtri Bayesiani

Data: 16 ott 2003


Sito on line dal 2003
Home page
email
Chi sono
Translation
I filtri bayesiani sono basati sulla regola di Bayes, descritta esaurientemente dalla Stanford enciclopedia o in italiano da una semplice spiegazione. Permettono il calcolo della probabilità che un testo ricevuto sia di un certo tipo, per esempio spam, basandosi sui messaggi ricevuti in precedenza e classificati da un essere umano.

Innanzi tutto si suppongono le parole del testo indipendenti, cosa non vera ma che da buoni risultati pratici, il messaggio:
X = [x1, ... ,xn]
viene trattato come un vettore di v.a. (variabili aleatorie) indipendenti ed equidistribuite, ogni v.a. ha come realizzazione una parola del vocabolario. Dall'indipendenza segue che (considero l'evento spam):
P[ X = spam | X=(a1, ... ,an) ] = ∏i P[ X = spam | ai = xi]
Le ai sono semplicemente le parole del messaggio ricevuto. A questo punto si applica la regola di Bayes:
                         P[ ai = xi | X = spam ]
P[ X = spam | ai = xi] = ------------------------ * P[ X = spam ]
P[ai]
Si applica la teoria frequentista e si calcolano le frequenze delle parole contenute nei messaggi riconosciuti dall'utente come spam:
P[ ai = xi | X = spam ] = frequenza della parola ai in 
tutti i messaggi di spam
Le frequenze delle parole a priori si possono trovare facilmente:
P[ai] = frequenza a priori della parola ai Le frequenze dei messaggi di spam sono banalmente cacolabili:
P[ X = spam ] = frequenza dello spam
Credo che il mio procedimento sia corretto e che almeno sia una spiegazione didattica. Il procedimento usato per esempio da Thunderbird che usa i filtri bayesiani non lo conosco ma l'argomento mi ha incuriosito.

Se siete persone comunicative non dimenticatevi di mettere la vostra opinione: scrivete il commento, premete "Inserisci" e chiudete la pagina: grazie!



lepre veloce



Altri testi sullo stesso argomento li trovate elencati di seguito sotto l'argomento Matematica

Diaspora* button
-
Facebook button
0
Twitter button
-
Google+ button
0
LinkedIn button
0
TzeTze button
voti: 0
Data: 16 ott 2003
Letture di questo articolo: 2869
argomento: Matematica, articoli: Anonymous Remailer (GnuPG e la posta elettronica), Palladium, Cifrario matriciale, Nozioni di Crittografia, La precisione dei sondaggi, Sondaggi, Informazione di una Password

argomento: Spam, articoli: APEWS (la Black List)

argomento: Internet, articoli: Telnet per spedire la posta, Gestione dei contenuti di kensan.it (CMS), Prima censura in Italia ad Internet (censura alla cinese), Stampa clandestina, Internet di una volta, Cercare domini liberi, Le perdite dei giornali on line

argomento: Thunderbird, articoli: Avatar, Le news su Thunderbird: seguire le discussioni


Firefox: Riprenditi il web




Statistiche Europee d'uso dei browser 20/02/2017 :
Chrome...55%
Firefox..20%
IE.......9%
Safari...6%

Fonte: StatCounter

Borsa valori della moneta Bitcoin (20/02/2017):

prezzo di 1 bitcoin:
990.98 €
LTC
DRK


Fonte: Bitcoincharts.com

Sostieni Wikileaks!
Se hai qualche bitcoin fai una donazione a wikileaks all'indirizzo:
1HB5XMLmzFVj8ALj6 mfBsbifRoD4miY36v

Queste sono le donazioni fatte fin'ora: 4014 bitcoin.




L'intero sito kensan.it ha avuto questi Share:

facebook: 6105
twitter: -
google+: 57
linkedIn: 0




IL TUO 5 PER MILLE PER GLI OSPEDALI DI EMERGENCY codice fiscale:
971 471 101 55







Ciao Anonimo, commenta questo articolo!

NON ci sono ancora COMMENTI per questo articolo :

commenti abilitati per gli anonimi
Commenti sperimentali
by kensan & Mp
Pubblicità
kensan logo Licenza Creative Commons 3.0
I miei testi sono sotto la Licenza "Creative Commons 3.0 Italia": se sei interessato a pubblicare i miei articoli leggi le note aggiuntive dove troverai anche le attribuzioni dei diritti per tutte le immagini pubblicate.
Questo sito memorizza sul tuo pc uno o più cookie di tipo tecnico, leggi l'informativa estesa.
Kensan geek site

e-mail
e-mail cifrata