un clasificator este un model de învățare mașină, care este folosit pentru a discrimina diferite obiecte bazate pe anumite caracteristici.
principiul naive Bayes clasificator:
un naive Bayes clasificator este un model probabilistic mașină de învățare, care este utilizat pentru sarcina de clasificare. Esența Clasificatorului se bazează pe teorema Bayes.,
Teorema Bayes:
Folosind teorema Bayes, putem găsi probabilitatea ca Un întâmplă, având în vedere că B are loc. Aici, B este dovada și A este ipoteza. Presupunerea făcută aici este că predictorii / caracteristicile sunt independente. Aceasta este prezența unei caracteristici particulare nu afectează cealaltă. Prin urmare, se numește naiv.
exemplu:
Să luăm un exemplu pentru a obține o intuiție mai bună., Luați în considerare problema de a juca golf. Setul de date este reprezentat după cum urmează.
Vom clasifica dacă a doua zi este potrivit pentru a juca golf, având în vedere caracteristicile de zi. Coloanele reprezintă aceste caracteristici, iar rândurile reprezintă intrări individuale. Dacă luăm primul rând al setului de date, putem observa că nu este potrivit pentru a juca golf dacă perspectiva este ploioasă, temperatura este caldă, umiditatea este ridicată și nu este vânt., Facem două ipoteze aici, una după cum sa menționat mai sus, considerăm că acești predictori sunt independenți. Adică, dacă temperatura este fierbinte, nu înseamnă neapărat că umiditatea este ridicată. O altă presupunere făcută aici este că toți predictorii au un efect egal asupra rezultatului. Adică, ziua fiind vânt nu are mai multă importanță în decizia de a juca golf sau nu.,
Conform acestui exemplu, teorema Bayes poate fi rescrisă ca:
variabila y este variabil clasă(de a juca golf), ceea ce reprezintă, dacă acesta este potrivit pentru a juca golf sau nu, având în vedere condițiile. Variabila X reprezintă parametrii / caracteristicile.,
X este dat ca,
Aici x_1,x_2….x_n reprezintă caracteristicile, adică pot fi mapate la outlook, temperatură, umiditate și vânt., Înlocuind X și extinderea folosind regula lanț ajungem,
Acum, puteți obține valorile pentru fiecare uitandu-se la set de date și să le înlocuiască în ecuație. Pentru toate intrările din setul de date, numitorul nu se schimbă, acesta rămâne static. Prin urmare, numitorul poate fi eliminat și poate fi introdusă o proporționalitate.,
În cazul nostru, clasa variabilă(y) are doar două rezultate, da sau nu. Ar putea exista cazuri în care clasificarea ar putea fi multivariată. Prin urmare, trebuie să găsim clasa y cu probabilitate maximă.,
Folosind funcția de mai sus, putem obține clasă, dat fiind predictori.acest lucru este folosit mai ales pentru problema de clasificare a documentelor, adică dacă un document aparține categoriei de sport, politică, tehnologie etc. Caracteristicile / predictorii utilizați de clasificator sunt frecvența cuvintelor prezente în document.,
Bernoulli Naive Bayes:
Acest lucru este similar cu Bayes naive multinomiale, dar predictorii sunt variabile booleene. Parametrii pe care îi folosim pentru a prezice variabila de clasă preiau doar valori da sau nu, de exemplu dacă un cuvânt apare în text sau nu.când predictorii preiau o valoare continuă și nu sunt discrete, presupunem că aceste valori sunt eșantionate dintr-o distribuție gaussiană.,
Since the way the values are present in the dataset changes, the formula for conditional probability changes to,
Conclusion:
Naive Bayes algorithms are mostly used in sentiment analysis, spam filtering, recommendation systems etc., Ele sunt rapide și ușor de implementat, dar cel mai mare dezavantaj al acestora este că cerința predictorilor de a fi independenți. În majoritatea cazurilor din viața reală, predictorii sunt dependenți, ceea ce împiedică performanța Clasificatorului.