un classificateur est un modèle d’apprentissage automatique utilisé pour discriminer différents objets en fonction de certaines fonctionnalités.
principe du Classificateur naïf Bayes:
un classificateur naïf Bayes est un modèle probabiliste d’apprentissage automatique utilisé pour la tâche de classification. Le nœud du classificateur est basé sur le théorème de Bayes.,
Théorème de Bayes:
à l’Aide du théorème de Bayes, nous pouvons trouver la probabilité d’Un fait, étant donné que B a eu lieu. Ici, B est la preuve et A est l’hypothèse. L’hypothèse faite ici est que les prédicteurs / caractéristiques sont indépendants. C’est-à-dire que la présence d’une caractéristique particulière n’affecte pas l’autre. Par conséquent, il est appelé naïf.
Exemple:
prenons un exemple, pour obtenir une meilleure intuition., Considérez le problème de jouer au golf. L’ensemble de données est représenté comme ci-dessous.
Nous classons à savoir si le jour est adapté pour jouer au golf, étant donné les caractéristiques de la journée. Les colonnes représentent ces entités et les lignes représentent des entrées individuelles. Si nous prenons la première ligne de l’ensemble de données, nous pouvons observer que ne convient pas pour jouer au golf si les perspectives sont pluvieuses, la température est chaude, l’humidité est élevée et il n’y a pas de vent., Nous faisons deux hypothèses ici, comme indiqué ci-dessus, nous considérons que ces prédicteurs sont indépendants. Autrement dit, si la température est chaude, cela ne signifie pas nécessairement que l’humidité est élevée. Une autre hypothèse faite ici est que tous les prédicteurs ont un effet égal sur le résultat. Autrement dit, la journée étant venteuse n’a pas plus d’importance pour décider de jouer au golf ou non.,
Selon cet exemple, le théorème de Bayes peut être réécrit comme suit:
La variable y est la variable de classe(jeu de golf), ce qui représente si il est adapté pour jouer au golf ou pas étant donné les conditions. La Variable X représente les paramètres / caractéristiques.,
X est donné comme,
Ici, x_1,x_2….x_n représentent les fonctionnalités, c’est-à-dire qu’elles peuvent être mappées à outlook, température, humidité et vent., En substituant X et de l’expansion de l’aide de la chaîne de la règle que nous obtenons,
Maintenant, vous pouvez obtenir les valeurs pour chaque en regardant le jeu de données et de les remplacer dans l’équation. Pour toutes les entrées de l’ensemble de données, le dénominateur ne change pas, il reste statique. Par conséquent, le dénominateur peut être supprimé et une proportionnalité peut être introduite.,
Dans notre cas, la variable de classe(y) a seulement deux résultats, oui ou non. Il pourrait y avoir des cas où la classification multivariée. Par conséquent, nous devons trouver la classe y avec une probabilité maximale.,
à l’Aide de la fonction ci-dessus, nous pouvons obtenir la classe, étant donné les prédicteurs.
Types de classificateur naïf Bayes:
ceci est principalement utilisé pour le problème de classification des documents, c’est-à-dire si un document appartient à la catégorie des sports, de la Politique, de la technologie, etc. Les fonctionnalités/prédicteurs utilisés par le classificateur sont la fréquence des mots présents dans le document.,
Bayes naïves de Bernoulli:
ceci est similaire aux bayes naïves multinomiales mais les prédicteurs sont des variables booléennes. Les paramètres que nous utilisons pour prédire la variable de classe ne prennent que des valeurs oui ou non, par exemple si un mot apparaît dans le texte ou non.
Bayes naïves gaussiennes:
lorsque les prédicteurs prennent une valeur continue et ne sont pas discrets, nous supposons que ces valeurs sont échantillonnées à partir d’une distribution gaussienne.,
Since the way the values are present in the dataset changes, the formula for conditional probability changes to,
Conclusion:
Naive Bayes algorithms are mostly used in sentiment analysis, spam filtering, recommendation systems etc., Ils sont rapides et faciles à mettre en œuvre, mais leur plus grand inconvénient est que l’exigence de prédicteurs indépendants. Dans la plupart des cas réels, les prédicteurs sont dépendants, ce qui entrave les performances du Classificateur.