comprendre la forêt aléatoire

S’assurer que les modèles se diversifient

alors, comment la forêt aléatoire s’assure-t-elle que le comportement de chaque arbre individuel n’est pas trop corrélé avec le comportement d’aucun des autres arbres du modèle? Il utilise les deux méthodes suivantes:

ensachage (agrégation Bootstrap) — les arbres de décision sont très sensibles aux données sur lesquelles ils sont formés — de petites modifications apportées à l’ensemble de formation peuvent entraîner des structures d’arbres significativement différentes., Random forest tire parti de cela en permettant à chaque arbre individuel d’échantillonner aléatoirement à partir de l’ensemble de données avec remplacement, ce qui donne des arbres différents. Ce processus est connu sous le nom d’ensachage.

notez qu’avec l’ensachage, nous ne sous-définissons pas les données d’entraînement en morceaux plus petits et entraînons chaque arbre sur un morceau différent. Au contraire, si nous avons un échantillon de taille N, nous alimentons toujours chaque arbre un ensemble d’entraînement de taille N (sauf indication contraire). Mais au lieu des données d’entraînement d’origine, nous prenons un échantillon aléatoire de taille N Avec remplacement., Par exemple, si nos données d’entraînement étaient alors nous pourrions donner à l’un de nos arbres la liste suivante . Notez que les deux listes sont de longueur six et que « 2” et » 6  » sont tous deux répétés dans les données d’entraînement sélectionnées au hasard que nous donnons à notre arbre (car nous échantillonnons avec remplacement).

le fractionnement des nœuds dans une forêt aléatoire modèle est basé sur un sous-ensemble aléatoire de caractéristiques pour chaque arbre.,

caractère aléatoire — dans un arbre de décision normal, lorsqu’il est temps de diviser un nœud, nous considérons toutes les fonctionnalités possibles et choisissons celle qui produit le plus de séparation entre les observations du nœud gauche et celles du nœud droit. En revanche, chaque arbre d’une forêt aléatoire ne peut choisir que parmi un sous-ensemble aléatoire d’entités. Cela force encore plus de variation entre les arbres du modèle et se traduit finalement par une corrélation plus faible entre les arbres et une plus grande diversification.,

passons en revue un exemple visuel — dans l’image ci-dessus, l’arbre de décision traditionnel (en bleu) peut sélectionner parmi les quatre fonctionnalités lors de la décision de diviser le nœud. Il décide d’aller avec la fonctionnalité 1 (Noir et souligné) car il divise les données en groupes aussi séparés que possible.

jetons maintenant un coup d’œil à notre forêt aléatoire. Nous allons simplement examiner deux des arbres de la forêt dans cet exemple. Lorsque nous vérifions l’arbre forestier aléatoire 1, nous constatons qu’il ne peut considérer que les caractéristiques 2 et 3 (sélectionnées au hasard) pour sa décision de division de nœud., Nous savons de notre arbre de décision traditionnel (en bleu) que la caractéristique 1 est la meilleure caractéristique pour le fractionnement, mais L’arbre 1 ne peut pas voir la caractéristique 1, Il est donc obligé d’aller avec la caractéristique 2 (noir et souligné). L’arbre 2, d’autre part, ne peut voir que les caractéristiques 1 et 3, il est donc capable de choisir la caractéristique 1.

ainsi, dans notre forêt aléatoire, nous nous retrouvons avec des arbres qui ne sont pas seulement formés sur différents ensembles de données (grâce à l’ensachage) mais utilisent également différentes fonctionnalités pour prendre des décisions.,

et cela, mon cher lecteur, crée des arbres non corrélés qui se protègent et se protègent mutuellement de leurs erreurs.

Conclusion

forêts Aléatoires sont un de mes préférés. Venant du monde de la finance et de l’investissement, le Saint Graal a toujours été de construire un tas de modèles non corrélés, chacun avec un rendement attendu positif, puis de les rassembler dans un portefeuille pour obtenir un alpha massif (alpha = rendement supérieur au marché). Beaucoup plus facile à dire qu’à faire!

la forêt aléatoire est l’équivalent de la science des données. Passons en revue une dernière fois., Qu’est-ce qu’un classificateur de forêt aléatoire?

la forêt aléatoire est un algorithme de classification composé de nombreux arbres de décision. Il utilise l’ensachage et le caractère aléatoire lors de la construction de chaque arbre individuel pour essayer de créer une forêt d’arbres non corrélés dont la prédiction par comité est plus précise que celle de n’importe quel arbre individuel.

de quoi avons-nous besoin pour que notre forêt aléatoire fasse des prédictions de classe précises?

  1. Nous avons besoin de fonctionnalités qui ont au moins un certain pouvoir prédictif., Après tout, si nous mettons des ordures, nous en sortirons.
  2. Les Arbres de la forêt et plus important encore leurs prédictions doivent être non corrélés (ou au moins avoir de faibles corrélations les uns avec les autres). Alors que l’algorithme lui-même via feature randomness essaie de concevoir ces faibles corrélations pour nous, les fonctionnalités que nous sélectionnons et les hyper-paramètres que nous choisissons auront également un impact sur les corrélations ultimes.

Merci pour la lecture. J’espère que vous avez appris autant en lisant ceci que je l’ai fait en l’écrivant. À votre santé!

Author: admin

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *