asigurarea faptului că modelele se diversifică reciproc
Deci, cum se asigură pădurea aleatorie că comportamentul fiecărui copac individual nu este prea corelat cu comportamentul oricăruia dintre ceilalți copaci din model? Insacuire (agregare Bootstrap) — decizii arborii sunt foarte sensibili la datele pe care sunt instruiți — mici modificări ale setului de instruire pot duce la structuri arborescente semnificativ diferite., Pădurea aleatorie profită de acest lucru permițând fiecărui arbore individual să preleveze aleatoriu din setul de date cu înlocuire, rezultând arbori diferiți. Acest proces este cunoscut sub numele de insacuire.observați că prin insacuire nu subsetăm datele de antrenament în bucăți mai mici și antrenăm fiecare copac pe o bucată diferită. Mai degrabă, dacă avem un eșantion de mărimea N, încă hrănim fiecare arbore cu un set de antrenament de mărimea N (dacă nu se specifică altfel). Dar, în loc de datele de formare originale, luăm un eșantion aleatoriu de dimensiune N cu înlocuire., De exemplu, în cazul în care datele noastre de formare a fost atunci am putea da unul dintre copacii noștri următoarea listă . Observați că ambele liste au lungimea de șase și că „2 „și” 6 ” sunt ambele repetate în datele de antrenament selectate aleatoriu pe care le oferim arborelui nostru (pentru că eșantionăm cu înlocuire).
Caracteristici Dezordine — In mod normal un arbore de decizie, atunci când este timpul pentru a împărți un nod, vom lua în considerare orice posibilă caracteristică și alege unul care produce cele mai separare între observațiile în nodul din stânga față de cele din dreptul nodului. În schimb, fiecare copac dintr-o pădure aleatorie poate alege doar dintr-un subset aleator de caracteristici. Acest lucru forțează și mai multă variație în rândul copacilor din model și, în cele din urmă, are ca rezultat o corelație mai mică între copaci și o diversificare mai mare.,să trecem printr — un exemplu vizual-în imaginea de mai sus, arborele tradițional de decizie (în albastru) poate selecta dintre toate cele patru caracteristici atunci când decide cum să împartă nodul. Acesta decide să meargă cu caracteristica 1 (negru și subliniat), deoarece împarte datele în grupuri care sunt cât mai separate posibil.acum, să aruncăm o privire la pădurea noastră aleatorie. Vom examina doar doi dintre copacii pădurii în acest exemplu. Când verificăm aleatoriu forest Tree 1, descoperim că poate lua în considerare doar caracteristicile 2 și 3 (selectate aleatoriu) pentru decizia sa de divizare a nodului., Știm din arborele nostru tradițional de decizie (în albastru) că caracteristica 1 este cea mai bună caracteristică pentru divizare, dar arborele 1 nu poate vedea caracteristica 1, așa că este forțat să meargă cu caracteristica 2 (negru și subliniat). Arborele 2, pe de altă parte, poate vedea doar caracteristicile 1 și 3, astfel încât este capabil să aleagă Caracteristica 1.deci, în pădurea noastră aleatorie, ajungem la copaci care nu numai că sunt instruiți pe diferite seturi de date (datorită insacuire), dar folosesc și caracteristici diferite pentru a lua decizii.,
Și asta, dragul meu cititor, creează necorelate copaci care buffer-și proteja reciproc de erorile lor.
concluzie
pădurile aleatorii sunt un favorit personal al meu. Venind din lumea finanțelor și a investițiilor, Sfântul Graal a fost întotdeauna să construiască o grămadă de modele necorelate, fiecare cu un randament așteptat pozitiv și apoi să le pună împreună într-un portofoliu pentru a câștiga alfa masiv (alpha = randamente de bătaie a pieței). Mult mai ușor de zis decât de făcut!
Pădurea aleatorie este echivalentul științei datelor. Să recapitulăm pentru ultima dată., Ce este un clasificator forestier aleatoriu?
pădurea aleatoare este un algoritm de clasificare format din mai multe decizii copaci. Acesta utilizează insacuire și caracteristică aleatorie atunci când construirea fiecare copac individuale pentru a încerca să creeze o pădure necorelate de copaci a căror predicție de Comisie este mai precisă decât cea a oricărui copac individuale.
De ce avem nevoie pentru ca pădurea noastră aleatoare să facă predicții de clasă exacte?
- avem nevoie de caracteristici care au cel puțin o anumită putere predictivă., La urma urmei, dacă punem gunoi, atunci vom scoate gunoiul.
- copacii pădurii și, mai important, predicțiile lor trebuie să fie necorelate (sau cel puțin să aibă corelații scăzute între ele). În timp ce algoritmul în sine prin intermediul caracteristică dezordine încearcă să-inginer aceste corelații reduse pentru noi, caracteristici noi și selectați hyper-parametri vom alege va avea un impact final corelații la fel de bine.
Vă mulțumim pentru lectură. Sper că ai învățat la fel de mult de la citit acest lucru ca am făcut-o de la scris-o. Noroc!