Nonostante decenni di studio, non comprendiamo i processi fondamentali con cui il nostro cervello codifica e rappresenta le informazioni visive in entrata e le usa per guidare la percezione e l’azione. Una ricchezza di prove suggerisce che il riconoscimento visivo è mediato da una serie di aree nella corteccia dei primati note come flusso ventrale, tra cui V1 (corteccia visiva primaria), V2 e V4 (Fig. 1 BIS) (1)., Le prime fasi sono in una certa misura comprese; Hubel e Wiesel hanno scoperto, ad esempio, che i neuroni in V1 rispondono selettivamente all’orientamento e alla direzione di un bordo mobile (2). Tuttavia, rimane un vasto divario tra la codifica per un bordo semplice e la rappresentazione della piena ricchezza del nostro mondo visivo. Lo stesso David Hubel ha osservato nel 2012 che ancora “non abbiamo quasi esempi di strutture neurali in cui conosciamo la differenza tra le informazioni in arrivo e ciò che sta uscendo—a cosa serve la struttura., Abbiamo qualche idea della risposta per la retina, il corpo genicolato laterale e la corteccia visiva primaria, ma questo è tutto” (3). In PNAS, Okazawa et al. (4) fai progressi significativi in questa ricerca scoprendo e caratterizzando una forma unica di selettività neurale nell’area V4.
(A) Vista laterale del cervello macaco con aree di flusso ventrale precoce V1, V2 e V4 evidenziate. (B) Diagramma schematico dei parametri contenuti nel modello di texture di Portilla Simoncelli. Le statistiche spettrali riflettono l’output di filtri simili a V1., Le statistiche di ordine superiore riflettono le correlazioni di questi output di filtro tra orientamenti, frequenze spaziali e posizioni locali. La maggior parte dei neuroni V1 sono sensibili solo alle statistiche spettrali e molti neuroni V2 sono sensibili sia alle statistiche spettrali che a quelle di ordine superiore; Okazawa et al. mostra che alcuni neuroni V4 sono sintonizzati esclusivamente per statistiche di ordine superiore. (C-E) Nelle prime aree del flusso ventrale, immagini fisicamente diverse possono produrre risposte simili e diverse trasformazioni di immagini possono rivelare particolari proprietà di codifica., (C) La rotazione di un’immagine modifica gli spettri di potenza, ma conserva alcune statistiche di ordine superiore. In V4, come riportato da Okazawa et al., le immagini diversamente ruotate possono produrre risposte simili. (D) La traduzione spaziale di una texture modifica l’immagine pixel per pixel ma conserva le statistiche spettrali e di ordine superiore. In V2, tali immagini producono risposte simili. (E) La randomizzazione della fase di un’immagine distrugge le statistiche di ordine superiore ma preserva lo spettro di potenza. In V1, le immagini con statistiche spettrali simili producono risposte simili, con o senza statistiche di ordine superiore.,
Una sfida centrale nella comprensione di come i neuroni codificano gli stimoli visivi è sapere quale stimolo mostrare ai neuroni. Non conosciamo gli stimoli “giusti” finché non abbiamo un’idea di cosa i neuroni siano selettivi, ma potremmo non sapere a cosa servono i neuroni finché non abbiamo mostrato loro gli stimoli giusti. Vicino alla parte superiore della gerarchia del flusso ventrale, come nella corteccia inferotemporale, si è dimostrato utile sondare le risposte usando stimoli altamente complessi come fotografie di scene e oggetti naturali (1, 5⇓-7)., Tuttavia, la complessità di tali stimoli e la difficoltà di manipolarli o controllarli sperimentalmente possono rendere difficile dire quale sia la codifica di un dato neurone, al di là del fatto che risponde più a un’immagine che a un’altra. Nelle fasi precedenti—la retina, nucleo genicolato laterale, e V1—l’uso di semplici stimoli, come il rumore di modelli, orientato bordi, o sinusoidale, griglie, ha dato una ragionevole interpretazione della codifica neurale (8), ma tali stimoli sono sufficienti solo perché questi neuroni presentano forme più semplici di codifica, almeno in prima approssimazione.,
Nell’area studiata da Okazawa et al., area V4, la maggior parte degli autori precedenti ha caratterizzato i neuroni assumendo che codifichino forme e contorni duri, usando stimoli cuciti insieme da segmenti di linea “simili a V1” in contorni più lunghi con curvature parametrizzate (9⇓-11). Questo approccio riflette una comprensione intuitiva del mondo visivo: che le forme e le superfici sono definite dai loro contorni di delimitazione e che il sistema visivo deve in qualche modo rappresentare queste caratteristiche. Tuttavia, come Okazawa et al., sottolinea, gran parte del mondo visivo è caratterizzato non da contorni, ma da texture: i modelli che compongono le superfici di oggetti e ambienti. Ted Adelson ha descritto questo come la distinzione tra ” cose “(oggetti, elementi di scene) e” cose ” (materiali, trame, ecc.) (12).
Le texture sono notoriamente difficili da lavorare come stimoli visivi; a differenza dell’angolo di una linea o della curvatura di un contorno, non consentono una semplice parametrizzazione. Quale insieme di numeri potrebbe catturare la differenza tra la corteccia di legno e una macchia d’erba? Per risolvere questo problema, Okazawa et al., ha disegnato sul lavoro esistente nella modellazione e sintesi di texture visiva e ampliato in modi nuovi. Hanno iniziato con un modello di texture sviluppato da Portilla e Simoncelli (13). Il modello ha due componenti: un insieme di statistiche, calcolate su un’immagine, che catturano implicitamente molte delle proprietà di ordine superiore delle trame visive (Fig. 1B), e un algoritmo per generare stimoli con quelle proprietà., È stato originariamente sviluppato per catturare le proprietà percettivamente rilevanti della trama visiva (13, 14) ed è stato esteso per spiegare come le rappresentazioni visive variano attraverso il campo visivo (15, 16) e, qualitativamente, attraverso diverse aree del flusso ventrale (6, 17).
Le centinaia di parametri contenuti in tali modelli statistici di immagini hanno impedito il loro uso nella caratterizzazione neurale dettagliata, ma Okazawa et al. sono in grado di trasformare il modello in un substrato adatto per caratterizzare la selettività neurale., In primo luogo, hanno preso un grande insieme di stimoli e hanno usato la riduzione della dimensionalità per ridurre le centinaia di parametri del modello in uno spazio a bassa dimensione. Anche in questo spazio semplificato, non potevano mostrare realisticamente tutte le possibili combinazioni di parametri per ciascun neurone. Pertanto, basandosi sul lavoro esistente che caratterizza la selettività della forma (18), hanno usato una tecnica di campionamento adattivo per esplorare regioni del loro spazio a bassa dimensione che evocavano grandi tassi di cottura., Dopo aver misurato le risposte di ciascun neurone a un insieme di stimoli sufficientemente ricco e che evoca la risposta, potrebbero quindi modellare la risposta in termini di spazio a bassa dimensione.
Il lavoro precedente ha esaminato le risposte dei neuroni V4 agli stimoli di texture (6, 19), ma con la loro tecnica di modellazione, Okazawa et al. sono stati in grado di caratterizzare in dettaglio diverse forme di selettività in gran parte sconosciute in V4. In primo luogo, hanno scoperto che molti neuroni V4 erano ben descritti dalla selettività alle statistiche di immagini di ordine superiore, e alcuni erano sintonizzati su particolari sottoinsiemi di statistiche di ordine superiore., Questi sottoinsiemi hanno nomi curiosi come” energy cross-orientation “e” linear cross-position”; anche se non esattamente intuitivi, gli autori fanno uno sforzo per mostrare, con le immagini, come la selettività per una particolare statistica si riferisce alle preferenze per immagini particolari., Soprattutto, usano semplici manipolazioni di immagini per mostrare che alcuni neuroni V4 codificano selettivamente queste statistiche di ordine superiore pur rimanendo tolleranti ai cambiamenti negli “spettri di potenza”, un termine che descrive la quantità totale di diversi orientamenti e frequenze spaziali in un’immagine, che è ciò per cui i neuroni V1 sono per lo più sintonizzati. Ad esempio, un neurone V4 potrebbe rispondere bene a una trama simile alla corteccia indipendentemente dall’orientamento generale del modello (Fig. 1 B e C)., Infine, esaminando quanto bene una popolazione di neuroni V4 potrebbe discriminare tra diversi modelli di texture, sono stati in grado di dimostrare che la rappresentazione di statistiche di immagine di ordine superiore in V4 assomiglia alla rappresentazione percettiva derivata da precedenti esperimenti comportamentali (17).
Lo sforzo di modellazione di Okazawa et al. rappresenta sia un progresso tecnico che un contrappeso concettuale agli sforzi precedenti in V4. Molti modelli di V4 hanno caratterizzato la selettività ai contorni, utilizzando semplici spazi di funzionalità parametrizzati (10, 11)., Piuttosto che considerare i neuroni come eseguire calcoli su un input visivo reale, questi modelli operano nello spazio di quantità astratte, come la curvatura, e di conseguenza, i modelli si applicano solo a quel tipo di stimoli. Al contrario, l’approccio attuale può fare previsioni su come i neuroni dovrebbero rispondere a qualsiasi modello di stimolo (20). Nel lavoro futuro, theOkazawa et al. sono stati in grado di caratterizzare in dettaglio diverse forme di selettività in gran parte sconosciute in V4.gli autori potrebbero usare questo fatto per conciliare i loro risultati con i risultati precedenti in V4., Una possibilità elegante è che la selettività descritta in precedenza alla curvatura e ai contorni è solo un caso speciale di sensibilità alle statistiche delle immagini di ordine superiore. Tuttavia, un’alternativa è che Okazawa et al. focalizzato solo su un sottoinsieme di cellule V4 specificamente sintonizzate sulla trama, mentre gli sforzi precedenti descrivevano una rappresentazione diversa, possibilmente mediata da popolazioni neuronali distinte ma interagenti.
I risultati attuali sono interessanti anche alla luce dei recenti lavori nell’area V2., Mentre i neuroni V1 sembrano codificare quasi esclusivamente proprietà spettrali come l’orientamento e il contenuto di frequenza spaziale (Fig. 1 B ed E), i neuroni V2 mostrano inoltre la selettività per le statistiche di immagine di ordine superiore (Fig. 1 B e D), simili a quelli parametrizzati da Okazawa et al. (17). Sarà quindi importante in futuro determinare quanta parte della selettività statistica di ordine superiore in V4 viene ereditata da V2 o calcolata de novo dai suoi input., Tuttavia, la maggior parte dei neuroni V2 mantiene la sensibilità alle proprietà spettrali, mentre almeno alcuni neuroni in V4 appaiono ampiamente tolleranti ai cambiamenti spettrali. Questi risultati possono quindi suggerire una trasformazione da V2 a V4 che integra ed estende la trasformazione da V1 e V2. Saranno necessarie nuove tecniche, accanto alla modellazione e alla progettazione di stimoli, per caratterizzare in dettaglio meccanicistico i calcoli che avvengono tra queste aree corticali e tra diversi strati e tipi di cellule all’interno di un’area (21)., Come esattamente queste trasformazioni corticali formano una base fisiologica per la visione rimane un puzzle profondamente intrigante, e approcci come quello di Okazawa et al. contribuirà a spianare la strada da seguire.