a pesar de décadas de estudio, no entendemos los procesos fundamentales por los cuales nuestro cerebro codifica y representa la información visual entrante y la usa para guiar la percepción y la acción. Una gran cantidad de evidencia sugiere que el reconocimiento visual está mediado por una serie de áreas en la corteza de los primates conocidas como la corriente ventral, incluyendo v1 (corteza visual primaria), V2 y V4 (Fig. 1A) (1)., Las primeras etapas se entienden hasta cierto punto; Hubel y Wiesel descubrieron, por ejemplo, que las neuronas en V1 responden selectivamente a la orientación y dirección de un borde en movimiento (2). Sin embargo, sigue habiendo un gran abismo entre la codificación de un borde simple y la representación de la riqueza completa de nuestro mundo visual. El propio David Hubel observó en 2012 que todavía «no tenemos casi ningún ejemplo de estructuras neuronales en las que sepamos la diferencia entre la información que entra y lo que sale: para qué sirve la estructura., Tenemos alguna idea de la respuesta para la retina, el cuerpo geniculado lateral y la corteza visual primaria, pero eso es todo» (3). En PNAS, Okazawa et al. (4) hacer un avance significativo en esta búsqueda al descubrir y caracterizar una forma única de selectividad neural en el área V4.
(A) vista Lateral del cerebro Macaco con áreas ventrales tempranas V1, V2 y V4 resaltadas. (B) diagrama esquemático de los parámetros contenidos en el modelo de textura de Portilla Simoncelli. Las estadísticas espectrales reflejan la salida de filtros similares a V1., Las estadísticas de orden superior reflejan correlaciones de estas salidas de filtro a través de orientaciones, frecuencias espaciales y posiciones locales. La mayoría de las neuronas V1 solo son sensibles a las estadísticas espectrales, y muchas neuronas V2 son sensibles a las estadísticas espectrales y de orden superior; Okazawa et al. mostrar que algunas neuronas V4 están sintonizadas exclusivamente para estadísticas de orden superior. (C-E) en las primeras áreas de flujo ventral, imágenes físicamente diferentes pueden producir respuestas similares, y diferentes transformaciones de imágenes pueden revelar propiedades de codificación particulares., (C) la rotación de una imagen cambia los espectros de potencia, pero conserva algunas estadísticas de orden superior. En V4, según lo reportado por Okazawa et al., las imágenes giradas de manera diferente pueden producir respuestas similares. D) la traducción espacial de una textura cambia la imagen píxel por píxel, pero preserva las estadísticas espectrales y de orden superior. En V2, tales imágenes producen respuestas similares. E) la aleatorización de la fase de una imagen destruye las estadísticas de orden superior, pero preserva el espectro de potencia. En V1, las imágenes con estadísticas espectrales similares producen respuestas similares, con o sin estadísticas de orden superior.,
Un desafío central para entender cómo las neuronas codifican los estímulos visuales es saber qué estímulo mostrar a las neuronas. No conocemos los estímulos «correctos» hasta que tengamos alguna idea de para qué neuronas son selectivas, pero es posible que no sepamos para qué neuronas son selectivas hasta que les hayamos mostrado los estímulos correctos. Cerca de la parte superior de la jerarquía de la corriente ventral, como en la corteza inferotemporal, ha demostrado ser útil para sondear respuestas utilizando estímulos altamente complejos, como fotografías de escenas y objetos naturales (1, 5–7)., Sin embargo, la complejidad de tales estímulos y la dificultad para manipularlos o controlarlos experimentalmente pueden hacer que sea difícil saber qué está codificando una neurona determinada, más allá del hecho de que responde más a una imagen que a otra. En etapas anteriores-la retina, el núcleo geniculado lateral y V1 – el uso de estímulos simples, como patrones de ruido, bordes orientados o rejillas de onda sinusoidal, ha producido una comprensión razonable de la codificación neuronal (8), pero tales estímulos son suficientes solo porque estas neuronas exhiben formas más simples de codificación, al menos a una primera aproximación.,
en el área estudiada por Okazawa et al., área V4, la mayoría de los autores anteriores han caracterizado a las neuronas asumiendo que codifican formas y contornos de bordes duros, utilizando estímulos Unidos de segmentos de línea «similares a V1» en contornos más largos con curvaturas parametrizadas (9⇓-11). Este enfoque refleja una comprensión intuitiva del mundo visual: que las formas y las superficies se definen por sus contornos delimitadores y que el sistema visual debe representar de alguna manera estas características. Sin embargo, como Okazawa et al., señala que gran parte del mundo visual no se caracteriza por contornos, sino por texturas: los patrones que conforman las superficies de los objetos y entornos. Ted Adelson describió esto como la distinción entre «cosas» (objetos, elementos de escenas) y «cosas» (materiales, texturas, etc.) (12).
Las texturas son notoriamente difíciles de trabajar como estímulos visuales; a diferencia del ángulo de una línea o la curvatura de un contorno, no permiten una parametrización simple. ¿Qué conjunto de números podría capturar la diferencia entre la corteza de madera y un trozo de hierba? Para resolver este problema, Okazawa et al., se basó en el trabajo existente en el modelado y la síntesis de la textura visual y lo extendió de maneras novedosas. Comenzaron con un modelo de textura desarrollado por Portilla y Simoncelli (13). El modelo tiene dos componentes: un conjunto de estadísticas, calculadas en una imagen, que capturan implícitamente muchas de las propiedades de orden superior de las texturas visuales (Fig. 1B), y un algoritmo para generar estímulos con esas propiedades., Fue desarrollado originalmente para capturar las propiedades perceptualmente relevantes de la textura visual (13, 14) y se ha ampliado para explicar cómo las representaciones visuales varían a través del campo visual (15, 16) y, cualitativamente, a través de diferentes áreas de flujo ventral (6, 17).
los cientos de parámetros contenidos en tales modelos estadísticos de imagen han impedido su uso en la caracterización neural detallada, pero Okazawa et al. son capaces de transformar el modelo en un sustrato adecuado para caracterizar la selectividad neuronal., Primero, tomaron un gran conjunto de estímulos y usaron la reducción de la dimensionalidad para reducir los cientos de parámetros del modelo en un espacio de baja dimensión. Incluso en este espacio simplificado, no podían mostrar de manera realista todas las combinaciones de parámetros posibles para cada neurona. Por lo tanto, basándose en el trabajo existente que caracteriza la selectividad de la forma (18), utilizaron una técnica de muestreo adaptativo para explorar regiones de su espacio de baja dimensión que evocaban grandes tasas de disparo., Después de haber medido las respuestas de cada neurona a un conjunto de estímulos suficientemente rico y que evoca la respuesta, podrían modelar la respuesta en términos del espacio de baja dimensión.
trabajos previos han examinado las respuestas de las neuronas V4 a estímulos de textura (6, 19), pero con su técnica de modelado, Okazawa et al. fueron capaces de caracterizar en detalle varias formas en gran parte desconocidas de selectividad en V4. Primero, encontraron que muchas neuronas V4 estaban bien descritas por selectividad a las estadísticas de imágenes de orden superior, y algunas se ajustaron a subconjuntos particulares de estadísticas de orden superior., Estos subconjuntos tienen nombres curiosos como» orientación cruzada de energía «y» posición cruzada lineal»; aunque no son exactamente intuitivos, los autores hacen un esfuerzo por mostrar, con imágenes, cómo la selectividad a una estadística particular se relaciona con las preferencias para imágenes particulares., Lo más notable es que usan manipulaciones simples de imágenes para mostrar que algunas neuronas V4 codifican selectivamente estas estadísticas de orden superior mientras permanecen tolerantes a los cambios en los «espectros de potencia», un término que describe la cantidad total de diferentes orientaciones y frecuencias espaciales en una imagen, que es para lo que las neuronas V1 están sintonizadas en su mayoría. Por ejemplo, una neurona V4 podría responder bien a una textura similar a la corteza, independientemente de la orientación general del patrón (Fig. 1 B y C)., Finalmente, al examinar qué tan bien una población de neuronas V4 podría discriminar entre diferentes patrones de textura, pudieron mostrar que la representación de estadísticas de imágenes de orden superior en V4 se asemeja a la representación perceptual derivada de experimentos conductuales anteriores (17).
el esfuerzo de modelado de Okazawa et al. representa tanto un avance técnico como un contrapeso conceptual a los esfuerzos anteriores en V4. Muchos modelos de V4 han caracterizado la selectividad a los contornos, utilizando espacios de características parametrizados simples (10, 11)., En lugar de considerar que las neuronas realizan cálculos en una entrada visual real, estos modelos operan en el espacio de cantidades abstractas, como la curvatura, y como resultado, los modelos solo se aplican a ese tipo de estímulos. En contraste, el enfoque actual puede hacer predicciones sobre cómo las neuronas deben responder a cualquier patrón de estímulo (20). En trabajos futuros, theOkazawa et al. fueron capaces de caracterizar en detalle varias formas en gran parte desconocidas de selectividad en V4.los autores podrían utilizar este hecho para conciliar sus hallazgos con resultados anteriores en V4., Una posibilidad elegante es que la selectividad a la curvatura y contornos descrita anteriormente es solo un caso especial de sensibilidad a las estadísticas de imágenes de orden superior. Sin embargo, una alternativa es que Okazawa et al. se centró solo en un subconjunto de células V4 específicamente sintonizadas con la textura, mientras que los esfuerzos anteriores describieron una representación diferente, posiblemente mediada por poblaciones neuronales distintas pero interactuantes.
los resultados actuales también son interesantes a la luz del trabajo reciente en el área V2., Mientras que las neuronas V1 parecen codificar casi exclusivamente propiedades espectrales como la orientación y el contenido de frecuencia espacial (Fig. 1 B y E), Las neuronas V2 también muestran selectividad para estadísticas de imágenes de orden superior (Fig. 1 B y D), similares a los parametrizados por Okazawa et al. (17). Por lo tanto, será importante en el futuro determinar cuánto de la selectividad estadística de orden superior en V4 se hereda de V2 o se computa de novo de sus entradas., Sin embargo, la mayoría de las neuronas V2 retienen sensibilidad a las propiedades espectrales, mientras que al menos algunas neuronas en V4 parecen en gran medida tolerantes a los cambios espectrales. Estos hallazgos pueden sugerir una transformación de V2 a V4 que complementa y extiende la transformación de V1 y V2. Se requerirán nuevas técnicas, junto con el modelado y el diseño de estímulos, para caracterizar en detalle mecanicista los cálculos que tienen lugar entre estas áreas corticales y a través de diferentes capas y tipos de células dentro de un área (21)., Cómo exactamente estas transformaciones corticales forman una base fisiológica para la visión sigue siendo un rompecabezas profundamente intrigante, y enfoques como el de Okazawa et al. ayudará a allanar el camino a seguir.