Las redes neuronales convolucionales son un tipo de RNA con aprendizaje supervisado que procesa sus capas imitando el córtex cerebral humano para identificar las distintas características en las entradas que hacen que pueda identificar objetos. Para ello, las CNN contienen varias capas ocultas con una jerarquía, esto es, analizan la oración de izquierda a derecha o de derecha a izquierda. Las primeras capas pueden detectar líneas, curvas y se especializan hasta llegar a capas más profundas que reconocen formas complejas como una cara o un animal.
Una red CNN recibe un input y nos devuelve tantos outputs como hayamos definido. En el caso anterior, en el que se utiliza una red convolucional para clasificar imágenes, encontramos como input la imagen que pretendemos clasificar.
Filtros y capas intermedias – redes neuronales convolucionales (CNN)
Capa convolución
Las capas de convolución consisten en tomar grupos de píxeles cercanos de la imagen de entrada e ir operando matemáticamente (producto escalar) contra una pequeña matriz llamada núcleo o kernel. El núcleo, que tiene un tamaño definido, por ejemplo de 3×3 píxeles, recorre todas las neuronas de entrada (de izquierda a derecha y de arriba a abajo) y genera una nueva matriz de salida.
Subsampling
Es un proceso a través del cual tratamos de reducir el número de neuronas de la próxima capa pero sin perder las características más importantes que detectó cada filtro.
Capa maxPooling
Las capas de maxPooling son un proceso de subsampling en el que reducimos la dimensionalidad, recorriendo la imagen. Por ejemplo, en una matriz de 10×10 y una capa de maxPooling de 2×2, recorremos la matriz de izquierda a derecha y de arriba a abajo y la salida de esta capa será un único valor por cada 4 píxeles. Ese valor será el máximo correspondiente a cada iteración.
Capa softmax
Softmax convierte un vector de valores en una distribución de probabilidad. Los elementos del vector de salida están en el rango (0, 1) y suman 1. Cada vector se maneja de forma independiente. El argumento del eje establece a lo largo de qué eje de la entrada se aplica la función. Esta función se usa a menudo como la activación de la última capa de una red de clasificación, ya que el resultado podría interpretarse como una distribución de probabilidad.
Visita este enlace para conocer más información sobre IA.
También puedes ver nuestra entrada sobre redes neuronales recurrentes aquí
3 comentarios