¿Hay alguna diferencia entre lote y mini lote en el aprendizaje profundo?


Respuesta 1:

El procesamiento por lotes se utiliza en el algoritmo de Descenso de gradiente.

Los tres sabores principales del descenso por gradiente son lote, estocástico y mini lote.

El descenso de gradiente por lotes calcula el error para cada ejemplo en el conjunto de datos de entrenamiento, pero solo actualiza el modelo después de que se hayan evaluado todos los ejemplos de entrenamiento. Esto da como resultado el error más pequeño, pero el cálculo es muy costoso.

El descenso de gradiente estocástico calcula el error y actualiza el modelo para cada ejemplo en el conjunto de datos de entrenamiento. Esto da un error mayor, pero es computacional muy fácil. SGD a veces se usa en sistemas que deben actualizarse en tiempo real.

La compensación entre estos dos algoritmos es Mini-Batch, donde utiliza una pequeña porción de los datos como un lote, típicamente una potencia de dos muestras, por ejemplo 256, 512. El descenso de gradiente de mini-lote es el recomendado para la mayoría de las aplicaciones, especialmente en aprendizaje profundo

Hay un buen artículo en Internet que describe estos métodos en detalle: Una introducción suave al descenso de gradiente de mini lotes y cómo configurar el tamaño de lote: dominio del aprendizaje automático