¿Cómo explico la diferencia entre RPCA y PCA?


Respuesta 1:

Editar: Doh, me acabo de dar cuenta de que podrías estar preguntando sobre Robust-PCA y no sobre la regresión de componentes principales (también conocida como regression-PCA). Para lo que vale, aquí hay una respuesta sobre esto último.

A veces, durante la regresión, los grupos de variables de entrada (covariables) serán colineales (ver otra pregunta sobre multicolinealidad). Esto significa que las entradas que son muy predictivas entre sí implican un tipo de redundancia desde el punto de vista de la salida: si puede predecir

yy

bien con

xx

, no necesita otra copia cercana de

xx

.

Desafortunadamente, la regresión OLS ve eso e intenta compensar asignando una responsabilidad similar a las entradas colineales. En el ejemplo anterior, piense en cuántos planos diferentes existen que son casi óptimos (en el sentido de mínimos cuadrados) ...

Infinito, ¿verdad? Cualquier plano que pase por los puntos, independientemente de la rotación sobre los puntos verdes: imagine un tipo de eje anclado en el aire que atraviese los puntos verdes y luego el plano rojo se pivote sobre él.

Para empeorar las cosas, al perturbar un poco los datos, los pesos de regresión final, que esencialmente controlan el gradiente del plano, podrían ser muy diferentes. Esto indica que el modelo es inestable.

Entonces, ¿cuál es una forma de principio para fusionar variables de entrada que se correlacionan? Bueno, esto es lo que hará Regression-PCA:

Primero, hará PCA en las entradas (los puntos azules), es decir, encontrará una línea azul en el plano XZ para proyectar los puntos azules (de modo que se minimice la distancia de proyección total). Esta línea ahora actúa como un nuevo eje, llámelo

bb

,

y el problema de regresión original ahora se resuelve en el marco de referencia de

byb-y

, una regresión lineal de una variable.

Entonces, en cierto modo, dejamos que PCA encuentre esos grupos de variables similares, en lugar de dejarlo en manos de OLS con el peligro inherente de inestabilidad ilustrado anteriormente.

Finalmente, replantear la regresión al original.

xzyx-z-y

el espacio, sea cual sea el coeficiente de regresión que se le dio a la variable derivada b (aquí es 0.5), se compartirá equitativamente de acuerdo con los pesos del eje derivado de PCA (por lo que los pesos RPCA finales serán

(0.25,0.25)(0.25, 0.25)

)