Para un no experto, ¿cuál es la diferencia entre los enfoques bayesianos y frecuentistas?


Respuesta 1:

P: ¿Cuántos frecuentas se necesitan para cambiar una bombilla? R: Bueno, hay varias respuestas defendibles ...

P: ¿Cuántos bayesianos se necesitan para cambiar una bombilla? R: ¡Todo depende de tu experiencia previa!

Narrador: Sea p una distribución de probabilidad desconocida. Un estimador es una función que intenta responder una pregunta sobre p, dado un conjunto de datos que se tomó de p.

La estadística se trata principalmente del diseño y análisis de estimadores ...

Freddy the Frequentist: ¡Aquí hay un estimador que acabo de inventar! Y puedo demostrar que para cualquier p en esta familia de distribuciones, mi estimador "funciona bien".

Narrador: Por favor explique "funciona bien" a nuestra audiencia. Puedes agitar tus manos.

Freddy (agitando las manos): No importa qué p sea, mi estimador generalmente dará respuestas bastante precisas en los conjuntos de datos muestreados de p. Por supuesto, fallará en el conjunto de datos no representativo ocasional, pero no se puede evitar la mala suerte.

Basia la Bayesiana: ¡Felicidades! ¿Es óptimo para "trabajar bien"? Siempre quiero lo óptimo.

Freddy: Oh, no hay un mejor estimador para este problema. Pero al menos puedo demostrar que el mío es "admisible". Es decir, algún otro estimador podría vencer a mi estimador para algunos p, pero no para todos los p.

Basia: Bien ... entonces, ¿qué hay de las distribuciones p que esperas que surjan en la práctica? ¿Es su estimador especialmente adecuado para ellos?

Freddy: ¿Quién sabe qué p surgirá en la práctica?

Basia: Sí, al parecer. Ya asumiste que p vendrá de una familia en particular. Si no es así, su estimador no tiene garantías.

Freddy: Ok, me tienes. Pero mi suposición es bastante leve. Las personas a menudo tienen buenas razones [por ejemplo, el Teorema del límite central] para creer que su distribución generadora de datos proviene más o menos de mi familia. Quiero que mi estimador funcione bien mientras p esté en esa familia.

Basia: Pero obtendrás tu conjunto de datos real de los científicos. ¿No tendrán una intuición científica más específica sobre lo que es probable que sea p? Entonces podría obtener mejores resultados teniendo eso en cuenta.

Freddy: Eso suena sospechoso. Los científicos quieren conclusiones objetivas, no conclusiones que reflejen sus supuestos existentes.

Basia: ¿Objetivo? Los antropólogos y los periodistas dicen que no existe un punto de vista objetivo: como en física, siempre traes tu propio marco de referencia. Lo máximo que pueden hacer los datos por usted es actualizar sus creencias existentes. ¿No prestaste atención en la clase de filosofía? Los escépticos nos dicen que no hay forma de saber nada con seguridad. Los existencialistas nos dicen que no puede renunciar a su libre albedrío, tanto como le gustaría. Puede tratar de eludir esa responsabilidad adoptando algún principio como la ley o la lealtad o la religión, ¡o el frecuentado! Pero eso es solo una forma indirecta de tomar sus decisiones.

Freddy: bla, bla, bla. La estadística es matemática, no filosofía.

Basia: La estadística es epistemología aplicada. Usted y yo continuamos una vieja conversación filosófica: ¿cómo podemos concluir adecuadamente algo de los datos? Sí, nuestras modernas herramientas matemáticas nos permiten obtener conclusiones precisas rigurosamente, pero solo una vez que hemos hecho suposiciones. Incluso los matemáticos deben asumir algunos axiomas. Cuando tratamos con datos, también tenemos que hacer suposiciones sobre el origen de los datos. Sin suposiciones, sin conclusiones. La vida apesta de esa manera.

Freddy: ¡Pero ya hice una suposición moderada e inventé un buen estimador! Toda tu charla derrotista no me está dando una mejor.

Basia: No, no te voy a dar un estimador. Le daré una manera de derivar automáticamente un mejor estimador haciendo más suposiciones. Se garantiza que el suyo funcionará bastante bien para todos los p de la familia, pero el mío funcionará mejor para el p típico.

Freddy: Típico? Estoy haciendo el análisis del peor de los casos. Desea hacer un análisis de caso promedio, entonces, ¿cuál es el caso promedio? ¿Se supone que debo promediar por igual sobre todos los p?

Basia: Simplemente escriba su distribución anterior en p, que refleja sus creencias verdaderas, antes del experimento, sobre dónde podría caer p. Si realmente no está seguro, entonces su prior debe ser "plano" y tratar todos los p más o menos por igual.

Freddy: ¿Y una vez que he escrito la distribución anterior ...?

Basia: ¡Entonces el estimador bayesiano se caerá! No queda nada por diseñar. Dado un conjunto de datos, el estimador bayesiano simplemente revalora su creencia previa en cada hipótesis p de acuerdo con la probabilidad de que esa hipótesis genere el conjunto de datos. Si tiene una función de pérdida, las decisiones óptimas caen de las nuevas creencias, nuevamente sin más diseño, gracias a la teoría de la decisión bayesiana.

Freddy: Decisiones "óptimas" ... si crees en lo anterior.

Basia: Oye, admitiste que no tienes una forma de elegir entre los estimadores admisibles. Los diferentes estimadores también hacen diferentes predicciones.

Tengo que especificar mi previo. No tengo una forma de principios para elegir entre diferentes antecedentes; Se supone que tengo una creencia previa. ¡Pero al menos estoy siendo explícito al respecto! Entonces, quien lea mi artículo puede ver exactamente lo que llevó a mis conclusiones. No me estoy moviendo con diferentes estimadores. Mi estimador insiste en usar todos los datos. Según los principios bayesianos, los datos y los antecedentes conducen inexorablemente a las conclusiones.

Por supuesto, mis lectores son libres de discutir conmigo sobre si mi anterior representa el estado actual del conocimiento científico. Podemos probar cómo diferentes antecedentes afectarían las conclusiones.

Narrador: ¡Gracias por una discusión estimulante! Esto se está poniendo muy tl; dr. La audiencia ahora es libre de irse.

Freddy: veo que realmente quieres exprimir cada gota de valor de los datos. Pero, ¿por qué tratar de definir el One True Estimator? El mío es lo suficientemente bueno. Puedo vincular el sesgo y la varianza de mi estimador en función del tamaño del conjunto de datos, por lo que puedo demostrarle que los grandes errores no son muy probables para conjuntos de datos prácticos.

Como cuestión práctica, mi estimador también es fácil de calcular. De hecho, así es como se me ocurrió: conjeturé un procedimiento simple y razonable y luego probé que tenía buenas propiedades. Su estimador bayesiano fue lo suficientemente fácil de escribir matemáticamente, pero tal vez sea un infierno calcular, lo que también hace que sea difícil de analizar.

Basia: Eso es justo. De hecho, generalmente no tengo una forma práctica de calcularlo exactamente. Tengo que diseñar un algoritmo aleatorio o aproximación variacional. Entonces mis conclusiones prácticas no se siguen inexorablemente de los datos más lo anterior. También se ven afectados por la aproximación computacional.

Pero tal vez sacar conclusiones exactas de los datos debería ser computacionalmente intensivo. El razonamiento científico está bastante involucrado cuando los humanos lo hacen. Los procesos científicos son complejos, lo que conduce a familias complejas de modelos. Los experimentos científicos producen datos heterogéneos, ruidosos e incompletos.

El enfoque bayesiano maneja toda esta complejidad a la perfección. Una vez que haya diseñado su modelo, el bayesianismo consiste en un único principio estadístico simple, respaldado en la práctica por una biblioteca de trucos computacionales.

Freddy: Te garantizo que en estas situaciones elegantes, los estimadores frecuentistas también se volverían computacionalmente caros. También admito que sería difícil para mí idear un estimador para tal situación (y mucho menos para muchas situaciones relacionadas) que tuviera propiedades frecuentistas demostrablemente buenas.

Probablemente recurriría a un estimador de máxima verosimilitud. Es como una versión reducida de su estimador bayesiano, por lo que es al menos tan factible de calcular. Y no necesita un previo.

Basia: No estoy loco por la máxima probabilidad. Ignora la información de lo anterior. Y solo da una estimación puntual tonta, en lugar de representar la incertidumbre posterior. Esto te llevará a peores decisiones.

Freddy: Entonces quizás agregue un regularizador. De todos modos, el efecto de su anterior disminuye a medida que crece el conjunto de datos, y también lo hace su incertidumbre posterior. Entonces, al menos, estaremos de acuerdo en el límite de datos infinitos. Y en ese punto también estaremos de acuerdo con la verdad: tampoco estoy loco por la estimación de máxima probabilidad, pero al menos es consistente.

Narrador: Ok entonces! Genial verte de acuerdo.

Freddy: ¡Adiós, audiencia no experta! Espero que te hayas divertido. Puede votarnos cuando salga.

Pero Basia, entre los dos, todavía no comparto su postura filosófica sobre lo que queremos de un estimador. Dejemos caer la fantasía de datos infinitos. Tendremos datos finitos, por lo que queremos que el riesgo del estimador disminuya rápidamente en función del tamaño del conjunto de datos. Si estuviera considerando un estimador para un modelo complicado, trataría de demostrar que lo hizo para cualquier distribución en la familia. Eso no requeriría ningún previo.

Basia: ¿Pero qué quieres decir con "cualquier distribución en la familia"? Con modelos complicados, ¿es eso incluso un concepto natural? Permítanme esbozar un modelo bayesiano jerárquico básico:

  1. extraiga algunos hiperparámetros de los parámetros de extracción de distribución anteriores de las distribuciones controladas por los hiperparámetros extraiga datos de las distribuciones controladas por los parámetros

¿Qué es la familia aquí?

Freddy: Aquí trataría los hiperparámetros y los parámetros de manera diferente. Estoy dispuesto a asumir que p tiene su forma jerárquica: como usted señaló anteriormente, aceptaré restricciones estrictas en p. Solo descarto tu previo sobre los hiperparámetros, lo cual es una restricción suave en p. Cada configuración de los hiperparámetros es una distribución diferente p, por lo que quiero diseñar un método frecuenta que funcione bien para dicha configuración.

Basia: Pero no descartaste las distribuciones que generan los parámetros.

Freddy: cierto. Así que tengo que considerar esos parámetros en el paso 2 como datos no observados que el modelo genera a lo largo del camino hacia el paso 3. Son variables "molestas". Entonces, cuando promedio sobre conjuntos de datos aleatorios, también estoy haciendo un análisis de caso promedio de los parámetros. Pero como trato de mostrar que este análisis resulta adecuado para cualquier distribución, estoy haciendo el análisis del peor de los casos de los hiperparámetros.

Basia: ¿Cuál es tu motivación para tratar estos dos niveles de manera tan diferente?

Freddy: Oh, siempre distingo dos niveles. Hay un conjunto de distribuciones. Para cada distribución en el conjunto, quiero hacerlo bien en promedio.

Basia: Mire este modelo jerárquico de tres niveles y verá un conjunto de distribuciones sobre distribuciones. Al usar un previo sobre los hiperparámetros, lo convierto en una distribución sobre distribuciones sobre distribuciones. O equivalentemente, una gran distribución. Así que solo estoy analizando todo en el caso promedio. No veo por qué dibujarías una línea especial entre los niveles 1. y 2. de mi modelo.

Freddy: Pero no tengo que dibujarlo allí. Puedo dibujarlo en cualquier lugar que elija. Desea descartar el análisis del peor de los casos por completo. Pero puedo mezclar el análisis del peor de los casos y el de los casos promedio de diferentes maneras.

Cuando trazo la línea por encima del nivel 1., entonces todo es un caso promedio y mi análisis es indistinguible del de un Bayesiano. En ese caso, la familia contiene solo una distribución p, que genera los hiperparámetros, parámetros y datos. Entonces mi estimador no está estimando las propiedades de p, lo que se conoce. Imputa valores de las variables molestas, dado p y el conjunto de datos observado.

Y aquí el riesgo de mi estimador ya no depende de una elección de p. Es un promedio sobre todo, incluidos los hiperparámetros.

Basia: Bien! Eso es lo que siempre minimizo. Mi estimador se define explícitamente para minimizar el riesgo de Bayes, es decir, la pérdida esperada de la predicción, de acuerdo con el posterior dado el conjunto de datos. Dado que mi estimador minimiza el riesgo de Bayes para cualquier conjunto de datos que se le brinde, también minimiza el riesgo frecuentista del que habla, que además promedia todos los conjuntos de datos posibles.

Freddy: Sí, tu estimador parece una solución ideal si dibujo la línea por encima del nivel 1, aceptando tu anterior como parte del modelo mismo. Pero ese es un resultado único y bastante débil. Al elegir dibujar la línea en otros lugares, también puedo formular teoremas adicionales sobre estimadores. Teoremas que contienen símbolos ∀ porque están haciendo el análisis del peor de los casos.

Basia: Ese "resultado débil" es todo lo que necesito en la práctica. Sus teoremas adicionales son bastante ciertos, pero ¿cómo le ayudan?

Freddy: Bueno, me siento más cómodo recomendando un estimador a los científicos. Puedo decirles qué propiedades conocidas tiene, incluidos varios tipos de propiedades en el peor de los casos.

Basia: Pero otro frecuentista también podría recomendar un estimador diferente, que también tiene buenas propiedades pero hará predicciones diferentes.

Sus teoremas son solo puntos de conversación; Confunden el tema. No necesito ningún teorema para hacer una recomendación. Mi recomendación bayesiana es derivar el estimador directamente de sus supuestos científicos y objetivos de ingeniería. Siempre les diré a los científicos que usen una regla general de Bayes: si realmente confían en su modelo y antes, entonces la mejor predicción de los datos es la que minimiza el riesgo de Bayes.

Freddy: Creo que en realidad te estás apoyando en el teorema de la clase completa. Lo que sientes resuelve todas las estadísticas. ¿Qué haces todo el día, entonces? Debe ser un trabajo cómodo.

Basia: Bueno, ayudo a los científicos a formalizar su modelo, anterior y función de pérdida. Eso no requiere nuevos teoremas estadísticos, pero todavía hay matemáticas que hacer. Puede que tenga que diseñar y analizar nuevas distribuciones de probabilidad. También diseño y analizo algoritmos para ayudar a los científicos a calcular la mejor predicción.

Freddy: Merecen saber si esa "mejor predicción" será buena. Entonces tal vez debería hacer un análisis frecuente de su estimador bayesiano.

Basia: ¿Por qué molestarse? Simplemente los alertaría del riesgo Bayes de su predicción real. Ese número es información muy útil porque condiciona su conjunto de datos real.

Su análisis frecuentista prestará igual atención a las distribuciones p que su conjunto de datos real descarta. ¿A quién le importa hacerlo bien en esos? Especialmente cuando "hacerlo bien" significa rendimiento promedio en muchos conjuntos de datos ficticios. Esos son irrelevantes.

Freddy: ¿Pero qué pasa si los científicos aún no tienen un "conjunto de datos real"? Analizarán muchos conjuntos de datos. Necesitan tomar algunas decisiones de antemano. Primero, ¿deberían adoptar su software estadístico? Segundo, ¿cuántos datos deben recolectar?

De hecho, estas son preguntas sobre qué tan bien funcionará su software, o el mío, en el conjunto de datos promedio de tamaño n, para un rango de distribuciones p. Cualquier caja de software debe tener una etiqueta de "información nutricional" con respuestas a esas preguntas.

Basia: Ok, pero esa pegatina no tiene que centrarse en el peor de los casos p. Los científicos tienen un previo sobre p. Mi software consulta lo anterior, y el tuyo no. Pero en cada caso, los científicos quieren saber qué tan bien funcionará el software en las distribuciones p elegidas de sus anteriores. Podría estimar eso para ellos mediante el muestreo de distribuciones y conjuntos de datos de sus anteriores.

Freddy: En principio podrías. Pero en la práctica, es posible que desee publicar la etiqueta antes de saber quién usará el software. Los teoremas frecuentes son agradables y portátiles de esa manera, al igual que las etiquetas nutricionales, están destinados a ayudar a muchos usuarios diferentes, que pueden tener antecedentes diferentes.

Podemos formular un estimador frecuentista sin conocer el previo del usuario. Y podemos publicar su riesgo de peor caso sin conocer el previo del usuario. El usuario sabe que el riesgo en el peor de los casos es al menos un límite superior en su riesgo de caso promedio, sin importar cómo prefiera promediar.

Basia: ¡Creo que su objeción se reduce nuevamente a inconvenientes computacionales! Desea diseñar estimadores generales y probar teoremas generales ... para evitar hacer cálculos específicos que le darían la mejor respuesta posible en su situación precisa.

No es de extrañar que las estadísticas se hayan centrado históricamente en teoremas generales. No era computacionalmente factible hacer más. Quizás soy bayesiano porque crecí rodeado de poder computacional y técnicas como MCMC. Respeto la generalidad y la elegancia de los límites teóricos, en los casos simples en los que puede obtenerlos. Pero también aprecio el trabajo de aprendizaje automático que se centra en medir y maximizar el rendimiento de sistemas predictivos específicos, en lugar de demostrar teoremas más amplios sobre sistemas más débiles.


Respuesta 2:

Todas las respuestas interesantes y en su mayoría muy válidas.

Añado esto:

Cuando, por ejemplo, quiere ganar una guerra, encontrar un nuevo medicamento, ganar dinero en el mercado de valores, predecir el clima o predecir el resultado de las elecciones, su mejor opción es utilizar el enfoque Bayesan.

En otras palabras, el enfoque bayesiano es el que realmente funciona. (siempre que lo alimente con su mejor conocimiento sobre los modelos a utilizar y los valores de los parámetros que contiene).

La explicación de esto es que la oportunidad es sobre modelar la realidad, y el enfoque baysiano le brinda un mejor poder de modelado.


Respuesta 3:

Creo que otros han respondido con precisión la pregunta específica, pero también agregaría que un Bayesiano está más alineado con la forma en que realmente procesamos la información nueva ... incluso si usted es, de hecho, un frecuente.

Digamos que un experto conocido en el área de los amaneceres le dice que un modelo de predicción (algoritmo) que acaba de crear dice que el amanecer comenzará a llegar mucho más tarde de lo esperado. De hecho, dentro de una semana, ella espera el amanecer a las 8:00 am. Su reacción natural y lógica a eso es tomar su comprensión existente (ese amanecer ha sido alrededor de las 6 a.m. últimamente) y modificar sus expectativas sobre el amanecer de la próxima semana.

Usted hace esto incluso si el modelo parece estar usando matemática de sonido y no puede encontrar ningún agujero de lógica en el algoritmo o las entradas. Tiene años de "datos" observados que le indican que el amanecer será alrededor de las 6 am la próxima semana.

Esta es la versión simplificada y sin matemáticas del enfoque bayesiano.

Incluso aquellos que pueden promocionar un hallazgo en términos absolutos probablemente tengan una creencia bayesiana en su núcleo.