miércoles, 17 de abril de 2019

PRUEBA DE HIPÓTESIS




¿Qué es? 

Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar una afirmación acerca de una población dependiendo de la evidencia proporcionada por una muestra de datos.
Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se desea poder concluir que es verdadero de acuerdo con la evidencia proporcionada por los datos de la muestra.
Con base en los datos de muestra, la prueba determina si se puede rechazar la hipótesis nula. Usted utiliza el valor p para tomar esa decisión. Si el valor p es menor que el nivel de significancia (denotado como α o alfa), entonces puede rechazar la hipótesis nula.
Un error común de percepción es que las pruebas estadísticas de hipótesis están diseñadas para seleccionar la más probable de dos hipótesis. Sin embargo, al diseñar una prueba de hipótesis, establecemos la hipótesis nula como lo que queremos desaprobar. Puesto que establecemos el nivel de significancia para que sea pequeño antes del análisis (por lo general, un valor de 0.05 funciona adecuadamente), cuando rechazamos la hipótesis nula, tenemos prueba estadística de que la alternativa es verdadera. En cambio, si no podemos rechazar la hipótesis nula, no tenemos prueba estadística de que la hipótesis nula sea verdadera. Esto se debe a que no establecimos la probabilidad de aceptar equivocadamente la hipótesis nula para que fuera pequeña.
Una prueba de hipótesis comprende cuatro componentes principales:

-Hipótesis Nula
-Hipótesis Alternativa
-Estadística de Prueba
-Región de Rechazo



La Hipótesis Nula
Denotada como H0 siempre especifica un solo valor del parámetro de la población si la hipótesis es simple o un conjunto de valores si es compuesta.
H0 :µ = µ0                                                H0 :µ ≤ µ0                                          H0 :µ ≥ µ0

La Hipótesis Alternativa
Denotada como H1 es la que responde nuestra pregunta, la que se establece en base a la evidencia que tenemos. Puede tener cuatro formas:
H1: µ= µ1                         H1: µ< µ0                          H1: µ> µ0                           H1: µ≠ µ0

La Estadística de Prueba 
Es una estadística que se deriva del estimador puntual del parámetro que estemos probando y en ella basamos nuestra decisión acerca de si rechazar o no rechazar la Hipótesis Nula.

La Región de Rechazo
Es el conjunto de valores tales que si la prueba estadística cae dentro de este rango, decidimos rechazar la Hipótesis Nula Su localización depende de la forma de la Hipótesis Alternativa: Si H1: µ> µ0 entonces la región se encuentra en la cola derecha de la distribución de la estadística de prueba.




Hipótesis Estadísticas Derivadas
Se les denomina así a los supuestos (hipótesis) realizados con respecto a un parámetro o estadístico (media, proporción, entre otros).
En este paso se definen dos tipos de hipótesis:
·         Ho: Hipótesis nula
·         H1: Hipótesis alterna (de la cual se sospecha pudiera ser cierta, es planteada por el investigador)

Nivel de Significancia (α)
Se le conoce así al error máximo adoptado al momento de rechazar la hipótesis nula (Ho) cuando es verdadera.
Dependiendo del tipo de significación que se da al estudio, hay tres grados:
·         α = 0.01 → Demasiado significativo
·         α = 0.05 → Significativo
·         α = 0.10 → Poco significativo



Valor de la distribución Z o t
En este paso se procede a ubicar el intervalo de confianza para su próxima colocación en el gráfico de "aceptación y rechazo".
Hay dos formas de encontrar dicho valor: mediante la tabla "Z" o la tabla "t".
Para definir cuál es la tabla en la que se buscará la información, se debe de considerar el número de datos con los que se cuenta.
·         Si la cantidad de datos sobrepasa o es igual a 30, se usará la tabla "Z"
·         Si la cantidad de datos son menores a 30, se usará la tabla "t".

 

Determinar el intervalo de confianza

El intervalo de confianza es el punto que separa a la Región de Aceptación y Rechazo.

·         Para una variable:


Tabla Z
Para hallar el intervalo en esta tabla se sigue la siguiente fórmula:
{\displaystyle Z=\alpha }Z= α

Donde:
α = Nivel de significancia

Tabla t
Para hallar el intervalo en la tabla t-student se sigue la siguiente fórmula: 
Para cuando H1 es " < " o " > "
Para cuando H1 es "  "
t= (n-1),(1 -α/1)
t= (n-1),(1 -α/2)
Donde:
α = Nivel de significancia
n = Cantidad de datos
Donde:
α = Nivel de significancia
n = Cantidad de datos

·         Para dos variables:


Tabla Z
Para hallar el intervalo en esta tabla se sigue la siguiente fórmula:
Para usar esta fórmula, tanto n1 y n2 tienen que tener un valor mayor o igual a 30 n1 ≥ 30
n2 ≥ 30
Z= α
Donde:
α = Nivel de significancia

Tabla t
Para hallar el intervalo en la tabla t-student se sigue la siguiente fórmula:
Para usar esta fórmula, por lo menos n1 o n2 tiene que tener un valor inferior a 30
n1 <30
n2 <30

t= (n1+n2-2),(1 -α/1)
t= (n1+n2-2),(1 -α/2)
Donde:
α = Nivel de significancia
n = Cantidad de datos
Donde:
α = Nivel de significancia
n = Cantidad de datos



Estadística de prueba “Z” o “t”

·         Una media o promedio


Para muestras mayores o igual a 30




Donde:
𝜒= Promedio parcial (de la muestra)
𝜎= Desviación poblacional total
µ= Valor de la hipótesis

n{\displaystyle n} = Número de datos


Para muestras menores a 30





Donde:
𝜒{\displaystyle {\bar {X}}}= Promedio parcial (de la muestra)
S{\displaystyle S} = Desviación de la muestra
µ{\displaystyle u}= Valor de la hipótesis
n{\displaystyle n}= Número de datos

·         Una proporción o porcentaje


Para muestras mayores o igual a 30




Donde:


Si el problema no lo da, se puede conseguir de la siguiente forma:



𝜒= Valor numérico de la muestra
P0 {\displaystyle P_{0}} = Proporción poblacional (total)
n{\displaystyle n}= Número de datos

Para muestras menores a 30


Donde:


Si el problema no lo da, se puede conseguir de la siguiente forma:

𝜒= Valor numérico de la muestra
P0 {\displaystyle P_{0}} = Proporción poblacional (total)
n{\displaystyle n}= Número de datos

·         Diferencia de dos medias o promedios


 





Donde:

{\displaystyle {\bar {X}}_{1}}𝜒1= Promedio de la primera variable
𝜒2{\displaystyle {\bar {X}}_{2}} = Promedio de la segunda variable
𝑼1{\displaystyle {\bar {U}}_{1}} = Porcentaje de la primera variable (si no se especifica es 100 (%)){\displaystyle {\bar {U}}_{2}}
𝑼2= Porcentaje de la segunda variable (si no se especifica es 100 (%))
𝜎1{\displaystyle \sigma _{1}} = Desviación de la primera variable
𝜎2{\displaystyle \sigma _{2}} =
 Desviación de la segunda variable
n1{\displaystyle n_{1}} = Número de datos de la primera variable (total)
n2{\displaystyle n_{2}} = Número de datos de la segunda variable (total)

·         Diferencia de proporciones o porcentajes






Donde:





Se puede conseguir de la siguiente forma, si es un porcentaje:




𝜒1= Promedio de la primera variable en porcentaje
𝜒2{\displaystyle {\bar {X}}_{2}}= Promedio de la segunda variable en porcentaje
𝑼1{\displaystyle U_{1}}= Porcentaje de la primera variable (si no se especifica es 100 (%))
𝑼2{\displaystyle U_{2}}= Porcentaje de la segunda variable (si no se especifica es 100 (%))
n1{\displaystyle n_{1}}= Número de datos de la primera variable (total)
n2{\displaystyle n_{2}}= Número de datos de la segunda variable (total)

Importancia
El tipo exacto de la prueba estadística utilizada depende de muchos factores, incluyendo el campo, el tipo de datos y el tamaño de la muestra, entre otros.
La gran mayoría de la investigación científica es finalmente probada por métodos estadísticos y todos brindan un grado de confianza en los resultados.
En la mayoría de las disciplinas, el investigador busca un nivel de significación de 0,05, lo que significa que sólo hay una probabilidad del 5% de que los resultados y las tendencias observadas se produjeran de casualidad.
En el caso de algunas disciplinas científicas, el nivel requerido es de 0,01, apenas un 1% de probabilidad de que los patrones observados ocurrieran debido a la casualidad o a un error. El nivel de significación, cualquiera sea, determina si la nula o la alternativa es rechazada, una parte crucial de la prueba de la hipótesis.


martes, 9 de abril de 2019

ESTIMACIÓN E INTERVALOS DE CONFIANZA

ESTIMARpronosticar, aproximar, atribuir, suponer.  Determinar el valor aproximado de una cosa

ESTIMACIÓN: es un término derivado del vocablo latino aestimatio, refiere a la valoración o la apreciación que se realiza de algo. Se trata de una tasación que se desarrolla para calcular un valor o para juzgar cualidades.
 Se puede hacer estimación, en el sentido de apreciación o análisis cuantitativo y/o cualitativo, de varias cosas o sucesos pasados, presentes o futuros, por ejemplo, se puede hacer estimación de los daños que dejó un temporal, de los gastos que deberán hacerse para construir una casa o de cuánto crecerá el empleo en el próximo año. Se hacen las estimaciones evaluando diversos parámetros y se llega a una conclusión provisoria y relativamente certera, aunque no segura. Es un concepto muy utilizado en Estadística, para lo cual se usan diversas técnicas que permiten a partir de ciertos datos observables en una muestra, alcanzar un parámetro aproximado de una población.

Vamos a ver dos tipos de estimaciones: puntual y por intervalo. La segunda es la más natural. Y verás que forma parte habitual de nuestro imaginario como personas sin necesidad de una formación estadística. La primera, la estimación puntual, es la más sencilla y, por ese motivo, vamos a comenzar por ella. Ocurre, además, que la estimación por intervalo surge, poco más o menos, de construir un intervalo de posibles valores alrededor de la estimación puntual.


Resultado de imagen para estimacion

Una estimación puntual consiste en establecer un valor concreto (es decir, un punto) para el parámetro. El valor que escogemos para decir “el parámetro que nos preocupa vale X” es el que suministra un estadístico concreto. Como ese estadístico sirve para hacer esa estimación, en lugar de estadístico suele llamársele estimador. Así, por ejemplo, utilizamos el estadístico “media aritmética de la muestra” como estimador del parámetro “media aritmética de la población”. Esto significa: si quieres conocer cuál es el valor de la media en la población, estimaremos que es exactamente el mismo que en la muestra que hemos manejado.

La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable se encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de ocurrencia de los estadísticos muestrales.
b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la probabilidad de que el estimador se halle dentro de los intervalos de la distribución muestral.
c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se establece alrededor del estimador. Si repetimos el muestreo un gran número de veces y definimos un intervalo alrededor de cada valor del estadístico muestral, el parámetro se sitúa dentro de cada intervalo en un porcentaje conocido de ocasiones. Este intervalo es denominado "intervalo de confianza".

Resultado de imagen para nivel de confianza

INTERVALO DE CONFIANZA (I.C): es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad).  Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro poblacional.

Intervalo de confianza = media +- margen de error

Resultado de imagen para intervalo de confianza

I.C PARA MEDIAS CONOCIDAS Y POBLACIÓN NORMAL:

        

OBTENDRÍAMOS...

I.C DE UNA PROPORCIÓN: el intervalo de confianza para estimar una proporción p, conocida como una proporción muestral pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100% es:

{\displaystyle (p_{n}-z_{\alpha /2}{\sqrt {\frac {p_{n}(1-p_{n})}{n}}},\;p_{n}+z_{\alpha /2}{\sqrt {\frac {p_{n}(1-p_{n})}{n}}})}