martes, 13 de marzo de 2012

Procesos estocásticos discretos y contínuos

En este tema tomaré el lanzamiento de un dado de seis lados como base de explicación de este tema, en donde se buscara la probabilidad de que obtengamos el número 6 .


Para tener un mejor entendimiento del problema se explicarán las distintas distribuciones discretas y continuas que existen, ya que con ello se entendería el por que el usó de la distribución que se eligió.

Distribuciones Discretas
En estas la variable puede tomar un número determinado de valores que pueden ser finitos o infinitos numerables; donde con infinito numerable se refiere a la cantidad que es muy grande y por serlo nadie se da lujo de enumerar, sin embargo tiene un límite y se puede cuantificar que es lo mismo a calcular.

Ejemplo: 
  • La cantidad de galaxias que existen en el universo.
  • La cantidad de granos de arena en el mar.
  • Veces en las que cae un número par o impar en un dado.
  • El lanzamiento de una moneda en las que sale una cara o cruz.
  • Cantidad de hombres o mujeres en un salón.
En las distribuciones discretas se destacan los siguientes:

La distribución de Bernouilli es el modelo que sigue un experimento que se realiza una sola vez y que puede tener dos soluciones:

Éxito; donde toma el valor de 1
Fracaso; donde toma el valor de 0

Donde únicamente hay dos soluciones  de sucesos complementarios:

A la probabilidad de éxito se le denomina "p"

A la probabilidad de fracaso se le denomina "q"

Por lo tanto:

p + q = 1

Ejemplo:

Probabilidad de acertar una quiniela:

Probabilidad de acertar p = 0.00001

Probabilidad de no acertar q = 0.99999

Por lo tanto:

p + q = 0.000001 + 0.99999

La distribución binomial es parte de la distribución de Bernouilli:
       
      La distribución de Bernouilli se aplica cuando se realiza una sola vez un experimento que tiene
      únicamente dos posibles resultados éxito o fracaso, por lo que la variable sólo puede tomar dos
      valores: el 1 y el 0.
      
      La distribución binomial se aplica cuando se realizan un número "n" de veces el experimento de
      Bernouilli, siendo cada ensayo independiente del anterior, donde la variable puede tomar los 
      valores 0 (si todos los experimentos han sido fracaso) y n (si todos los experimentos han sido
      éxitos).

Donde se sigue el siguiente modelo:


Para entenderlo veremos el siguiente ejemplo:

¿Cuál es la probabilidad de obtener cuatro veces el número 3 al lanzar un dado 8 veces?

Donde k es el número de aciertos en este caso se toma el valor 4, n es el número de veces lanzado por lo tanto el valor de n será 8 y p es la probabilidad de que salga un 3 al tirar el dado en este caso será 1/6 que es igual a 0.1666 .

Ya desarrollado el problema nos quedaría así:


Por lo tanto obtenemos:

P(x = 4) = 0.026

Con esto queremos decir que tiene una probabilidad de 2.6% de obtener 4 veces el número 3 al tirar un dado 8 veces.

La distribución de Poisson parte de la distribución binomial:
       
       Cuando en una distribución binomial se realiza el experimento un número n muy elevado de 
       veces y la probabilidad de éxito p en cada ensayo es reducida, entonces se aplica el modelo
       de distribución de Poisson:

En donde tiene que cumplir con lo siguiente:

p < 0.10 

p * n < 10

En el cual se sigue el siguiente modelo:


Donde:

Tenemos que e es una constante que es igual a 2.71828, lambda es igual a número de veces n que se realiza el experimento por la probabilidad p de éxito en cada ensayo, y  k es el número de éxito cuya probabilidad se está calculando.

Ahora veamos el ejemplo:

La probabiliad de que un niño naza pelirrojo es de 0.012, ¿Cuál es la probabilidad de que entre 800 recien nacidos haya 5 pelirrojos?

Podemos identificar que p es menor que 0.1 y el producto de n * p es menor que 10, entonces aplicamos el modelo de  distribución de Poisson.


Por lo tanto:

P(x=5) = 4.602

Entonces la probabilidad de que haya 5 pelirrojos entre 800 recien nacidos es del 4.6% .

Distribuciones Continuas

Estos pueden tomar cualquiera de los infinitos valores existentes dentro de un intervalo.

Ejemplo:
  • Mantenimiento de alguna computadora, en las que interviene el tiempo que existe hasta que se vuelva a descomponer.
  • Crecimiento relativo anual de alguna población  de un país o región.
  • El periodo de incubación de una enfermedad, ya que una enfermedad nunca es exacta aún si está es la misma.
  • Nivel de líquido de un embalse.
  • Cantidad de decimales que se pueden encontrar entre 0 y 1 de una regla; siendo decimales los números después de la coma.
En las distribuciones continuas se destacan las siguientes:

La distribución uniforme es aquella que puede tomar cualquier valor dentro de un intervalo, todos ellos con la misma probabilidad, se dice que es una distribución continua porque puede tomar cualquier valor y no únicamente un número determinado.

La función de densidad es aquella que nos permite conocer la probabilidad que tiene cada punto del intervalo, y viene modelado de la siguiente manera:


En donde b es el extremo superior(si hablamos del 1 al 100, 100 sería nuestro valor extremo superior) y a es el extremo inferior(si hablamos del 1 al 100, 1 sería nuestro valor extremo inferior).

El valor medio de dicha distribución se calcula de la siguiente manera:

 

Ejemplo:

El volumen de precipitaciones estimado para el próximo año en la cuidad de Sevilla va a oscilar entre 400 y 500 litros por metro cuadrado.Calcular la función de distribución y la precipitación media esperada:


Es decir, que el volumen de precipitaciones esté entre 400 y 401 litros tiene un 1% de probabilidades; que esté entre 401 y 402 litros, otro 1%, etc.

El valor medio esperado es:


Donde la precipitación media estimada en Sevilla para el próximo año es de 450 litros.

La distribución normal o gaussiana es el modelo de distribución más utilizado en la práctica, ya que multitud de fenómenos se comportan según una distribución normal, dicha distribución se caracteriza porque los valores se distribuyen formando una campana de Gauss, en torno a un valor central que coincide con el valor medio de la distribución:


Donde hay un 50% del lado izquierdo y derecho.Está distribución viene definida por dos parámetros:

X: N(m, sˆ2)

Donde m es el valor medio de la distribución y es precisamente donde se sitúa el centro de la curva, sˆ2 es la varianza, esto indica si los valores están más o menos alejados del valor central, si la varianza es baja los valores están próximos a la media y si es alta, entonces los valores están muy alejados de ella, se representa por sˆ2 por que su raiz cuadrada, s, es la denominada desviación estandar.

Cuando la media de la distribución es 0 y la varianza es 1, se denomina normal tipificada, y su ventaja reside en que hay tablas o rutinas de cálculo que permiten obtener esos valores, donde se recoge la probilidad acumulada para cada punto de la curva de esta distribución.

El modelo de la distribución normal  es el siguiente:


Ahora ya explicado lo anterior eligiré una distribución binomial, ya que quiero saber la probabilidad de que nos salga un número impar o par y necesitamos mas de una prueba.

Problema planteado

¿Cuál es la probabilidad de obtener 5 veces el número 6 al lanzarlo 30 veces?

Primero tenemos que identificar la probabilidad que tenemos de conseguir un numero par:

El cual será 1/6, por lo tanto p vale 0.1666,  n es igual a 30 y k es igual a 4 que es las veces que deseamos obtener dicho resultado.

Para ello usaremos el siguiente modelo:


Por medio de octave se hizo una función en la que se usa está formula:

function binomial(n, p, filename)
  q = 1 - p;
  output = fopen(filename, "w");
  for k = 0 : n
    fprintf(output, "%d %f\n", k, bincoeff(n, k) * p**k * q**(n - k));
  endfor
  fclose(output);
endfunction

Donde k es el número de intentos y bincoeff(n, k) es una forma simplificada de octave que nos permite resolver el coeficiente binomial, a lado de ello multiplicamos p elevada a la k por 1-p que en este caso es q elevada a la n-k.

Luego en octave lo usamos de la siguiente manera(siempre y cuando estes en la misma dirección del archivo):

binomial(30,0.1666,"lanzamientos.dat")

Donde el primer valor es n número de veces, el segundo valor es la p probabilidad de éxito y por último el nombre que deseamos del archivo.Y como resultados obtuve lo siguiente:


Ahora si vemos que el resultado de obtener 5 veces el número 6 al tirar 30 veces el dado nos da como resultado 0.1920 por lo tanto hay un 19.20% de probabilidad de obtener ese resultado.

Ahora generamos nuestra gráfica con Gnuplot:


Ahora deseamos hacerla continua, viendo las distribuciónes anteriores la única que se me hizo mas semejante al momento de generar las gráficas fue la normal, ya que me genera una campana gaussiana.

Para ello debemos calcular nuestra media y desviación estándar.

Donde la media es igual a n * p donde n sería el total de veces que quieres que aparezca y que p sería la probabilidad.


Ahora nuestra desviación estándar donde necesitamos sacar la raíz cuadrada n p q donde q es la resta de 1- p.


Luego determinamos el valor de Z que es el número de desviaciones estándar de x respecto a la media de distribución.Donde su formula es la siguiente:

 Donde x es el valor de la variable aleatoria, np es la media de la distribución de esta variable aleatoria y s es la desviación estándar de esta distribución.

Ahora si lo resolvemos nos daremos cuenta que 0.00097995 nuestra Z, ahora hay que comprobar que nuestra gráfica puede ser aproximada con nuestra distribución binomial en donde por medio de una función normcdf en Octave determinamos la probabilidad de obtener 5 veces el número 6 al lanzarlo 30 veces, en donde obtenemos 0.50039 por lo tanto tenemos un 50.03% de probilidad de obtener dicho resultado, comparandolo con nuestro resultado de la distribución binomial vemos que tenemos 0.61683 por lo que tenemos un 61.68% de probabilidad.

Aquí vemos la gráfica con gnuplot de la distribución normal.

Ahora comparamos.


Para llegar a dichos resultados me base en el código de mi compañero Juan Carlos, ya que tuve ciertos problemas al momento de aproximar dichas distribuciones.

function Normal(n, p)
distBin = fopen("binomial.dat", "w");
distNor = fopen("normal.dat", "w");

#Determinamos nuestra media, desviacion estandar y q
media = n * p;
q = 1.0 - p;
desviacion_estandar = sqrt(n*p*q);
k = 0.0;

while(k < n)
    #Determinamos Z
  z = (k - media) / desviacion_estandar;
    # Con esta funcion creamos grafica de una distribucion normal
normal = normpdf(z, 0, 1);
    # Ajustamos nuestra grafica en base a la altura de las lineas
y = desviacion_estandar * (bincoeff(n, k) * p**k * q**(n - k));
    #Se ajusta la altura con refencia a la distribucion normal
fprintf(distBin, "%f %f\n",z , y);
    # Se imprime nuestra Distribucion normal
fprintf(distNor, "%f %f\n",z , normal);
k = k + 0.1;

  endwhile
  fclose(distBin);
  fclose(distNor);

endfunction



Links referencia:

www-users.math.umd.edu

http://nutriserver.com/Cursos/Bioestadistica/Distribuciones_Continuas.html

http://nutriserver.com/Cursos/Bioestadistica/Distribuciones_Discretas.html

http://www.gestiopolis.com/recursos/experto/catsexp/pagans/eco/44/distrinormal.htm