estadistica

Report
ESTUDIO ESTADÍSTICO
RECURRENCIA DE TSUNAMIS SOBREDIMENSIONADOS
EN LA BAHÍA DE QUINTERO
MODELO PREDICTIVO PROBABILÍSTICO
El contexto estadístico
El contexto estadístico
Distribución normal
El modelo de probabilidad más usado en estadística es la
distribución normal o gaussiana.
El contexto estadístico
Distribuciones con asimetría positiva y soporte mayor que cero
Sin embargo, muchos fenómenos naturales no pueden describirse
mediante la distribución normal ni mediante otras distribuciones
simétricas. Hay diversas áreas de la ciencia donde se requieren
modelos de probabilidad asimétricos.
El contexto estadístico
Distribuciones de vida
El análisis de tiempos de ocurrencia de eventos aleatorios es de
interés en ingeniería y medicina. Este tipo de variable estadística que
tiene asociada probabilidades (variable aleatoria) y que corresponde
al tiempo tiene una conducta frecuentemente asimétrica, tal como lo
indica el estudio pionero de:
• Davis (1952)
Y los textos de:
• Lawless (2002)
• Marshall & Olkin (2007).
La geología es también un área en donde hay interés por el estudio
de la ocurrencia de eventos recurrentes, como terremotos y
explosiones volcánicas.
El contexto estadístico
Modelos de daño acumulativo
En algunos análisis de ocurrencia de eventos en el tiempo se presenta
degradación o desgaste debido a acumulación de tensión induciendo a
una falla o ruptura cuando un umbral de resistencia es superado.
• Ingeniería: fatiga de materiales.
• Medicina: varios tipos de cáncer y enfermedades cardíacas crónicas.
• Calidad del aire: efecto acumulativo de contaminantes de la atmósfera.
• Calidad del agua: efecto acumulativo de nutrientes vegetales.
• Neurociencia: producción de espigas en neuronas.
• Salud pública: mortalidad humana asociada con diversos factores.
• Forestación: efecto del diámetro de un árbol en su mortalidad.
• Sismología: recurrencia de terremotos y tsunamis.
El contexto estadístico
Modelos de daño acumulativo
Las placas tectónicas que producen los terremotos y tsunamis van
acumulando tensión en el tiempo.
Con los terremotos, y tal como ocurre con la fatiga de materiales, no es
posible medir la cantidad de energía acumulada, transformándose ésta
en una variable latente. Sin embargo, sí es posible conocer la cantidad
de tiempo que ha transcurrido desde el terremoto predecesor, es decir
desde la ruptura anterior.
El contexto estadístico
Probabilidad condicional
Considere dos eventos aleatorios “A” y “B”. La probabilidad de que
ocurra “A” dado que ya ocurrió “B” se define como:
P(A | B) = P(A n B) / P(B)
En particular, considere “T” como el tiempo hasta ocurrencia de un
evento determinado y “A = { T > t }” y “B = { T < dt + t }”, entonces la
probabilidad de que ocurra le evento antes de tiempo dt + t, dado
que ya ha transcurrido un tiempo t es
P(T < dt + t | T > t) = P(t < T < dt + t) / P(T > t)
= (P(T < t + dt + t) - P(T < t ))/( 1- P(T < t))
t
dt + t
El contexto estadístico
Tasa de fallas o de riesgo
Considere una variable aleatoria T y sus fdp f(t) y fda F(t)
correspondientes. Entonces, la tasa de riesgo o amenaza es
h(t) = f(t) / (1 – F(t)); t > 0.
La tasa de fallas, amenaza o riesgo
indica qué tan propenso es que un
evento que no ocurrido hasta una
fecha determinada ocurra en el
instante inmediatamente siguiente.
Esta tasa no es una probabilidad
(sólo en el caso de variables
aleatorias discretas lo es, que no
es el caso del tiempo, ya que éste
es una variable continua),
La tasa de riesgo permite distinguir
distribuciones, lo que no es fácil
de hacer al mirar una fdp y su
histograma correspondiente.
Gráfico TTT
Los datos
Escenario 1
Tabla 1. Fechas en que ocurrieron los tsunamis sobredimensionados en Bahía de Quintero, de acuerdo al estudio geológico
Evento
A
B
C
D
E
F
G
H
I
J
Límite inferior
3984 A.C.
3639 A.C.
2919 A.C.
2340 A.C.
1775 A.C.
1637 A.C.
786 A.C.
3 D.C.
265 D.C.
1643 D.C.
Centro del intervalo
4082 A.C.
3672 A.C.
2970 A.C.
2407 A.C.
1860 A.C.
1688 A.C.
803 A.C.
42 D.C.
338 D.C.
1720 D.C.
Límite superior
4180 A.C.
3705 A.C.
3020 A.C.
2474 A.C.
1945 A.C.
1739 A.C.
819 A.C.
80 D.C.
410 D.C.
1796 D.C.
Escenario 2
Tabla 2. Fechas en que ocurrieron los tsunamis sobredimensionados en Bahía de Quintero, de acuerdo al estudio geológico,
más un dato imputado
Evento
A
B
C
D
E
F
G
H
I
I’
J
Límite inferior
3984 A.C.
3639 A.C.
2919 A.C.
2340 A.C.
1775 A.C.
1637 A.C.
786 A.C.
3 D.C.
265 D.C.
835 D.C.
1643 D.C.
Centro del intervalo
4082 A.C.
3672 A.C.
2970 A.C.
2407 A.C.
1860 A.C.
1688 A.C.
803 A.C.
42 D.C.
338 D.C.
890 D.C.(*)
1720 D.C.
Límite superior
4180 A.C.
3705 A.C.
3020 A.C.
2474 A.C.
1945 A.C.
1739 A.C.
819 A.C.
80 D.C.
410 D.C.
945 D.C.
1796 D.C.
El modelo predictivo probabilístico
El modelo predictivo probabilístico
Basados en los comentarios del “contexto estadístico-modelos de
daño acumulativo”, contamos con 2 elementos que nos
ayudaron a escoger el modelo estadístico usado en el análisis.
Estos elementos son:
(i) El tiempo entre ocurrencias de terremotos gigantes y
(ii) a acumulación de energía, cuya liberación después de
(iii) superar el umbral de resistencia, provoca la ocurrencia del
evento sísmico que genera los tsunamis.
Estos dos elementos permiten proponer una clase de
distribuciones estadísticas de daño acumulativo como modelos
predictivos probabilísticos. Éstas son:
•
•
•
•
•
La
La
La
La
La
distribución
distribución
distribución
distribución
distribución
Birnbaum-Saunders (BS) o de fatiga,
gamma,
gaussiana inversa (GI),
log-normal y
Weibull.
Análisis exploratorio de los datos
Tabla 4. Resumen de estadísticas descriptivas de tiempos (en años) para los escenarios indicados
Análisis exploratorio de los datos
Datos
Escenario 1 (izq)
Esc. 1 (centro)
Escenario 1 (der)
Escenario 2 (izq)
Esc. 2 (centro)
Escenario 2 (der)
Mediana
512.0
562.5
614.0
496.0
557.5
619.5
Promedio
587.7
644.6
701.5
523.5
580.2
636.9
D.E.
370.7
364.2
359.5
254.6
240.0
227.2
C.V.
63.1%
56.5%
51.3%
48.6%
41.4%
35.6%
C.S.
0.48
0.60
0.71
-0.21
-0.23
-0.26
C.C.
-0.89
-0.67
-0.45
-1.44
-1.41
-1.35
Rango
1222.5
1210.0
1197.5
747.5
713.5
679.5
Mín.
87
172
257
87
172
257
Máx.
1309.5
1382.0
1454.5
834.5
885.5
936.5
n
9
9
9
10
10
10
Elección del modelo
Tabla 5.
4. Indicadores
Resumen dede
estadísticas
bondad dedescriptivas
ajuste y criterios
de tiempos
de selección
(en años)
de para
modelos
los escenarios
para las distribuciones
indicados
y escenarios indicados
Elección del modelo
Distribución
BS
Escenario 1
Valor-p KS
0.911
Escenario 1
AIC
BIC
133.571 133.966
R2
99.94%
Escenario 2
Estimación del
modelo predictivo probabilístico
Tabla 5.
4. Indicadores
Resumen dede
estadísticas
bondad dedescriptivas
ajuste y criterios
de tiempos
de selección
(en años)
de para
modelos
los escenarios
para las distribuciones
indicados
y escenarios indicados
Estimación del modelo predictivo probabilístico
Intervalo de tiempo (0, t1)
Dentro de 5 años más
Dentro de 10 años más
Dentro de 15 años más
Dentro de 20 años más
Dentro de 25 años más
Dentro de 50 años más
Dentro de 100 años más
Dentro de 200 años más
Dentro de 300 años más
Dentro de 400 años más
Dentro de 500 años más
Dentro de 600 años más
Escenario 1
Escenario 1
Probabilidad(0 < T <
282)
Centro
Límite
inferior
0,80%
0,60%
1,60%
1,20%
2,50%
1,80%
3,30%
2,50%
4,10%
3,10%
8,20%
6,40%
16,50%
13,40%
32,20%
28,30%
46,20%
42,70%
58,00%
55,60%
67,70%
66,40%
75,50%
75,10%
t1 | T >
Límite
superior
0,40%
0,80%
1,20%
1,70%
2,10%
4,50%
10,00%
23,00%
37,10%
50,70%
62,60%
72,50%
Escenario 2
Probabilidad(t1 < T < t2 | T >
282)
Centro
Límite
Límite
inferior
superior
0,90%
0,60%
0,30%
1,90%
1,20%
0,60%
2,90%
1,90%
1,00%
3,80%
2,60%
1,40%
4,80%
3,30%
1,70%
9,70%
6,90%
3,90%
19,70%
15,10%
9,50%
38,90%
33,50%
25,10%
55,40%
51,40%
43,40%
68,40%
66,50%
60,70%
78,30%
78,10%
74,60%
85,40%
86,20%
84,60%
Escenario 2
Tasa de riesgo
Escenario 1
Escenario 2
Conclusiones
Conclusiones
Mediante estudios históricos y geológicos se reconoció la
ocurrencia de 10 tsunamis sobredimensionados en la Bahía
de Quintero durante los últimos 6.000 años.
•
• El análisis estadístico realizado se basó en los datos de
tiempos transcurridos entre tsunamis, que ocurrieron en
promedio cada 600 años, lo que estadísticamente es una
muestra pequeña.
• Ya que las fechas de los eventos consistieron de intervalos
y no datos puntuales, esto se solucionó a través de métodos
para datos simbólicos por intervalos.
Conclusiones
•Una tercera dificultad fue considerar un evento no detectado por la
geología mediante imputación de datos, contando así con dos
escenarios de observaciones de tiempos de ocurrencia. El análisis
estadístico fue realizado en ambos escenarios.
• Primero se realizó un análisis exploratorio para validar los modelos
predictivos probabilísticos propuestos que permitieron predecir la
probabilidad de ocurrencia de tsunamis sobredimensionados en la Bahía
de Quintero.
• Luego se usaron métodos de bondad de ajuste y de selección para
escoger los modelos predictivos probabilísticos adecuados. En ambos
escenario el modelo basado en la distribución Birnbaum-Saunders
resultó ser muy apropiado. Este modelo fue usado para estimar las
probabilidades de ocurrencia de tsunamis sobredimensionados en
Quintero, obteniéndose resultados relativamente similares para ambos
escenarios.
Conclusiones
•Las probabilidades condicionales al tiempo transcurrido
desde el último evento (1730), permitieron detectar los
mayores riesgos de ocurrencia alrededor de los próximos
900 y 800 años para los escenarios 1 y 2, respectivamente.
• Desde el punto de vista del “peor escenario posible” y
considerando que la vida útil de la planta es de 25 años, los
resultados indican que existe una probabilidad cercana al
5% de que ocurra un tsunami sobredimensionado en
Quintero .
• Si se considera una perspectiva de 50 años, a partir de
hoy, la probabilidad se duplica siendo cercana al 10%. Esto
quiere decir que hay una posibilidad en diez de que ocurra
un evento de ese tipo durante los próximos 50 años.
Conclusiones
•Aumentando la perspectiva temporal, la probabilidad de
ocurrencia de un tsunami sobredimensionado en los
próximos 100 años alcanza al 20% y aproximadamente al
40% a los 200 años.
• Las probabilidades continúan aumentando en forma más o
menos lineal llegando a estabilizarse aproximadamente
cerca de los próximos 800 años, valor que podría
considerarse como uno de los instantes más probables de
que ocurra un tsunami sobredimensionado en Quintero.
• Finalmente, los modelos predictivos probabilísticos
paramétricos usados fueron contrastados con una
metodología no paramétrica basada en la tasa de riesgo que
proporcionó resultados totalmente coherentes y coincidentes
entre estas metodologías paramétrica y no paramétrica.

similar documents