MeV-GEO-Microarrays

Report
Bioinformatics – Functional Genomics – Dr. Víctor Treviño
MICROARRAYS EXCERSIZE - GEO
[email protected]
DESCARGUE

MeV del sitio de TM4 (www.tm4.org)
[email protected]
DATOS DE GEO (GENE EXPRESSION OMNIBUS,
NCBI)


GEO es una base de datos
genérica en formato
“standard” para almacenar y
compartir datos de
microarreglos
Como ejemplo vamos a
buscar datos de Cáncer de
Mama





Busque “Breast Cancer” en
GEO
Filtre para “Homo Sapiens”
Seleccione Series
Agregue “Schmidt” en el
query (deben aparecer 3)
Localice Schmidt-GehrmannBreast-GSE11121
[email protected]
TIPOS DE DATOS EN GEO
ARCHIVO/I
D
CONTENIDO
GSM…
Muestra
GPL…
Plataforma: Información del
diseño del microarreglo
GSE…
Matriz de datos, Serie
Original proporcionada por
autores
GDS…
Data Set : Procesado por el
NCBI, análisis básico ya
hecho
Otros
Información adicional
proporcionada por autores
Algo de
ayuda
del archivo
Descargue el Series Matrix File
[email protected]
CONOCIENDO EL ARCIVO GSE



Descomprima el
GSE11121...gz
Abra en Excel el archivo
GSE11121_series_matrix.tx
t (texto, delimitado)
Comentatios con (!)






Serie
Samples
Datos normalizados por
arreglo
Datos NO Normalizados
entre arreglos
Cada columna es una
muestra (GSM…)
Cada renglón es un gen
[email protected]
USO DE MEV



Abra MeV
Use FileLoad Data
MeV puede leer archivos de
diferentes formatos




El nuestro es de tipo
Affymetrix pero obtenido
desde GEO
Use Select File Loader  GEO
Files
Use “Spotted” para que no
cambie los datos.
MeV manual …

“In addition to being
formatted correctly, the input
data should already be
normalized.”
[email protected]
VISUALIZANDO DATOS EN MEV



Muestras en horizontal
Genes en Vertical
Color en la Intersección
es el valor de intensidad


Cambio de colores
(Scheme)
Y escalas (Scale)

Use valores cercanos al
Lower, MidPoint y Upper
[email protected]
NORMALIZACIÓN CON MEV


Siempre vea “Expression
Image”
Realice la operación Log2
(si los datos no son ya
logaritmicos)


Adjust  Log Trans..  Log2
Ahora nos falta normalizar
entre arreglos usamos…

Adjust  Sample 
Normalize Samples



Esto “Estandariza” los datos
vij = (vij – mean(vi)) / sd(vi)
Donde “i” es la muestra y “j”
es el gen
[email protected]
CAMBIE LIMITES

Ajuste la visualización
para que muestre





Verde = Valores de
expresión “BAJOS”
Negro = Valores de
expresión “Medios”
Rojo = Valores de
Expresión “ALTOS”
Límites “Prácticos”
menores que los
extremos
Considere los valores de
sus datos (encerrados en
óvalos)
Mínimo -4.31
“Distribución”
De los datos
0.05
50% datos (mediana)
+4.21 (máximo)
[email protected]
AGRUPANDO MUESTRAS


Dado que leímos un GEO, las
muestras no aparecen
agrupadas en MeV, tenemos
que indicar cuales son
nuestros grupos de muestras
para poder hacer operaciones
estadísticas
Para agrupar muestras…



Use Cluster Manager  Sample
Clusters
Use el botón Cluster by List
Import
En el texto puede pegar las
muestras que desee agrupar

Tiene que pegarlas
EXACTAMENTE como aparecen
en MeV (incluso comillas si estas
aparecen)
[email protected]
AGRUPANDO MUESTRAS

Para hacer los grupos requiere de
información clínica o relacionada a
las muestras del experimento

1.
2.
3.
Por ejemplo, puede guiarse del mismo
archivo GSE… data matrix.txt y de los
renglones “samples characteristics”
Copiar y pegar especial
(transposed) muestras e
información clínica y los nombres
Ordenar por carácterística (grade)
Agregar Comillas (usando la
función concatenate)
1.
4.
5.
1
2
3
=CONCATENATE("""",B2,"""")
Tomar los nombres de las
muestras y ponerlos en el “Cluster
Paste List” de Mev”, Use OK
Use Store Cluster y especifique el
Nombre (Label) y Color del grupo
4
5
[email protected]
GENES DIFERENCIALMENTE EXPRESADOS :
T-TEST


Statistics->T-test
Between Subjetcs


Variance Asumption



Para comparar un grupo vs
otro
Usar Unequal variance
Para que sea mas “general”
P-Value Parameters


0.05 cuando se hace 1
prueba, saldrán 5% de falsos
Vamos a hacer + 20,000
pruebas t, tenemos que fijar
el valor crítico mucho mas
abajo

Usar 0.00005 = (1/20000) o
incluso menor
[email protected]
VISUALIZACION DE GENES SIGNIFICATIVOS
Use t-Test Expression Image
Significant Genes
Información General
Se ve clara la diferencia?
No están muy bien
“ordenados” verdad?
[email protected]
VISUALIZACION DE GENES SIGNIFICATIVOS –
AGRUPAMIENTO JERÁRQUICO
Establezca los genes
significativos como la
“fuente de datos activa”
usando botón derecho y
Set as Data Source
(debe enmarcarse en
verde indicando la
activación)
Use ClusteringHierarchical
Active las 2 casillas de “Tree Selection” :
Gene Tree y Sample Tree
Use Euclidean Distance
Use “Average Linkage”
(vea siguiente diapositiva para explicación)
[email protected]
QUE ES AGRUPAMIENTO O CLUSTERING ?

Clustering son métodos de
agrupar objetos mediante la
similitud de sus propiedades




Por ejemplo puedo agrupar autos
en base a su color, forma, tamaño,
desempeño o potencia
También los puedo agrupar
considerando todas las
carácterísticas al mismo tiempo
Para agrupar objetos por
similitud, requerimos una función
de “similitud” o en su caso, una
función de distancia
Cual es la distancia entre
los puntos A y B ?
B
+3
A
+1
+3
-2
Una medida de distancia tipica es
la distancia euclideana
( x1  x 2 )  ( y1  y 2 )
2
2
[email protected]
COMO SE FORMAN LOS GRUPOS (CLUSTERS) ?


Como podrías agrupar
los objetos del A a la G
?
Que grupos se forman?



Claramente A+B+C vs
F+G+E
Donde ponemos a D ?
Junto A+B+C o junto
F+G+E ?
Observa el cluster ABC, A
y B están muy juntos,
deberíamos separar a C
?
D
A B
+3
C
E
F
+1
G
+3
-2
( x1  x 2 )  ( y1  y 2 )
2

2
[email protected]
AGRUPAMIENTO JERÁRQUICO O HIERARCHICAL
CLUSTERING





D
El método de agrupamiento
jerárquico considera y resuelve
las cuestiones observadas
Se basa en calcular una matriz de
distancias
Luego agrupa todos los pares de
muestras más cercanas (cuya
distancia sea mínima)


C
E
+1
F
G
+3
-2
( x1  x 2 )  ( y1  y 2 )
2
2
Por ejemplo AB, luego FG
Luego va uniendo las sobrantes
dependiendo de la distancia y el
método de ligamiento (linkage)

A B
+3
Más cercano (single linkage)
Más lejano (complete linkage)
Promedio (average linkage)



Mas usado en genómica funcional
E se uniría a FG luego C a AB
Luego D a EFG y luego DEFG a ABC

F
G E
D
C
A
B
[email protected]
AGRUPAMIENTO JERÁRQUICO O HIERARCHICAL
CLUSTERING
Matriz de Distancias
Datos
A
B
C
D
E
F
G
X
2.5
3
3.5
0
-1.5
-2
-1.5
Y
3
3
2
4
1.5
1
0.75
A
B
C
D
E
F
G
B
0.50
1.41
2.69
4.27
4.92
4.59
C
1.12
3.16
4.74
5.39
5.03
D
E
F
Promedio = 1.265
4.03 Promedio = 3.3
5.02 2.92
5.59 3.61 0.71
5.15 3.58 0.75 0.56
[email protected]
MUCHOS GENES Y MUESTRAS - DISTANCIA EN
HYPERPLANOS


En nuestro caso un objeto (A o
B) podría ser la muestra o el
gen.
Si el objeto es la muestra,
tenemos 1223 genes dif. Exp.,
¿como calculamos la distancia
euclideana?
 (x
ij
 xkj )
2

Donde Xij es la expresión del
gen j en la muestra i o k

Luego se obtiene la matriz de
distancias y luego el árbol
jerárquico
En 2 dimensiones, cual es la
distancia entre los puntos A y B ?
( x1  x 2 )  ( y1  y 2 )
2
+3
A
B
+1
-2
+3
2
[email protected]
VER ÁRBOL DE AGRUPAMIENTO JERÁRQUICO
(HIERARCHICAL CLUSTERING)

Seleccione HCL(2) 
HCL Tree
Grupo mayoritariamente
Grado 3
Grado 1
Grado 3
Grado 2
Clustering por Muestras
Grupo mayoritariamente
Grado 1
Clustering Por Genes
[email protected]
HIERARCHICAL CLUSTERING- GENES DIF.
EXPRESADOS
Grupo mayoritariamente
Grado 3
Grado 1
Grado 3
Grado 2
Grupo mayoritariamente
Grado 1
Genes expresados “BAJO” en Grupo 3 y “ALTO” en Grupo 1
[email protected]
HIERARCHICAL CLUSTERING- GENES DIF.
EXPRESADOS
Grupo mayoritariamente
Grado 3
Grado 1
Grado 3
Grado 2
Grupo mayoritariamente
Grado 1
Genes expresados “ALTO” en Grupo 3 y “BAJO” en Grupo 1
[email protected]
HIERARCHICAL CLUSTERING- GENES DIF.
EXPRESADOS
Grupo mayoritariamente
Grado 3
Grado 1
Grado 3
Grado 2
Grupo mayoritariamente
Grado 1
Genes con poca diferencia podrían ser “falsos”

similar documents