Miejsca wiązania czynników transkrypcyjnych

Report
Instytut Automatyki
Politechnika Śląska
Gliwice
Gliwice 2010
Zależności pomiędzy poziomem mRNA i białek
N=2468
R2=0.58
N=423
R2=0.47
drożdże
bakterie e. coli
N=511
R2=0.22
człowiek
(Abreu et al. 2009)
Centralny dogmat biologii molekularnej
Transkrypcja i translacja są wieloetapowymi procesami
regulowanymi na wiele sposobów.
TF
+/-
+/-
DNA
RBP
RNA
transkrypcja
-
Białko
translacja
miRNA/siRNA
Wszystkie 3 mechanizmy bazują na rozpoznawaniu określonych wzorców w
sekwencji nukleotydowej
Obszar promotora genu
Długość obszaru promotora nie jest jednoznacznie określona
TF
TF
DNA
TFBS TFBSTFBS
TFBS
sekwencja genu
obszar promotora
Białka z rodziny czynników transkrypcyjnych wiążą się z obszarami sekwencji o
długości 5-20+ nukleotydów o niejednoznaczne określonej budowie
Mechanizmy działania
 Stabilizacja bądź blokowanie
wiązania polimerazy do DNA
 Przyłączanie innych białek tzw.
koaktywatorów bądź korepresorów
do kompleksu DNA z czynnikiem
transkrypcyjnym
 Wzmacnianie bądź osłabianie
oddziaływań pomiędzy DNA i
histonami czyniąc DNA bardziej
dostępnym na potrzeby procesu
transkrypcji
Wielkoskalowe sposoby oznaczania
Metoda doświadczalna - mikromacierze ChIP-on-chip:
 Możliwość badania jedynie określonych fragmentów genomu
uzależnionych od sekwencji sond
 Dane wymagają bardzo skomplikowanego preprocesingu
 Bardzo wysoki koszt
Metody obliczeniowe – macierze wag pozycji (PWM)
 Duża liczba fałszywie dodatnich wyników
 Problemy z oszacowaniem parametrów analizy
 Niski koszt (dostęp do bazy danych motywów)
Obecność miejsca wiązania danego czynnika transkrypcyjnego nie jest
jednoznaczne z tym, iż wpływa on na ekspresje sąsiadującego genu!
Konstrukcja macierzy wag pozycji (PWM)
Czynniki transkrypcyjne wiążą się z obszarami sekwencji o niejednoznacznie określonej
budowie nukleotydowej budując wiązania o różnej sile uzależnionej od jakości dopasowania.
n
GTATAAAAAGCGG
CTATAAAAGGCCC
GTATAAAGGGGCG
GTATATAAGCGCG
CTATAAAGGGGCC
GTATAAAGGCGGG
G
C
G
G
C
G
T
T
T
T
T
T
A
A
A
A
A
A
T
T
T
T
T
T
A
A
A
A
A
A
A
A
A
T
A
A
A
A
A
A
A
A
A
A
G
A
G
G
A
G
G
G
G
G
G
G
G
C
G
C
A
C
G
T
1
0
2
4
0
2
0
0
0
6
3
6
0
0
0
4
0
0
0
6
5
6
0
0
0
6
5
0
0
1
7
6
0
0
0
8
3
0
3
0
9 10 11 12 13
1 0 0 0 0
0 2 2 4 2
5 4 4 2 4
0 0 0 0 0
sekwencja TATA-box
skala logarytmiczna
C
C
G
G
G
G
G
C
C
C
C
G
G
C
G
G
C
G
N
Wykorzystanie macierzy wag pozycji
Badanie obecności miejsc wiążących na podstawie PWM
S = ??
PWM
ATGCTGATGCTAGCTAGCGATCACTACTAGCTACGGATGCTAGCTACTAGCTACGT
n
pm/pb - prawdopodobieństwo występowania nukleotydu si na pozycji i wynikające z
modelu/tła(obszaru badanej sekwencji)
Podstawowe problemy:
 Problem niezaobserwowanych nukleotydów
 Liczba motywów zależna od składu zasad badanej sekwencji
Wyznaczanie miary dopasowania
N – liczba modeli użytych do stworzenia PWM
ε – „pseudo zliczenie” (0.01)
wm – ilość zliczeń dla nukleotydu si w PWM
określone przez procentowy skład GC
genomu/fragmentu badanej sekwencji
Miary dopasowania motywu wymagają normalizacji tak aby możliwe było stworzenie jednej
reguły określającej jej znamienność dla wszystkich motywów
 Motywy sekwencyjne maja różną długość (n)
 Liczba motywów użytych do stworzenia macierzy jest inna (N)
Minimalna wartość miary dopasowania określająca znamienność biologiczną jest
kompromisem miedzy czułością a specyficznością metody
Implementacje metod:
Paster
Hertz et al.
1990
Match
Kel et al.
2003
rVISTA
Loots et al.
2003
Consite
Sandelin et al.
2004
Mapper
Marinescu et al.
2005
Sieci
neuronowe
Modele
nieparametryczne
Łańcuchy
Markova
Dostępne metody w większości oferowane są na zasadzie tzw. chmur
obliczeniowych (cloud computing) z wieloma ograniczeniami odnośnie
sposobu prezentacji wyników i rozmiaru danych wejściowych.
Większość z nich jest zbyt skomplikowane aby możliwe było ich
wykorzystanie do globalnej analizy podczas gdy ich skuteczność nieraz nie
jest większa od przedstawionego podejścia.
>NF-kappaB MA0061.1
A [ 0 0 1 25 19 7 1 2 2 0 ]
C [ 0 0 0 0 13 1 2 17 35 36 ]
G [38 38 37 13 1 3 2 0 0 0 ]
T [ 0 0 0 0 5 27 33 19 1 2 ]
format Jaspar
format GeneBank
Results table
format Fasta
Założenia
 Zbadano występowanie czynników transkrypcyjnych w obszarach promotorowych 22
tysięcy ludzkich genów sięgających 5 tysięcy nukleotydów od miejsca startu
transkrypcji + sekwencje odpowiadających im genów.
 Użyto 75 motywów sekwencyjnych w formacie PWM odpowiedzialnych za interakcje z
czynnikami transkrypcyjnymi
 Rozkład występowania przedstawiono za pomocą ilości motywów występujących od
danej pozycji badanej sekwencji
1 2 3 4 5 6 7 8 9 10
Liczba wystąpień motywów na danej pozycji
może być opisana rozkładem:
 Normalnym
4 4 4 4 4 3 3 3 2 1
Sekwencje genów maja różną długość
konieczne jest zatem uniezależnienie wyników
od ilości sekwencji na danej pozycji
 Chi-kwardat
 F Snedecora
 Poissona
 Gumbela
Korelacja pomiędzy liczbą motywów a składem GC
rs=-0.75
p < 10-250
Korelacja pomiędzy składem GC a długością motywu PWM
rs=0.13
p < 2.62
Liczba TFBS zależy bardzo silnie od stosunku zasad AT/GC badanej sekwencji.
Klasyczne metody oparte na korekcji prawdopodobieństwa wystąpień w
oparciu o skład GC są nieskuteczne dla obszarów promotora do 1000 par
zasad ze względu na gwałtowną zmianę stosunku nukleotydów AT/GC
L = 0-42%
H1 = 42-47%
H2 = 47-52%
H3 = 52-100%
(Zoubak et al. 1996)
Miejsca wiązania czynników
transkrypcyjnych występują stosunkowo
często w genomie ze względu na ich niską
specyficzność jednak najrzadziej w
okolicy genów za których regulacje są
odpowiedzialne.
Dziękuje za uwagę
Rola
8
11
41,30
78,34
8
51,14
8
68,75
10
10
42,86
7
6
57,94
57,63
51,36

similar documents