Обработка данных NGS

Report
Обработка данных
секвенирования следующего
поколения в один клик
Афанасьев Андрей,
Генеральный директор iBinom
Проблемы текущих решений
•
•
•
•
•
Сложная установка
Сложная настройка
Медленная работа
Плохая воспроизводимость результатов
Плохая визуализация результатов
Задача
Сделать продукт по анализу данных NGS для
диагностики наследственных заболеваний
для врачей:
– Простой интерфейс
– Минимум настроек
– Высокая скорость работы и воспроизводимость
результатов
– Высокая точность
Технические сложности
• Алгоритмическая сложность и
ресурсоемкость (до 1000 CPU*h на анализ)
• Большой объем входных данных (1-500 Гб)
• Разные форматы данных FastQ (длины
ридов, качество в phred33/phred64)
• Обеспечение безопасности передачи и
хранения данных
Подход
•
•
•
•
•
•
Фильтрация ридов по качеству
Картирование
Фильтрация по таргетным регионам
Поиск SNP и коротких indel
Аннотация
Сортировка по патогенности и
формирование отчета
Реализация
• Распределенные вычисление в облаке Amazon
в рамках парадигмы MapReduce
(неограниченная масштабируемость)
• Хранение данных в S3
• Картирование BWA-MEM
• Референс hg19 GRCh37.p13 assembly, ver. 73.37
• Коллинг SamTools
• Аннотация SnpEff
• Собственная оценка патогенности –
ibinom score
Выравнивание
(симулированные данные)
Total Correct Reads (%) Incorrectly Mapped Unmapped Reads (%)
Reads (%)
iBinom
Bowtie2
Bwa
7863529
101527
7
98.73%
1.27%
0.00%
7670364
251234
41901
96.32%
3.15%
0.53%
7363467
81561
518471
92.47%
1.02%
6.51%
Коллинг
Коллинг
iBinom Score
• Машинное обучение с помощью алгоритма
градиентного бустинга
• Обучающая выборка:
– Патогенные: записи из dbsnp c clinvar clinical
significance = pathogenic
– Непатогенные: записи из dbsnp c частотой
самого редкого аллеля >5% во всех популяциях
iBinom Score
Точность: 93.44%
Полнота: 90.96%
F-measure: 92.18%
Обучение по базам и скорам:
1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl
Project, EntrezGene, Exome Variant Server,
GeneReviews, GERP++, GO, MutationAssessor,
MutationTaster, Orpha Date, Reactome, RefSeq,
SeattleSeq, SiPhy, snpEff, UniProt и др.
Использование iBinom
1. Поддерживается любой FASTQ файл, включая
архивы .gz, кроме colorspace
2. Встроенный тримминг адаптеров
3. Можно объединять несколько файлов в один
образец
4. Можно скачать vcf-файл (в формате v.4.1)
5. Для передачи используется шифрованное
соединение https
Планы
1. Система подбора болезней
(по симптомам, по списку генов, по списку
болезней)
2. Ветвление пайплайна
(например, выравнивание TMAP для
IonTorrent)
3. Переделка и упрощение интерфейса
программы
Приглашаем к
сотрудничеству!
[email protected]

similar documents