Сжатие данных геномного секвенирования - Compression of Genomic Sequencing Data - Wikipedia

Секвенирование с высокой пропускной способностью технологии привели к резкому снижению затрат на секвенирование генома и к удивительно быстрому накоплению геномных данных. Эти технологии позволяют проводить амбициозные попытки секвенирования генома, такие как Проект 1000 геномов и 1001 (Arabidopsis thaliana) Геномы проекта. Хранение и передача огромного количества геномных данных стали основной проблемой, побудившей к разработке высокопроизводительных инструментов сжатия, разработанных специально для геномных данных. Недавний всплеск интереса к разработке новых алгоритмов и инструментов для хранения и управления данными геномного повторного секвенирования подчеркивает растущий спрос на эффективные методы сжатия геномных данных.

Общие понятия

Хотя стандартные инструменты сжатия данных (например, zip и rar) используются для сжатия данных последовательности (например, GenBank плоские файлы ), этот подход критиковали за экстравагантность, поскольку геномные последовательности часто содержат повторяющееся содержимое (например, микросателлитные последовательности ) или многие последовательности демонстрируют высокий уровень сходства (например, несколько последовательностей генома одного и того же вида). Кроме того, статистические и теоретико-информационные свойства геномных последовательностей потенциально могут быть использованы для сжатия данных секвенирования.[1][2][3]

Рисунок 1: Основные этапы рабочего процесса для сжатия данных геномного повторного секвенирования: (1) обработка исходных данных секвенирования (например, сокращение исходного набора данных до только вариаций относительно указанной эталонной последовательности; (2) кодирование обработанных данных в двоичную форму ; и (3) декодирование данных обратно в текстовую форму.

Базовые варианты

При наличии эталонного шаблона необходимо записывать только различия (например, одиночные нуклеотидные замены и вставки / делеции), что значительно сокращает объем информации, которую необходимо сохранить. Понятие относительной компрессии очевидно, особенно в проектах повторного секвенирования генома, целью которых является обнаружение вариаций в отдельных геномах. Использование эталонного однонуклеотидного полиморфизма (SNP ) карта, например dbSNP, можно использовать для дальнейшего увеличения количества вариантов для хранения.[4]

Относительные геномные координаты

Еще одна полезная идея - хранить относительные координаты генома вместо абсолютных.[4] Например, представление оснований вариантов последовательности в формате ‘Position1Base1Position2Base2…»,« 123C125T130G »можно сократить до« 0C2T5G », где целые числа представляют интервалы между вариантами. Стоимость представляет собой скромные арифметические вычисления, необходимые для восстановления абсолютных координат, плюс сохранение поправочного коэффициента («123» в этом примере).

Предварительная информация о геномах

Дальнейшее сокращение может быть достигнуто, если заранее известны все возможные положения замен в пуле последовательностей генома.[4] Например, если все местоположения SNP в человеческой популяции известны, то нет необходимости записывать информацию о координатах вариантов (например, «123C125T130G» можно сократить до «CTG»). Однако этот подход редко бывает уместным, потому что такая информация обычно неполна или недоступна.

Кодирование геномных координат

Кодирование схемы используются для преобразования координатных целых чисел в двоичную форму для обеспечения дополнительного усиления сжатия. Кодирование дизайнов, таких как Код Голомба и Код Хаффмана, были включены в инструменты сжатия геномных данных.[5][6][7][8][9][10] Конечно, схемы кодирования влекут за собой сопутствующие алгоритмы декодирования. Выбор схемы декодирования потенциально влияет на эффективность поиска информации о последовательности.

Выбор дизайна алгоритма

Универсальный подход к сжатию геномных данных не обязательно может быть оптимальным, поскольку конкретный метод может быть более подходящим для конкретных целей и задач. Таким образом, несколько вариантов дизайна, которые потенциально влияют на производительность сжатия, могут быть важны для рассмотрения.

Контрольная последовательность

Выбор эталонной последовательности для относительного сжатия может повлиять на эффективность сжатия. Выбор согласованной эталонной последовательности вместо более конкретной эталонной последовательности (например, пересмотренной эталонной последовательности) Кембриджская эталонная последовательность ) может привести к более высокой степени сжатия, поскольку согласованная ссылка может содержать меньше смещений в своих данных.[4] Однако сведения об источнике сжимаемой последовательности могут быть использованы для достижения большей эффективности сжатия. Была предложена идея использования множественных эталонных последовательностей.[4] Brandon et al. (2009)[4] упоминалось о потенциальном использовании шаблонов эталонных последовательностей, специфичных для этнических групп, с использованием сжатия митохондриальная ДНК вариантные данные в качестве примера (см. рисунок 2). Авторы обнаружили смещенное распределение гаплотипов в митохондриальная ДНК последовательности африканцев, азиатов и евразийцев относительно пересмотренных Кембриджская эталонная последовательность. Их результат предполагает, что пересмотренный Кембриджская эталонная последовательность не всегда может быть оптимальным, потому что необходимо сохранить большее количество вариантов, когда он используется против данных от этнически удаленных лиц. Кроме того, эталонная последовательность может быть разработана на основе статистических свойств. [1][4] или спроектированный [11][12] для улучшения степени сжатия.

Схемы кодирования

Было изучено применение различных типов схем кодирования для кодирования оснований вариантов и геномных координат.[4] Фиксированные коды, такие как Код Голомба и Код риса, подходят, когда вариантное или координатное (представленное как целое) распределение хорошо определено. Коды переменных, такие как Код Хаффмана, обеспечивают более общую схему энтропийного кодирования, когда лежащий в основе вариант и / или распределение координат не четко определены (обычно это имеет место в данных геномной последовательности).

Список инструментов сжатия данных геномного повторного секвенирования

Степень сжатия доступных в настоящее время инструментов сжатия геномных данных колеблется от 65 до 1200 раз для генома человека.[4][5][6][7][8][9][10][13] Очень близкие варианты или модификации одного и того же генома могут быть очень эффективно сжаты (например, сообщалось, что степень сжатия 18 133 [6] для двух ревизий одного и того же генома A. thaliana, которые идентичны на 99,999%). Однако такое сжатие не указывает на типичную степень сжатия для разных геномов (особей) одного и того же организма. Наиболее распространенная схема кодирования среди этих инструментов - Кодирование Хаффмана, который используется для сжатие данных без потерь.

Инструменты сжатия данных геномного секвенирования, совместимые со стандартными форматами файлов секвенирования генома (BAM и FASTQ)
Программного обеспеченияОписаниеКоэффициент сжатияДанные, используемые для оценкиПодход / Схема кодированияСвязьЛицензия на использованиеСсылка
Геномное сжатие (G-SQZ)Инструмент сжатия без потерь, предназначенный для хранения и анализа данных чтения последовательностиОт 65% до 76%Последовательности генома человека из проекта 1000 Genomes ProjectКодирование Хаффманаhttp://public.tgen.org/sqz-Не объявлен-[8]
CRAM (часть SAMtools )Высокоэффективное и настраиваемое сжатие данных последовательности на основе ссылок[14]Европейский архив нуклеотидовсдуть и RANShttp://www.ebi.ac.uk/ena/software/cram-toolkitApache-2.0[15]
Компрессор генома (GeCo)Инструмент, использующий смесь нескольких марковских моделей для сжатия эталонных и не содержащих ссылок последовательностей.Последовательность ядерного генома человекаАрифметическое кодированиеhttp://bioinformatics.ua.pt/software/geco/ или же https://pratas.github.io/geco/GPLv3[13]
PetaSuiteИнструмент сжатия без потерь для файлов BAM и FASTQОт 60% до 90%Последовательности генома человека из проекта 1000 Genomes Projecthttps://www.petagene.comКоммерческий[16]
Кодеки GenomSysСжатие без потерь файлов BAM и FASTQ в стандартный формат ISO / IEC 23092[17] (MPEG-G)От 60% до 90%Последовательности генома человека из проекта 1000 Genomes ProjectКонтекстно-адаптивное двоичное арифметическое кодирование (CABAC)https://www.genomsys.comКоммерческий[18]
ДжиннТранскодирование между форматами FASTA, FASTQ и SAM / BAM и ISO / IEC 23092 [19] формат (MPEG-G)[В разработке][В разработке]Контекстно-адаптивное двоичное арифметическое кодирование (CABAC)https://github.com/mitogen/genieBSD[20]
Инструменты сжатия данных геномного секвенирования несовместимы со стандартными форматами файлов секвенирования генома
Программного обеспеченияОписаниеКоэффициент сжатияДанные, используемые для оценкиПодход / Схема кодированияСвязьЛицензия на использованиеСсылка
Геномный дифференциальный компрессор (GDC)Инструмент в стиле LZ77 для сжатия нескольких геномов одного и того же видаОт 180 до 250 раз / от 70 до 100 разПоследовательность ядерного генома человека и Saccharomyces cerevisiaeКодирование Хаффманаhttp://sun.aei.polsl.pl/gdcGPLv2[5]
Повторное секвенирование генома (GRS)Инструмент на основе эталонной последовательности, не зависящий от эталонной карты SNP или информации об изменении последовательности159 раз / 18 133 раза / 82 разаПоследовательность ядерного генома человека, Arabidopsis thaliana (разные версии одного и того же генома) и Oryza sativaКодирование Хаффманаhttps://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/бесплатно для некоммерческого использования[6]
Кодирование повторного секвенирования генома (GReEN)Инструмент на основе модели вероятностного копирования для сжатия данных повторного секвенирования с использованием эталонной последовательности~ 100 разПоследовательность ядерного генома человекаАрифметическое кодированиеhttp://bioinformatics.ua.pt/software/green/-Не объявлен-[7]
DNAzipПакет инструментов сжатия~ 750 разПоследовательность ядерного генома человекаКодирование Хаффманаhttp://www.ics.uci.edu/~dnazip/-Не объявлен-[9]
GenomeZipСжатие относительно эталонного генома. Необязательно использует внешние базы данных геномных вариаций (например, dbSNP)~ 1200 разПоследовательность ядерного генома человека (Watson) и последовательности из проекта 1000 Genomes ProjectЭнтропийное кодирование для приближений эмпирических распределенийhttps://sourceforge.net/projects/genomezip/-Не объявлен-[10]

Рекомендации

  1. ^ а б Джанкарло Р., Д. Скатурро и Ф. Утро. 2009. Сжатие текстовых данных в вычислительной биологии: синопсис. Биоинформатика 25(13): 1575-1586.
  2. ^ Налбантоглу, Ö. У., Д. Дж. Рассел и К. Сайуд. 2010. Концепции и алгоритмы сжатия данных и их приложения в биоинформатике. Энтропия 12(1): 34-52.
  3. ^ Хоссейни Д., Пратас и А. Пиньо. 2016. Обзор методов сжатия данных для биологических последовательностей. Информация 7(4):(2016): 56
  4. ^ а б c d е ж грамм час я Брэндон, М. К., Д. К. Уоллес и П. Балди. 2009. Структуры данных и алгоритмы сжатия данных геномной последовательности. Биоинформатика 25(14): 1731–1738.
  5. ^ а б c Деорович С. и С. Грабовски. 2011. Устойчивое относительное сжатие геномов с произвольный доступ. Биоинформатика 27(21): 2979-2986.
  6. ^ а б c d Ван Ч. и Д. Чжан. 2011. Новый инструмент сжатия для эффективного хранения данных ресеквенирования генома. Нуклеиновые кислоты Res 39(7): e45.
  7. ^ а б c Пинхо, А. Дж., Д. Пратас и С. П. Гарсия. 2012. GReEn: инструмент для эффективного сжатия данных ресеквенирования генома. Нуклеиновые кислоты Res 40(4): e27.
  8. ^ а б c Тембе, В., Дж. Лоуи и Э. Сух. 2010. G-SQZ: Компактное кодирование геномной последовательности и данных о качестве. Биоинформатика 26(17): 2192-2194.
  9. ^ а б c Кристли, С., Ю. Лу, К. Ли и Х. Се. 2009. Геномика человека как вложения электронной почты. Биоинформатика 25(2): 274-275.
  10. ^ а б c Павличин Д.С., Вайсман Т., Йона Г. 2013. Геном человека снова сжимается. Биоинформатика 29(17): 2199-2202.
  11. ^ Куруппу С., С. Дж. Пуглиси и Дж. Зобель. 2011. Построение эталонной последовательности для относительной компрессии геномов. Конспект лекций по информатике 7024: 420-425.
  12. ^ Грабовски, С., С. Деорович. 2011. Инженерное относительное сжатие геномов. В трудах CoRR.
  13. ^ а б Пратас, Д., Пинхо, А. Дж., И Феррейра, П. Дж. С. Г. Эффективное сжатие геномных последовательностей. Конференция по сжатию данных, Снежная птица, Юта, 2016 г.
  14. ^ Тестирование CRAM
  15. ^ Спецификация формата CRAM (версия 3.0)
  16. ^ «Важность сжатия данных в области геномики». pulse.embs.org. Получено 2019-12-17.
  17. ^ «ISO / IEC 23092-2: 2019 Информационные технологии - Представление геномной информации - Часть 2: Кодирование геномной информации». iso.org.
  18. ^ «Введение в MPEG-G, новый стандарт ISO для представления геномной информации».
  19. ^ «ISO / IEC 23092-2: 2019 Информационные технологии - Представление геномной информации - Часть 2: Кодирование геномной информации». iso.org.
  20. ^ «Введение в MPEG-G, новый стандарт ISO для представления геномной информации».