Сжатие данных геномного секвенирования - Compression of Genomic Sequencing Data - Wikipedia

Секвенирование с высокой пропускной способностью технологии привели к резкому снижению затрат на секвенирование генома и к удивительно быстрому накоплению геномных данных. Эти технологии позволяют проводить амбициозные попытки секвенирования генома, такие как Проект 1000 геномов и 1001 (Arabidopsis thaliana) Геномы проекта. Хранение и передача огромного количества геномных данных стали основной проблемой, побудившей к разработке высокопроизводительных инструментов сжатия, разработанных специально для геномных данных. Недавний всплеск интереса к разработке новых алгоритмов и инструментов для хранения и управления данными геномного повторного секвенирования подчеркивает растущий спрос на эффективные методы сжатия геномных данных.

Общие понятия

Хотя стандартные инструменты сжатия данных (например, zip и rar) используются для сжатия данных последовательности (например, GenBank плоские файлы ), этот подход критиковали за экстравагантность, поскольку геномные последовательности часто содержат повторяющееся содержимое (например, микросателлитные последовательности ) или многие последовательности демонстрируют высокий уровень сходства (например, несколько последовательностей генома одного и того же вида). Кроме того, статистические и теоретико-информационные свойства геномных последовательностей потенциально могут быть использованы для сжатия данных секвенирования.^[1]^[2]^[3]

Рисунок 1: Основные этапы рабочего процесса для сжатия данных геномного повторного секвенирования: (1) обработка исходных данных секвенирования (например, сокращение исходного набора данных до только вариаций относительно указанной эталонной последовательности; (2) кодирование обработанных данных в двоичную форму ; и (3) декодирование данных обратно в текстовую форму.

Базовые варианты

При наличии эталонного шаблона необходимо записывать только различия (например, одиночные нуклеотидные замены и вставки / делеции), что значительно сокращает объем информации, которую необходимо сохранить. Понятие относительной компрессии очевидно, особенно в проектах повторного секвенирования генома, целью которых является обнаружение вариаций в отдельных геномах. Использование эталонного однонуклеотидного полиморфизма (SNP ) карта, например dbSNP, можно использовать для дальнейшего увеличения количества вариантов для хранения.^[4]

Относительные геномные координаты

Еще одна полезная идея - хранить относительные координаты генома вместо абсолютных.^[4] Например, представление оснований вариантов последовательности в формате ‘Position1Base1Position2Base2…»,« 123C125T130G »можно сократить до« 0C2T5G », где целые числа представляют интервалы между вариантами. Стоимость представляет собой скромные арифметические вычисления, необходимые для восстановления абсолютных координат, плюс сохранение поправочного коэффициента («123» в этом примере).

Предварительная информация о геномах

Дальнейшее сокращение может быть достигнуто, если заранее известны все возможные положения замен в пуле последовательностей генома.^[4] Например, если все местоположения SNP в человеческой популяции известны, то нет необходимости записывать информацию о координатах вариантов (например, «123C125T130G» можно сократить до «CTG»). Однако этот подход редко бывает уместным, потому что такая информация обычно неполна или недоступна.

Кодирование геномных координат

Кодирование схемы используются для преобразования координатных целых чисел в двоичную форму для обеспечения дополнительного усиления сжатия. Кодирование дизайнов, таких как Код Голомба и Код Хаффмана, были включены в инструменты сжатия геномных данных.^[5]^[6]^[7]^[8]^[9]^[10] Конечно, схемы кодирования влекут за собой сопутствующие алгоритмы декодирования. Выбор схемы декодирования потенциально влияет на эффективность поиска информации о последовательности.

Выбор дизайна алгоритма

Универсальный подход к сжатию геномных данных не обязательно может быть оптимальным, поскольку конкретный метод может быть более подходящим для конкретных целей и задач. Таким образом, несколько вариантов дизайна, которые потенциально влияют на производительность сжатия, могут быть важны для рассмотрения.

Контрольная последовательность

Выбор эталонной последовательности для относительного сжатия может повлиять на эффективность сжатия. Выбор согласованной эталонной последовательности вместо более конкретной эталонной последовательности (например, пересмотренной эталонной последовательности) Кембриджская эталонная последовательность ) может привести к более высокой степени сжатия, поскольку согласованная ссылка может содержать меньше смещений в своих данных.^[4] Однако сведения об источнике сжимаемой последовательности могут быть использованы для достижения большей эффективности сжатия. Была предложена идея использования множественных эталонных последовательностей.^[4] Brandon et al. (2009)^[4] упоминалось о потенциальном использовании шаблонов эталонных последовательностей, специфичных для этнических групп, с использованием сжатия митохондриальная ДНК вариантные данные в качестве примера (см. рисунок 2). Авторы обнаружили смещенное распределение гаплотипов в митохондриальная ДНК последовательности африканцев, азиатов и евразийцев относительно пересмотренных Кембриджская эталонная последовательность. Их результат предполагает, что пересмотренный Кембриджская эталонная последовательность не всегда может быть оптимальным, потому что необходимо сохранить большее количество вариантов, когда он используется против данных от этнически удаленных лиц. Кроме того, эталонная последовательность может быть разработана на основе статистических свойств. ^[1]^[4] или спроектированный ^[11]^[12] для улучшения степени сжатия.

Схемы кодирования

Было изучено применение различных типов схем кодирования для кодирования оснований вариантов и геномных координат.^[4] Фиксированные коды, такие как Код Голомба и Код риса, подходят, когда вариантное или координатное (представленное как целое) распределение хорошо определено. Коды переменных, такие как Код Хаффмана, обеспечивают более общую схему энтропийного кодирования, когда лежащий в основе вариант и / или распределение координат не четко определены (обычно это имеет место в данных геномной последовательности).

Список инструментов сжатия данных геномного повторного секвенирования

Степень сжатия доступных в настоящее время инструментов сжатия геномных данных колеблется от 65 до 1200 раз для генома человека.^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[13] Очень близкие варианты или модификации одного и того же генома могут быть очень эффективно сжаты (например, сообщалось, что степень сжатия 18 133 ^[6] для двух ревизий одного и того же генома A. thaliana, которые идентичны на 99,999%). Однако такое сжатие не указывает на типичную степень сжатия для разных геномов (особей) одного и того же организма. Наиболее распространенная схема кодирования среди этих инструментов - Кодирование Хаффмана, который используется для сжатие данных без потерь.

Инструменты сжатия данных геномного секвенирования, совместимые со стандартными форматами файлов секвенирования генома (BAM и FASTQ)
Программного обеспечения	Описание	Коэффициент сжатия	Данные, используемые для оценки	Подход / Схема кодирования	Связь	Лицензия на использование	Ссылка
Геномное сжатие (G-SQZ)	Инструмент сжатия без потерь, предназначенный для хранения и анализа данных чтения последовательности	От 65% до 76%	Последовательности генома человека из проекта 1000 Genomes Project	Кодирование Хаффмана	http://public.tgen.org/sqz	-Не объявлен-	^[8]
CRAM (часть SAMtools )	Высокоэффективное и настраиваемое сжатие данных последовательности на основе ссылок	^[14]	Европейский архив нуклеотидов	сдуть и RANS	http://www.ebi.ac.uk/ena/software/cram-toolkit	Apache-2.0	^[15]
Компрессор генома (GeCo)	Инструмент, использующий смесь нескольких марковских моделей для сжатия эталонных и не содержащих ссылок последовательностей.		Последовательность ядерного генома человека	Арифметическое кодирование	http://bioinformatics.ua.pt/software/geco/ или же https://pratas.github.io/geco/	GPLv3	^[13]
PetaSuite	Инструмент сжатия без потерь для файлов BAM и FASTQ	От 60% до 90%	Последовательности генома человека из проекта 1000 Genomes Project		https://www.petagene.com	Коммерческий	^[16]
Кодеки GenomSys	Сжатие без потерь файлов BAM и FASTQ в стандартный формат ISO / IEC 23092^[17] (MPEG-G)	От 60% до 90%	Последовательности генома человека из проекта 1000 Genomes Project	Контекстно-адаптивное двоичное арифметическое кодирование (CABAC)	https://www.genomsys.com	Коммерческий	^[18]
Джинн	Транскодирование между форматами FASTA, FASTQ и SAM / BAM и ISO / IEC 23092 ^[19] формат (MPEG-G)	[В разработке]	[В разработке]	Контекстно-адаптивное двоичное арифметическое кодирование (CABAC)	https://github.com/mitogen/genie	BSD	^[20]

Инструменты сжатия данных геномного секвенирования несовместимы со стандартными форматами файлов секвенирования генома
Программного обеспечения	Описание	Коэффициент сжатия	Данные, используемые для оценки	Подход / Схема кодирования	Связь	Лицензия на использование	Ссылка
Геномный дифференциальный компрессор (GDC)	Инструмент в стиле LZ77 для сжатия нескольких геномов одного и того же вида	От 180 до 250 раз / от 70 до 100 раз	Последовательность ядерного генома человека и Saccharomyces cerevisiae	Кодирование Хаффмана	http://sun.aei.polsl.pl/gdc	GPLv2	^[5]
Повторное секвенирование генома (GRS)	Инструмент на основе эталонной последовательности, не зависящий от эталонной карты SNP или информации об изменении последовательности	159 раз / 18 133 раза / 82 раза	Последовательность ядерного генома человека, Arabidopsis thaliana (разные версии одного и того же генома) и Oryza sativa	Кодирование Хаффмана	https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/	бесплатно для некоммерческого использования	^[6]
Кодирование повторного секвенирования генома (GReEN)	Инструмент на основе модели вероятностного копирования для сжатия данных повторного секвенирования с использованием эталонной последовательности	~ 100 раз	Последовательность ядерного генома человека	Арифметическое кодирование	http://bioinformatics.ua.pt/software/green/	-Не объявлен-	^[7]
DNAzip	Пакет инструментов сжатия	~ 750 раз	Последовательность ядерного генома человека	Кодирование Хаффмана	http://www.ics.uci.edu/~dnazip/	-Не объявлен-	^[9]
GenomeZip	Сжатие относительно эталонного генома. Необязательно использует внешние базы данных геномных вариаций (например, dbSNP)	~ 1200 раз	Последовательность ядерного генома человека (Watson) и последовательности из проекта 1000 Genomes Project	Энтропийное кодирование для приближений эмпирических распределений	https://sourceforge.net/projects/genomezip/	-Не объявлен-	^[10]