Контиг - Contig

А контиг (из смежный) представляет собой набор перекрывающихся сегментов ДНК, которые вместе представляют собой консенсусная область ДНК.[1]В восходящая последовательность проекты, контиг относится к перекрывающимся данным последовательности (чтения);[2] в нисходящая последовательность проектов, контиг относится к перекрывающимся клонам, которые образуют физическая карта генома, который используется для определения последовательности и сборка.[3] Таким образом, контиги могут относиться как к перекрывающейся последовательности ДНК, так и к перекрывающимся физическим сегментам (фрагментам), содержащимся в клонах, в зависимости от контекста.

Исходное определение контига

В 1980 году Staden [4] написал: Чтобы упростить обсуждение наших данных, полученных с помощью дробового метода секвенирования, мы изобрели слово «контиг». Контиг - это набор показаний геля, которые связаны друг с другом перекрытием их последовательностей. Все показания геля принадлежат одному и только одному контигу, и каждый контиг содержит по крайней мере одно показание геля. Показания геля в контиге можно суммировать, чтобы сформировать непрерывную консенсусную последовательность, и длина этой последовательности равна длине контига.

Контиги последовательности

Контиг последовательности - это непрерывная (не смежная) последовательность, возникающая в результате повторной сборки небольших фрагментов ДНК, генерируемых восходящая последовательность стратегии. Это значение контига согласуется с исходным определением Роджер Стаден (1979).[5] Снизу вверх Секвенирование ДНК Стратегия включает разрезание геномной ДНК на множество маленьких фрагментов («нижний»), секвенирование этих фрагментов, повторную сборку их обратно в контиги и, в конечном итоге, весь геном («вверх»). Поскольку современные технологии позволяют осуществлять прямое секвенирование только относительно коротких фрагментов ДНК (300–1000 нуклеотидов), геномная ДНК должна быть фрагментирована на мелкие кусочки перед секвенированием.[6] В проектах секвенирования снизу вверх, усиленный ДНК случайным образом разрезается на фрагменты соответствующего размера для секвенирования. Последующие чтения последовательности, которые представляют собой данные, содержащие последовательности небольших фрагментов, помещаются в базу данных. В программное обеспечение для сборки[6] затем ищет в этой базе данных пары перекрывающихся чтений. Сборка считываний из такой пары (включая, конечно, только одну копию идентичной последовательности) дает более длинное непрерывное считывание (контиг) секвенированной ДНК. Повторяя этот процесс много раз, сначала с начальными короткими парами считываний, но затем используя все более длинные пары, которые являются результатом предыдущей сборки, можно определить последовательность ДНК всей хромосомы.

Перекрывающиеся считывания из контигов последовательности парных концов; контиги и щели известной длины образуют каркасы.

Сегодня принято использовать парное секвенирование технология, где оба конца постоянного размера секвенируются более длинные фрагменты ДНК. Здесь контиг по-прежнему относится к любому непрерывному отрезку данных последовательности, созданному в результате наложения чтения. Поскольку фрагменты имеют известную длину, известно расстояние между двумя концевыми считываниями каждого фрагмента.[7] Это дает дополнительную информацию об ориентации контигов, построенных из этих чтений, и позволяет их сборку в строительные леса в процессе, называемом строительные леса.

Каркасы состоят из перекрывающихся контигов, разделенных промежутками известной длины. Новые ограничения, накладываемые на ориентацию контигов, позволяют размещать в геноме повторяющиеся последовательности. Если один конец чтения имеет повторяющуюся последовательность, пока его пара находится внутри контига, его расположение известно.[7] Оставшиеся промежутки между контигами в каркасе затем можно секвенировать различными методами, включая амплификацию ПЦР с последующим секвенированием (для меньших промежутков) и BAC методы клонирования с последующим секвенированием для более крупных пробелов.[2]

BAC контиги

Contig также может относиться к перекрывающимся клоны которые образуют физическая карта хромосомы, когда сверху вниз или же иерархический используется стратегия секвенирования.[1] В этом методе секвенирования низкое разрешение карта выполняется перед секвенированием, чтобы обеспечить основу для управления последующей сборкой считывания последовательности генома. Эта карта идентифицирует относительные положения и перекрытие клонов, используемых для секвенирования. Наборы перекрывающихся клонов, которые образуют непрерывный участок ДНК, называются контигами; минимальное количество клонов, образующих контиг, покрывающий всю хромосому, составляет тайлинг-путь, который используется для секвенирования. Как только траектория мозаики выбрана, составляющие ее ВАС разрезаются на более мелкие фрагменты и упорядочиваются. Таким образом, контиги обеспечивают основу для иерархического упорядочивания.[3]Сборка карты контигов включает несколько шагов. Сначала ДНК разрезается на более крупные (50–200 кб) части, которые клонируются в ВАС или ПКК сформировать BAC библиотека. Поскольку эти клоны должны покрывать весь геном / хромосому, теоретически возможно собрать контиг ВАС, который покрывает всю хромосому.[1] Однако реальность не всегда идеальна. Часто остаются зазоры, и первым результатом часто оказывается каркас, состоящий из контигов и пробелов, покрывающий область карты.[1] Разрывы между контигами можно закрыть различными способами, описанными ниже.

Строительство контигов BAC

Контиги ВАС конструируются путем выравнивания областей ВАС с известным перекрытием с помощью различных методов. Одна из распространенных стратегий - использовать сайт с тегами последовательностей (STS) отображение содержимого для обнаружения уникальных участков ДНК, общих для BAC. Степень перекрытия приблизительно оценивается количеством маркеров STS, общих между двумя клонами, при этом большее количество общих маркеров означает большее перекрытие.[2] Поскольку эта стратегия дает лишь очень приблизительную оценку перекрытия, ограничительный дайджест Часто используется фрагментный анализ, который обеспечивает более точное измерение перекрытия клонов.[2] В этой стратегии клоны обрабатываются одним или двумя рестрикционные ферменты и полученные фрагменты разделены гель-электрофорез. Если два клона, они, вероятно, будут иметь общие сайты рестрикции и, таким образом, будут иметь несколько общих фрагментов.[3] Поскольку количество общих фрагментов и длина этих фрагментов известны (длина оценивается по сравнению со стандартом размера), степень перекрытия может быть определена с высокой степенью точности.

Разрывы между контигами

После первоначального построения контига ВАС часто остаются зазоры. Эти пробелы возникают, если Бактериальная искусственная хромосома (ВАС) скрининговая библиотека имеет низкую сложность, что означает, что она не содержит большого количества STS или сайтов рестрикции, или если определенные области были менее стабильными в клонируемых хозяевах и, следовательно, недостаточно представлены в библиотеке.[1] Если промежутки между контигами остаются после того, как было выполнено сопоставление ориентиров STS и снятие отпечатков ограничений, можно использовать упорядочение концов контигов, чтобы закрыть эти промежутки. Эта стратегия конечного секвенирования по существу создает новый STS, с помощью которого можно скринировать другие контиги. Альтернативно, концевую последовательность контига можно использовать в качестве праймера для грунтовка прогулка через разрыв.[2]

Смотрите также

Рекомендации

  1. ^ а б c d е Григорий, С. Сборка Contig. Энциклопедия наук о жизни, 2005.
  2. ^ а б c d е Гибсон, Грег; Муза, Спенсер В. (2009). Учебник по геномной науке (3-е изд.). Sinauer Associates. п. 84. ISBN  978-0-878-93236-8.
  3. ^ а б c Уважаемый, P.H. Картирование генома. Энциклопедия наук о жизни, 2005. Дои:10.1038 / npg.els.0005353.
  4. ^ Staden, R (1980). «Новый компьютерный метод для хранения и обработки данных считывания геля ДНК». Исследования нуклеиновых кислот. 8 (16): 3673–3694. Дои:10.1093 / nar / 8.16.3673. ЧВК  324183. PMID  7433103.
  5. ^ Staden R (1979). «Стратегия секвенирования ДНК с использованием компьютерных программ». Исследования нуклеиновых кислот. 6 (7): 2601–2610. Дои:10.1093 / nar / 6.7.2601. ЧВК  327874. PMID  461197.
  6. ^ а б Данэм, И. Секвенирование генома. Энциклопедия наук о жизни, 2005.
  7. ^ а б Фуллвуд MJ, Wei C, Liu ET, et al. (2009). «Секвенирование ДНК нового поколения с парными концевыми метками (ПЭТ) для анализа транскриптома и генома». Геномные исследования. 19 (4): 521–532. Дои:10.1101 / гр.074906.107. ЧВК  3807531. PMID  19339662.

внешняя ссылка