Транскриптомные технологии

Транскрипто́мные техноло́гии (англ. Transcriptomics technologies) — методы, разработанные для изучения транскриптома (то есть совокупности всех РНК-транскриптов) организма. В состав транскриптома входят все транскрипты, которые присутствовали в клетке на момент выделения РНК[en]. Исследуя транскриптом, можно установить, какие клеточные процессы были активны в данный момент времени.

Первые попытки изучения транскриптома были предприняты в начале 1990-х. Благодаря развитию новых технологий в конце 1990-х транскриптомика стала важной биологической наукой. В настоящий момент в транскриптомике есть два основополагающих метода: микрочипы, позволяющие выявить наличие и количество определённых транскриптов, и секвенирование РНК (РНК-Seq), в котором используются методы секвенирования нового поколения для получения последовательностей всех транскриптов. С улучшением методик количество данных, получаемых в ходе одного транскриптомного эксперимента, увеличивалось. В связи с этим методы анализа данных также совершенствовались, чтобы обеспечить точный и эффективный анализ возрастающего объёма данных. Транскриптомные базы данных постоянно растут и становятся всё более полезными для исследователей. Это связано с тем, что правильная интерпретация данных, полученных в ходе транскриптомного эксперимента, практически невозможна без опоры на предшествующие исследования.

Измерение уровня экспрессии определённых генов в клетках разных тканей и при разных условиях или же в разные моменты времени даёт информацию о регуляторных механизмах, связанных с экспрессией генов. С помощью этих данных могут быть определены функции ранее неаннотированных[en] генов. Анализ транскриптомов позволяет выявить различия в экспрессии определённых генов у разных организмов, что может быть особенно полезно для понимания молекулярных основ заболеваний человека.

История

Количество публикаций, касающихся РНК-Seq (чёрный), микрочипов (красный), экспрессируемых меток последовательностей (синий) и сериального/кэпового анализа экспрессии генов (жёлтый) с 1990 года по 2016 год[1]

Первая попытка получения части человеческого транскриптома была предпринята в 1991 году; в ходе этого исследования были получены последовательности 609 мРНК из мозга человека. В 2008 году были опубликованы два человеческих транскриптома, состоящих из миллионов последовательностей, происходящих от транскриптов 16 тысяч генов. К 2015 году были опубликованы транскриптомы сотен людей. Получение транскриптомов индивидуумов с тем или иным заболеванием, разных тканей и даже одиночных клеток в настоящее время является рутинной процедурой. Бурное развитие транскриптомики было возможно благодаря быстрому развитию новых экономичных технологий с повышенной чувствительностью.

До транскриптомики

Исследования отдельных транскриптов проводились ещё за несколько десятилетий до того, как методы транскриптомики стали общедоступны. В конце 1970-х были получены библиотеки РНК и конвертированы в кодирующую ДНК (кДНК) с помощью обратной транскриптазы для бабочки Antheraea polyphemus. В 1980-х с помощью низкопроизводительного секвенирования по Сэнгеру были получены последовательности случайных транскриптов; так появились так называемые экспрессируемые метки последовательностей (англ. expressed sequence tags, EST). Метод секвенирования по Сэнгеру доминировал до появления технологий высокопроизводительного секвенирования, например, секвенирования синтезом (Solexa/Illumina). EST стали активно использоваться в 1990-х как эффективный метод определения генного состава организма без полногеномного секвенирования. Количество отдельных транскриптов оценивалось с помощью Нозерн-блотов, микрочипов на нейлоновой мембране и количественной ПЦР с обратной транскрипцией (RT-qPCR). Однако эти методы очень трудоёмки и охватывают лишь крошечную долю целого транскриптома.

Первые попытки

Слово «транскриптом» (англ. transcriptome) было впервые употреблено в 1990-х годах. В 1995 году появился первый транскриптомный метод, основанный на секвенировании — сериальный анализ экспрессии генов (англ. serial analysis of gene expression (SAGE)), который заключался в секвенировании по Сэнгеру соединённых фрагментов случайных транскриптов. Количество транскриптов оценивалось по числу совпадений с фрагментами известных генов. Вскоре появился вариант SAGE, использующий вместо секвенирования по Сэнгеру технологии секвенирования нового поколения — цифровой анализ экспрессии генов (англ. digital gene expression analysis). Однако эти методы практически полностью вытеснили методы высокопроизводительного секвенирования целых транскриптов, которые давали дополнительную информацию о транскрипте, например, сведения о сплайсинговых вариантах.

Развитие современных методов

Сравнение современных методов[2][3][4]
РНК-Seq Микрочипы
Производительность От 1 дня до 1 недели на эксперимент1 day to 1 week per experiment[4] 1–2 дня на эксперимент[4]
Необходимое количество РНК Низкое ~ 1 нг тотальной РНК[5] Высокое ~ 1 мкг РНК[6]
Трудоёмкость Высокая (пробоподготовка и анализ данных)[4][2] Низкая[4][2]
Предшествующая информация Не требуется, хотя последовательность референсного генома/транскриптома упрощает работу[2] Для создания проб необходим референсный геном/транскриптом[2]
Точность количественной оценки ~ 90% (ограничена покрытием последовательностей)[7] > 90% (ограничена точностью детекции флуоресценции)[7]
Разрешение последовательностей Может детектировать однонуклеотидные полиморфизмы и сплайсинговые варианты (ограничение — точность секвенирования (~ 99%))[7] Специализированные микрочипы могут детектировать сплайсинговые варианты (ограничение — создание проб и кросс-гибридизация)[7]
Чувствительность 1 транскрипт на миллион (приблизительно, ограничение — покрытие последовательности)[7] 1 транскрипт на тысячу (приблизительно, ограничено детекцией флуоресценции)[7]
Динамический диапазон 100000 : 1 (ограничен покрытием последовательности)[8] 1000 : 1 (ограничено насыщением флуоресценции)[8]
Техническая воспроизводимость > 99 %[9][10] > 99 %[11][12]

Превалирующие современные методы — микрочипы и РНК-Seq — появились в середине 1990-х и 2000-х. Публикации по микрочипам, которые измеряли относительное содержание определённых транскриптов за счёт их гибридизации с комплементарными пробами, нанесёнными на микрочип, появились в 1995 году. Метод микрочипов позволял одновременно исследовать тысячи транскриптов, и за счёт этого позволял снизить стоимость исследования транскриптома в расчёте на ген и сэкономить усилия. До конца 2000-х лучшими методами транскрипционного профилинга были пятновые олигонуклеотидные чипы (англ. spotted oligonucleotide arrays) и микрочипы Affymetrix с высокой плотностью. В течение этого периода времени было создано множество чипов, покрывающих известные гены модельных и экономически важных организмов. Улучшения технологий создания микрочипов привели к увеличению специфичности проб и количества генов, которые можно проанализировать с помощью одного чипа. Благодаря новым методам детекции флуоресценции стало возможным точно определять наличие и количество даже транскриптов, синтезируемых на низком уровне.

РНК-Seq подразумевает секвенирование кДНК, соответствующей транскриптам, причём численность отдельных фрагментов кДНК определяется численностью соответствующих транскриптов. Огромное влияние на РНК-Seq оказало развитие методов секвенирования нового поколения. Первым транскриптомным методом стало масштабное параллельное секвенирование сигнатур (англ. Massively parallel signature sequencing (MPSS)), в основе которого лежало образование коротких последовательностей длиной от 16 до 20 пар оснований за счёт сложной последовательности гибридизаций. В 2004 году с помощью этого метода была оценена экспрессия 10 тысяч генов растения Arabidopsis thaliana. Первая работа, посвящённая РНК-Seq, была опубликована в 2006 году. В ходе этого исследования с помощью технологии 454 Life Sciences была определена последовательность ста тысяч транскриптов. Полученного покрытия было достаточно для оценки относительного количества отдельных транскриптов. Популярность РНК-Seq значительно повысилась после 2008 года, когда технологии Illumina/Solexa позволили секвенировать один миллиард транскриптов. Благодаря этим данным сейчас возможно количественно оценивать и сравнивать транскриптомы разных людей.

Получение данных

Получение данных о транскриптах возможно двумя принципиально различающимися путями: секвенированием отдельных транскриптов (EST или РНК-Seq) или гибридизацией транскриптов на упорядоченный чип нуклеотидных последовательностей (микрочип).

Выделение РНК

Для всех транскриптомных методов необходимо выделить РНК из исследуемого организма. Несмотря на огромное разнообразие биологических систем, методика выделения РНК во всех случаях примерно одна и та же. Она включает разрушение клеток и тканей, разрушение РНКаз при помощи разобщающих солей, разрушение макромолекул и комплексов, содержащих нуклеотиды, отделение РНК от ненужных молекул, включая ДНК, концентрирование РНК при помощи преципитации из раствора и очищение с помощью специальных колонок. Выделенную РНК также можно дополнительно обработать ДНКазой, чтобы разрушить остатки ДНК. Обычно необходимо концентрирование мРНК, поскольку 98 % выделенной РНК приходится на рРНК. Концентрирование можно произвести через методы, использующие наличие у мРНК поли(А)-хвоста, или путём удаления рРНК с помощью специфических проб. На результаты эксперимента может повлиять разрушенная РНК. Например, если отбирать мРНК из повреждённых РНК, то отобранные молекулы могут быть лишены 5'-концов и привести к искажению данных. Чтобы избежать разрушения РНК, перед выделением РНК образец обычно подвергают быстрому замораживанию.

Экспрессируемые метки последовательностей

Экспрессируемые метки последовательностей (EST) — это короткие нуклеотидные последовательности, полученные из целого транскрипта. Поскольку EST можно получить без какой-либо специфики относительно организма, из которого выделена РНК, их можно получить из смеси организмов или образцов, взятых из окружающей среды. Хотя в настоящее время чаще всего используется высокопроизводительное секвенирование, библиотеки EST активно использовали при разработке первых микрочипов. Например, микрочип ячменя был получен из 350 тысяч предварительно секвенированных EST.

Сериальный и кэповый анализ экспрессии генов (SAGE/CAGE)

Схема SAGE. Из организма выделяется мРНК, переводится в двуцепочечную ДНК (синий) посредством обратной транскрипции. Далее ДНК расщепляется рестриктазами (в точках ‘X’ и ‘X’+11) с образованием 11-нуклеотидных меток. Далее они конкатенируются и секвенируются с помощью метода Сэнгера с длинными прочтениями (метки разных оттенков синего соответствуют разным генам). Далее последовательности подвергают деконволюции и определяют частоту встречаемости каждой метки. Частота метки свидетельствует об интенсивности экспрессии соответствующего гена[13]

Сериальный анализ экспрессии генов является дальнейшим развитием технологии EST для повышения выработки меток. Он также позволяет провести некоторый количественный анализ численности транскриптов. РНК сначала переводится в кДНК, но затем она разрезается на метки длиной 11 нуклеотидов с помощью рестриктаз, которые вносят разрывы в определённые последовательности ДНК. Полученные метки сшивают по типу «голова к хвосту» в длинные фрагменты длиной более 500 нуклеотидов, которые секвенируют с помощью низкопроизводительных, но дающих длинные прочтения методов, таких как секвенирование по Сэнгеру. Далее последовательности снова делят на 11-нуклеотидные кусочки с помощью специальных компьютерных программ (деконволюция). Если референсный геном недоступен, то полученные метки можно непосредственно использовать в качестве диагностических маркеров, которые в случае болезни экспрессируются иначе, чем в здоровом организме.

Кэповый анализ экспрессии генов (англ. cap analysis gene expression, CAGE) представляет собой вариант SAGE, при котором в качестве меток берутся только 5'-концевые последовательности мРНК. Поэтому, когда метки выравниваются на референсный геном, можно идентифицировать точки начала транскрипции генов. Этот метод активно используется для анализа промоторов и для клонирования полноразмерных кДНК.

SAGE и CAGE дают информацию о большем количестве генов, чем секвенирование отдельных EST, однако пробоподготовка и анализ данных в этих методах существенно сложнее.

Микрочипы

Схема работы микрочипов. Из организма выделяется зрелая мРНК (красный) и путём обратной транскрипции переводится в двуцепочечную ДНК (синий). Далее ДНК фрагментируется и флуоресцентно метится (оранжевый). Меченые фрагменты связываются с комплементарными олигонуклеотидными пробами на микрочипе, и интенсивность флуоресценции в каждой ячейке свидетельствует о численности соответствующего гена[13]

Принципы и преимущества

Микрочип состоит из коротких олигонуклеотидов (проб), которые прикреплены в ячейках сетки на стеклянной подложке. Многочисленность транскриптов определяется на основании гибридизации флуоресцентно меченных транскриптов с этими пробами. Интенсивность флуоресценции в каждой ячейке свидетельствует о многочисленности транскрипта, гибридизующегося с данной пробой.

Для создания микрочипа необходимо знать, хотя бы частично, геном исследуемого организма, например, в виде аннотированной последовательности или библиотеки EST; это необходимо для создания проб.

Методы

Микрочипы, использующиеся в транскриптомике, можно подразделить на два типа: пятновые чипы с низкой плотностью и чипы высокой плотности с короткими пробами. Пятновые чипы низкой плотности обычно представляют собой стеклянную основу, на которую нанесены пиколитровые капли, содержащие разные фрагменты очищенной кДНК. Эти пробы длинее, чем в чипах с короткими пробами, и с их помощью нельзя выявить события альтернативного сплайсинга. В пятновых чипах используются два типа флуорофоров, которыми метят экспериментальные и контрольные образцы, а относительная многочисленность высчитывается из интенсивности флуоресценции того или иного цвета. Чипы высокой плотности используют только одну флуоресцентную метку, и каждый образец гибридизуется и детектируется отдельно. Чипы высокой плотности распространялись компанией Affymetrix GeneChip. В этих чипах каждому транскрипту соответствует несколько 25-нуклеотидных проб. Компания NimbleGen производит чипы высокой плотности при помощи безмасковой литографии, которая позволяла получать чипы разного строения. Один чип содержит сотни тысяч проб длиной от 45 до 85 нуклеотидов, которые гибридизуются с образцом, меченным флуоресцентной меткой одного вида.

РНК-Seq

Схема РНК-Seq. Из организма выделяется зрелая мРНК (красный) и путём обратной транскрипции переводится в двуцепочечную ДНК (синий). ДНК секвенируется при помощи высокопроизводительных методов с короткими прочтениями. Далее прочтения выравниваются на референсный геном, благодаря чем выявляются транскрибирующиеся участки генома. С помощью полученных данных можно установить, какие гены экспрессируются, какова интенсивность их экспрессии, а также наличие альтернативного сплайсинга[13]

Принципы и преимущества

РНК-Seq представляет собой сочетание высокопроизводительного секвенирования с вычислительными методами оценки численности отдельных транскриптов в экстракте РНК. Обычно получаются последовательности длиной около 100 пар оснований (п. о.), однако в зависимости от метода секвенирования их длина может составлять от 30 п. о. до 10 тысяч п. о. РНК-Seq обеспечивает глубокое покрытие транскриптома множеством коротких фрагментов, благодаря которому возможно при помощи вычислительных методов реконструировать исходные транскрипты, выравнивая прочтения на референсный геном или друг на друга (сборка de novo). С помощью РНК-Seq можно рассчитать количество как многочисленных, так и малочисленных РНК, так как динамический диапазон метода составляет 5 порядков. В этом заключается главное преимущество РНК-Seq перед микрочипами. Кроме того, для РНК-Seq требуется очень мало исследуемой РНК, чем для микрочипов — нанограммы против микрограммов. Благодаря этому РНК-Seq в сочетании с линейной амплификацией кДНК позволяет исследовать очень небольшие клеточные структуры вплоть до отдельных клеток. Теоретически верхнего предела количественной оценки в РНК-Seq не существует, и для прочтений длиной 100 п. о. фоновый шум в неповторяющихся участках очень низок.

С помощью РНК-Seq можно идентифицировать гены в геноме или установить, какие гены активны в данный момент времени. На основании количества прочтений можно точно установить относительный уровень экспрессии генов. Методология РНК-Seq постоянно совершенствуется, преимущественно за счёт улучшения технологий секвенирования, которые повышают производительность и точность метода, а также выдают прочтения всё большей длины. Со времени первых публикаций в 2006 и 2008 году РНК-Seq интенсивно внедрялся в исследования, и к 2015 году догнал микрочипы, став вторым доминирующим транскриптомным методом.

Попытки получения транскриптомных данных для отдельных клеток стимулировали совершенствование методов приготовления библиотек для РНК-Seq, что значительно увеличило чувствительность технологии. На данный момент получен ряд транскриптомов единичных клеток, и даже появились методы РНК-Seq in situ, в которых транскриптомы отдельных клеток были получены непосредственно в фиксированных тканях.

Методы

РНК-Seq появился вместе с бурным развитием нескольких методов высокопроизводительного секвенирования. Однако стадии секвенирования выделенных РНК предшествуют несколько этапов пробоподготовки, которые различаются в разных методах. Методы различаются способами концентрирования транскриптов, фрагментации, амплификации, способом секвенирования (одноконцевое или парноконцевое), а также тем, сохраняется ли информация об исходной цепи.

Чувствительность РНК-Seq в конкретном эксперименте можно повысить за счёт концентрирования интересующих классов РНК и удаления остальных. мРНК можно отделить с помощью олигонуклеотидных проб, которые связываются с их поли(А)-хвостами. Удалить неинформативные и чрезвычайно многочисленные рРНК можно с помощью гибридизующихся проб, созданных специально для рРНК данного таксона (например, млекопитающих или растений). Однако вместе с рРНК с помощью такого подхода можно удалить и другие РНК, что может исказить картину эксперимента. Малые РНК, например, микроРНК, можно выделить на основании их размера из агарозного геля после электрофореза.

Поскольку мРНК, как правило, длиннее, чем единичные прочтения в большинстве методов высокопроизводительного секвенирования, обычно перед секвенированием транскрипты фрагментируют. Метод фрагментации лежит в основе создания библиотеки для секвенирования. Фрагментацию можно проводить путём химического гидролиза, распыления, обработки ультразвуком (соникации) или обратной транскрипции с использованием терминирующих нуклеотидов. Кроме того, фрагментацию и добавление меток к кДНК можно осуществить одновременно при помощи транспозаз.

В ходе пробоподготовки для секвенирования фрагменты кДНК, соответствующие транскриптам, можно размножить с помощью ПЦР так, чтобы повысить численность молекул, содержащих необходимые 3'- и 5'-концевые адаптеры. Стадия амплификации также необходима перед секвенированием образцов с очень низким содержанием РНК. Нижним пределом количества РНК, которое пригодно для секвенирования, является 50 пикограмм. Чтобы оценить качество библиотеки и секвенирования (GC-состав, длина фрагментов, предпочтение фрагментов с определённым положением в транскрипте), можно использовать контрольные РНК-spike in. Уникальные идентификаторы молекул (англ. unique molecular identifiers, UMI) — это короткие случайные последовательности, которые используются для индивидуального мечения фрагментов при приготовлении бибилиотеки таким образом, чтобы после добавления идентификатора каждый фрагмент стал уникальным. С помощью UMI можно измерить численность транскриптов в абсолютной шкале, чтобы скорректировать отклонения, возникшие при создании библиотеки, перед амплификацией, а также чтобы точно оценить количество ДНК в исходном образце. UMI особенно удобны для РНК-Seq одиночных клеток, в которых исходное количество РНК очень мало и требует неспецифичной амплификации.

После пробоподготовки молекулы транскриптов (точнее, соответствующих им кДНК) можно секвенировать в одном направлении (одноконцевое прочтение) или в обоих (парноконцевое прочтение). Одноконцевое секвенирование, как правило, быстрее и дешевле, и в большинстве случаев его достаточно для количественной оценки уровней экспрессии генов. Парноконцевое секвенирование позволяет получить более точные выравнивания и сборки, что очень важно для аннотации генов и описания изоформ транскриптов. Методы РНК-Seq, специфичные по отношению к цепи, сохраняют сведения о цепи ДНК, с которой был транскрибирован каждый транскрипт. Без этой информации прочтения можно выровнять на локус, однако будет неясно, в каком направлении происходит транскрипция гена. Одноцепочечный РНК-Seq удобен для определения направления транскрипции перекрывающихся генов, расположенных на разных цепях, что позволяет сделать предсказание генов у немодельных организмов более точным.

Технологии секвенирования, используемые в РНК-Seq[14][15]
Платформа Коммерческий релиз Типичная длина прочтения Максимальная производительность одного запуска Точность единичного прочтения Запуски РНК-Seq, размещённые в базе NCBI SRA по состоянию на октябрь 2016 года. RNA-Seq runs deposited in the NCBI SRA (Oct 2016)[16]
454 Life Sciences 2005 700 п. о. 0,7 миллиардов п. о. 99,9 % 3548
Illumina 2006 50–300 п. о. 900 миллиардов п. о. 99,9 % 362903
SOLiD 2008 50 п. о. 320 миллиардов п. о. 99,9 % 7032
Ion Torrent 2010 400 п. о. 30 миллиардов п. о. 98 % 1953
PacBio 2011 10000 п. о. 2 миллиардов п. о. 87 % 160

NCBI SRA – архив прочтений последовательностей Национального центра биотехнологической информации (США)

Поскольку в настоящий момент РНК-Seq включает перевод РНК в кДНК в ходе обратной транскрипции, платформы для последующего секвенирования одинаковы и для транскриптомных, и для геномных данных. По этой причине развитие РНК-Seq в значительной мере определяется усовершенствованием методов секвенирования ДНК. Однако всё большее распространение получает непосредственное секвенирование РНК при помощи нанопор. С помощью нанопорового секвенирования в РНК можно обнаружить модифицированные основания, которые нельзя было выявить при секвенировании кДНК, кроме того, для этого метода не нужна амплификация, которая вносит дополнительные искажения.

Чувствительность и точность РНК-Seq определяются числом прочтений, полученных с каждого образца. Для достаточного покрытия транскриптома необходимо очень много прочтений, что позволяет обнаружить даже малочисленные транскрипты. Дополнительные сложности создаёт этап секвенирования, дающего прочтения ограниченной длины, различной точности и качества. Более того, организмы каждого вида имеют разное количество генов, поэтому для эффективной сборки транскриптома для каждого вида необходимо разное число прочтений. На ранних этапах это количество определялось эмпирически, однако с развитием технологий необходимое покрытие стало возможным предсказывать вычислительными методами. Наиболее эффективным способом улучшения точности выявления дифференциальной экспрессии низкоэкспрессируемых генов является не увеличение числа прочтений, а увеличение копий. В настоящий момент Энциклопедия элементов ДНК рекомендует 70-кратное покрытие экзома для обычного РНК-Seq и до 500-кратного покрытия для обнаружения редких транскриптов и изоформ.

Анализ данных

Методы транскриптомики позволяют проводить параллельные эксперименты со множеством образцов, поэтому для получения результатов как с помощью РНК-Seq, так и с помощью микрочипов необходима серьёзная обработка данных вычислительными методами. Данные с микрочипов представляют собой изображения с высоким разрешением, поэтому обработка данных выключает выявление свойств (англ. feature detection) и спектральный анализ. Изображения, полученные с микрочипов, достигают размера 750 Мб, в то время как обработанные данные занимают 60 Мб. Множество коротких проб, соответствующих одному и тому же транскрипту, могут позволить определить экзон-интронную структуру гена, поэтому для определения достоверности финального сигнала необходимы статистические модели. В ходе экспериментов РНК-Seq получаются миллиарды коротких последовательностей ДНК, которые необходимо выровнять на референсный геном, включающий миллионы или миллиарды п. о. Сборка транскриптома de novo требует построения весьма сложных графов последовательностей. Операции обработки данных РНК-Seq требуют многократного повторения, поэтому для них могут удобны параллелизованные вычисления, однако с использованием современных алгоритмов обработку данных простых транскриптомных экспериментов, не требующих сборки de novo, можно осуществить даже на обычном персональном компьютере. Человеческий транскриптом можно достаточно точно собрать из 300 миллионов 100-нуклеотидных прочтений, полученных с помощью РНК-Seq. Для хранения такого объема данных в сжатом формате FASTQ требуется 1,8 Гб дискового пространства на образец. Обработанные численные значения для каждого гена занимают ещё меньше памяти, сопоставимо с обработанными данными с микрочипов. Данные о последовательностях можно хранить в публичных данных, таких как SRA (от {{lang-en|sequence read archive — архив прочтений последовательностей). Набор данных РНК-Seq можно загрузить с помощью Gene Expression Omnibus.

Обработка изображений

Микрочип и проточная ячейка для секвенирования (РНК-Seq). Обработка изображений при использовании микрочипов и РНК-Seq различается. В микрочипе каждое пятно соответствует определённой олигонуклеотидной пробе, и интенсивность флуоресценции соответствует численности определённого транскрипта (Affymetrix). В ячейке для высокопроизводительного секвенирования пятно соответствует одному нуклеотиду, секвенированному в данный момент времени, и цвет флуоресценции соответствует виду нуклеотида (Illumina Hiseq). В различных видах этих методов может быть использовано большее или меньшее количество цветов[13][17]

Обработка изображений, полученных с микрочипов, должна сохранять регулярную сеть ячеек изображения и независимо количественно оценивать интенсивность флуоресценции в каждой ячейке. Необходимо также выявлять артефакты изображений и исключать их из финального анализа. Интенсивность флуоресценции свидетельствует о представленности каждой последовательности, поскольку последовательность пробы в каждой ячейке известна.

Первые этапы РНК-Seq также включают схожую обработку изображений, однако перевод изображений в данных о последовательностях производится автоматически специальными программами. Результатом секвенирования синтезом по технологии Illumina является совокупность кластеров, расположенных на поверхности проточной ячейки. В ходе каждого цикла секвенирования изображение каждой проточной ячейки снимается до четырёх раз, причём один запуск включает десятки или сотни циклов. Кластеры проточных ячеек аналогичны пятнам в микрочипах, и на ранних этапах секвенирования они должны быть правильно определены. При пиросеквенировании (компания Roche) интенсивность испускаемого света соответствует количеству одинаковых нуклеотидов в гомополимерном участке. Существует множество вариаций перечисленных методов, и каждая предполагает использование разных профилей ошибок для получающихся данных.

Анализ данных РНК-Seq

В ходе экспериментов РНК-Seq получается огромный объём прочтений, которые необходимо обработать для получения полезной информации. Анализ данных, как правило, включает использование комбинаций различных биоинформатических программ, которые необходимо подбирать сообразно эксперименту и целям. Процесс обработки данных можно разбить на четыре этапа: контроль качества, выравнивание, количественный анализ и дифференциальная экспрессия. Наиболее популярные программы для обработки данных РНК-Seq запускаются из командной строки в среде Unix или R/Bioconductor.

Контроль качества

Прочтения небезупречны, поэтому необходимо определить точность прочтения каждого основания в последовательности. Прочтения, прошедшие контроль качества, гарантированно имеют высокую точность определения каждого основания, их GC-состав соответствует ожидаемому распределению, в них нет перепредставленности коротких мотивов и дупликации должны быть редки. Существует несколько программ для анализа качества, например, FastQC и FaQCs. Низкокачественные прочтения или удаляются, или специальным образом помечаются, что учитывается при дальнейшем анализе.

Выравнивание

Чтобы связать численность прочтений с определённым геном, прочтения необходимо выровнять на референсный геном или друг на друга, если референсный геном неизвестен (сборка транскриптома de novo). Основными требованиями, которым должны удовлетворять программы для выравнивания, является скорость, позволяющая за приемлемое время выровнять миллиарды коротких прочтений, определённая гибкость, чтобы выявлять случаи сплайсинга эукариотических мРНК, а также правильно выбирать расположение прочтений, соответствующих нескольким местам в геноме. Программы постоянно совершенствуются в соответствии с перечисленными требованиями, а увеличение длины прочтений снижает вероятность неоднозначного выравнивания. Европейский институт биоинформатики (EBI) поддерживает список доступных в данный момент инструментов для выравнивания прочтений, полученных при высокопроизводительном секвенировании.

Выравнивание первичных эукариотических транскриптов на референсный геном требует особое обращение с интронами, которых нет в зрелых мРНК. Программы для выравнивания коротких прочтений могут создавать особые выравнивания, предназначенные специально для идентификации сайтов сплайсинга на основе канонических последовательностей сайтов сплайсинга. Идентификация сайтов сплайсинга предотвращает их ошибочное выравнивание или отбраковывание, позволяя выровнять на референсный геном большее количество прочтений и увеличивая качество количественных оценок экспрессии генов. Поскольку регуляция экспрессии генов может осуществляться на уровне изоформ мРНК, выравнивания, учитывающие сплайсинг, позволяют обнаружить изменения в численности тех или иных изоформ, что было бы невозможно с помощью обычного анализа.

Для сборки транскриптома de novo производится выравнивание прочтений друг на друга, что позволяет реконструировать полноразмерные транскрипты без использования референсного генома. Сложностями именно сборки de novo являются необходимость больших вычислительных мощностей, чем для сборки на основе референсного генома, дополнительной проверки вариантов и фрагментов генов и дополнительной аннотации собранных транскриптов. Первые метрики, предназначенные для оценки качества сборки транскриптома, такие как N50, были признаны ошибочными, и в данный момент доступны усовершенствованные методы оценки. Метрики, основанные на аннотации, хорошо подходят для оценки степени сборки генома. Транскриптом, собранный de novo, может быть использован в качестве референсного при выравнивании последовательностей и количественном анализе экспрессии генов.

Программы для сборки транскриптома de novo
Программа Дата релиза Дата последнего обновления Вычислительная эффективность Сильные и слабые стороны
Velvet-Oases[18][19] 2008 2011 Низкая, один поток выполнения, необходимо много памяти с произвольным доступом Первый сборщик коротких прочтений. В настоящее время почти не используется.
SOAPdenovo-trans[20] 2011 2014 Средняя, несколько потоков выполнения, умеренная необходимость в памяти с произвольным доступом Один из первых сборщиков коротких прочтений. Адаптирован для сборки транскриптомов.
Trans-ABySS[21] 2010 2016 Средняя, несколько потоков выполнения, умеренная необходимость в памяти с произвольным доступом Предназначена для коротких прочтений, но может быть использована и для сложных транскриптомов. Доступна MPI-параллельная версия для вычислительных кластеров.
Trinity[22][23] 2011 2017 Средняя, несколько потоков выполнения, умеренная необходимость в памяти с произвольным доступом Предназначена для коротких прочтений. Можно использовать для сложных транскриптомов, но требуется много памяти.
miraEST[24] 1999 2016 Средняя, несколько потоков выполнения, умеренная необходимость в памяти с произвольным доступом Может обрабатывать повторяющиеся последовательности, комбинирует несколько форматов данных секвенирования, совместима с большим числом платформ секвенирования.
Newbler[25] 2004 2012 Низкая, один поток выполнения, необходимо много памяти с произвольным доступом Специализирована на устранении ошибок секвенаторов 454 Roche, связанных с гомополимерными последовательностями.
CLC genomics workbench[26] 2008 2014 Высокая, несколько потоков выполнения, низкая необходимость памяти с произвольным доступом Имеет графический интерфейс, может комбинировать различные технологии секвенирования. Не специализирована для транскриптомов, перед использованием необходимо приобрести лицензию.
SPAdes[27] 2012 2017 Высокая, несколько потоков выполнения, низкая необходимость памяти с произвольным доступом Предназначена для транскриптомных экспериментов с единичными клетками.
RSEM[28] 2011 2017 Высокая, несколько потоков выполнения, низкая необходимость памяти с произвольным доступом Может оценивать частоту альтернативно сплайсированных транскриптов. Удобна в использовании.
StringTie[29] 2015 2018 Высокая, несколько потоков выполнения, низкая необходимость памяти с произвольным доступом Может использовать комбинацию методов сборки на основе референсного генома и de novo для идентификации транскриптов.

Количественный анализ

Тепловая карта, отображающая наличие одинаковых паттернов экспрессии в различных образцах. Каждая колонка отображает данные измерений изменений экспрессии генов в единичном образце. Относительная экспрессия генов показана цветом: высокая (красный), средняя (белый) и низкая (синий). Гены и образцы с одинаковой экспрессиией можно автоматически сгруппировать (левое и верхнее деревья). Образцы могут соответствовать разным индивидуумам, тканям, условиям среды и состоянию здоровья. В данном примере в образцах 1, 2 и 3 экспрессия набора генов 1 высокая, а набора 2 — низкая[13][30]

Количественный анализ выравниваний прочтений может быть произведён на уровне гена, экзона и транскрипта. Типичным результатом анализа является количество прочтений для каждого элемента анализа (гена, экзона или транскрипта). Например, для генов она выдаётся в формате general feature format (GFF). Количество прочтений для генов и экзонов можно определить при помощи разных программ, например, HTSeq. Анализ на уровне транскрипта более сложен и требует привлечения вероятностных методов для оценки численности транскрипта на основании коротких прочтений; например, это может выполнить программа cufflinks. Прочтения, одинаково хорошо ложащиеся на разные места в геноме должны быть идентифицированы и удалены, либо выровнены на одно из возможных мест, либо на наиболее вероятное из них. Некоторые методы оценки вовсе не предполагают выравнивания прочтения на референсный геном. Например, метод, используемый в программе kallisto, объединяет псевдовыравнивание и количественный анализ в один шаг, который идёт на два порядка быстрее, чем методы программ tophat и cufflinks, и требует меньших вычислительных затрат.

Дифференциальная экспрессия

Когда для каждого транскрипта получены количественные данные, с помощью их статистического анализа, моделирования и нормализации анализируется дифференциальная экспрессия генов. Большинство программ, которые её анализируют, берут на вход таблицу из названий генов и числа транскриптов для каждого из них, но некоторые программы, например, cuffdiff, в качестве входных данных получает выравнивание прочтений в формате BAM (от англ. Binary Alignment Map — карта попарных выравниваний). На выход программы выдают список генов с результатами попарных статистических тестов, проверяющих значимость различий в экспрессии между экспериментальными и контрольными данными.

Программы для анализа дифференциальной экспрессии генов в экспериментах РНК-Seq
Программа Среда Специализация
Cuffdiff2[31] Основанные на Unix Анализ транскриптов, направленный на обнаружение событий альтернативного сплайсинга мРНК
EdgeR[32] R/Bioconductor Любые количественные геномные данные
DEseq2[33] R/Bioconductor Разные типы данных
Limma/Voom[34] R/Bioconductor Microarray or RNA-Seq data, flexible experiment design
Ballgown[35] R/Bioconductor Эффективное и чувствительное отыскание транскриптов

Подтверждение

Результаты транскриптомного анализа можно подтвердить с помощью других методов, например, количественной ПЦР (qPCR). Экспрессия генов измеряется относительно стандартной экспрессии изучаемого гена и контрольных генов. Принцип измерения в qПЦР такой же, что и в РНК-Seq, а именно, значение для данного гена рассчитывается на основе концентрации участка-мишени в исследуемом образце. Однако qПЦР подходит только для ампликонов, меньших 300 п. о. и расположенных вблизи 3'-конца кодирующей области. Если необходимо проверить данные по изоформам транскрипта, с помощью тщательного анализа выравниваний прочтений РНК-Seq можно определить, каким участкам должны соответствовать праймеры для qПЦР, чтобы сделать различия наиболее явными. Измерение экспрессии контрольных генов наряду с исследуемыми даёт стабильные референсные данные. Проверка данных РНК-Seq с помощью контрольной ПЦР показала, что разные варианты РНК-Seq, в целом, дают схожие данные.

Для анализа транскриптомных данных очень важна информация о функциях изучаемых генов. Наблюдаемые паттерны экспрессии генов можно связать с определённым фенотипом при помощи экспериментов по нокдауну и восстановлению экспрессии изучаемых генов.

Применение

Диагностика и профилирование заболеваний

Транскриптомные технологии нашли применение в различных областях биомедицины, в частности, в диагностике и профилировании заболеваний. С помощью РНК-Seq стало возможным обнаружение сайтов начала транскрипции, использования альтернативных промоторов и новых вариантов альтернативного сплайсинга. Поскольку геномные регуляторные элементы играют важную роль в патогенезе многих заболеваний, определение их вариантов чрезвычайно важно для интерпретации данных медицинских исследований. С помощью РНК-Seq можно обнаруживать однонуклеотидные полиморфизмы, связанные с болезнями, случаи аллелеспецифичной экспрессии, слияние генов, которые позволяют пролить свет на генетические основы развития заболеваний.

С помощью РНК-Seq можно получить информацию о транскрипции эндогенных ретротранспозонов, которые могут влиять на транскрипцию соседних генов посредством разнообразных эпигенетических механизмов, что может привести к развитию болезней. Важной потенциальной сферой применения РНК-Seq является исследование молекулярных основ нарушений иммунной системы, потому что этот метод позволяет разделить популяции иммунных клеток разных типов и секвенировать репертуары T- и B-клеточных рецепторов пациентов.

Транскриптомы человека и его патогенов

С помощью РНК-Seq можно находить изменения в экспрессии генов у человеческих патогенов, что может помочь идентифицировать новые факторы вирулентности, предсказывать устойчивость к антибиотикам, а также понять детали взаимодействия патогена с иммунной системой хозяина. С помощью РНК-Seq можно разработать оптимизированные меры контроля за инфекцией, а также направленные индивидуальные стратегии лечения.

Транскриптомный анализ можно проводить и для хозяина, и для патогена. С помощью двойного РНК-Seq можно одновременно построить профили экспрессии генов и хозяина, и патогена в ходе всего инфекционного процесса. Такой подход позволяет изучать динамический иммунный ответ и межвидовые генные регуляторные сети для обоих взаимодействующих организмов с момента начального контакта до инвазии и финальной персистенции патогена или его разрушения иммунной системой хозяина.

Ответы на условия окружающей среды

Транскриптомика позволяет идентифицировать гены и регуляторные пути, ответственные за ответ и противодействие стрессам, связанных с биотическими и абиотическими факторами внешней среды. Благодаря неспецифичным методам транскриптомики, с её помощью можно находить новые генные сети даже в сложных системах. Например, сравнительный анализ нескольких линий нута на различных стадиях развития позволил идентифицировать транскрипционные профили, связанные со стрессами, вызванными засухой и повышенной солёностью; в частности, была показана роль изоформ транскриптов AP2-EREBP. Изучение экспрессии генов при формировании биоплёнок патогенными дрожжами Candida albicans позволило выявить набор совместно регулируемых генов, критически важных для образования и поддержания биоплёнки.

Транскриптомное профилирование даёт ценнейшую информацию о механизмах лекарственной устойчивости. Анализ более тысячи изолятов малярийного плазмодия Plasmodium falciparum показал, что устойчивость к артемизинину изолятов из Юго-Восточной Азии связана с повышенной активностью ответа на неуложенные белки и с более медленным прохождением внутриэритроцитарной стадии жизненного цикла.

Аннотация функций генов

Одно из применений транскриптомных технологий заключается в определении функций генов, а также аллелей, ответственных за конкретный фенотип. Транскриптомика экотипов растения Arabidopsis, которые гипераккумулируют металлы, показала связь с этим фенотипом генов, отвечающих за проникновение металлов в организм, толерантность и гомеостаз. Объединение данных РНК-Seq, полученных для разных тканей, позволило усовершенствовать аннотацию функций генов у коммерчески важных организмов, например, огурца, или видов, находящихся под угрозой исчезновения, таких как коала.

Сборка прочтений РНК-Seq не зависит от референсного генома, поэтому этот метод идеально подходит для изучения экспрессии генов у немодельных организмов, для которых ещё нет готовых геномных данных. Например, база данных однонуклеотидных полиморфизмов, которая использовалась в программах по размножению псевдотсуги Мензиса, была создана при транскриптомном анализе de novo при отсутствии секвенированного генома. Схожим образом гены, участвующие в развитии сердечной, мышечной и нервной тканей у омара, были идентифицированы путём сравнения транскриптомов разных тканей без использования последовательности генома. РНК-Seq также можно использовать для обнаружения ранее неизвестных белоккодирующих областей в уже секвенированных геномах.

Некодирующие РНК

Обычно транскриптомика рассматривает только мРНК клетки. Однако те же методы можно применить и к некодирующим РНК, которые участвуют в трансляции, репликации геномной ДНК, сплайсинге и регуляции транскрипции. Многие из этих некодирующих РНК связаны с развитием болезней, в том числе рака, сердечно-сосудистых заболеваний и заболеваний нервной системы.

Базы данных транскриптомов

При изучении транскриптомов создаются огромные объёмы данных, которые потенциально могут быть использованы и в других проектах. Поэтому сырые или обработанные данные размещают в публичных базах данных, чтобы сделать их доступными для всего научного сообщества. Например, по состоянию на 2018 год база данных Gene Expression Omnibus содержит данные миллионов экспериментов.

Базы данных транскриптомов
Название Владелец Данные Описание
Gene Expression Omnibus[36] NCBI Микрочипы, РНК-Seq Первая база данных транскриптомов, полученных из разных источников. Первая ввела стандарты MIAME и MINSEQE, которые регламентируют необходимые метаданные для эксперимента, чтобы он был хорошо интерпретируем и воспроизводим[37][38].
ArrayExpress[39] ENA Микрочипы Импортирует наборы данных из Gene Expression Omnibus и подчиняется ей. Обработанные данные и метаданные экспериментов хранятся в ArrayExpress, а сырые прочтения — в ENA. Соответствует стандартам MIAME и MINSEQE[37][38].
Expression Atlas[40] EBI Микрочипы, РНК-Seq Содержит данные о тканеспецифичной экспрессии генов у животных и растений. Содержит данные вторичных анализов и их визуализацию, использует термины Gene Ontology, домены и пути InterPro. Содержит ссылки на данные по многочисленности белков, если они имеются.
Genevestigator[41] Частное курирование Микрочипы, РНК-Seq Содержит справочные пояснения к публично доступным транскриптомным данным, в основном касающиеся медицины и биологии растений. Данные отдельных экспериментов нормализованы, что позволяет сравнивать экспрессию генов в различных экспериментах. Для полного доступа необходимо приобрести лицензию, бесплатно доступна лишь часть базы.
RefEx[42] DDBJ Все Транскриптомы, полученные из 40 различных органов человека, мыши и крысы. Данные по экспрессии генов визуализированы в виде тепловой карты, наложенной на трёхмерную модель анатомической структуры.
NONCODE[43] noncode.org РНК-Seq Некодирующие РНК (кроме тРНК и рРНК)

Примечания

  1. Medline trend: automated yearly statistics of PubMed results for any query. dan.corlan.net. Дата обращения 5 октября 2016.
  2. 1 2 3 4 5 Mantione K. J., Kream R. M., Kuzelova H., Ptacek R., Raboch J., Samuel J. M., Stefano G. B. Comparing bioinformatic gene expression profiling methods: microarray and RNA-Seq. (англ.) // Medical Science Monitor Basic Research. — 2014. — 23 August (vol. 20). — P. 138—142. — PMID 25149683. [исправить]
  3. Zhao S., Fung-Leung W. P., Bittner A., Ngo K., Liu X. Comparison of RNA-Seq and microarray in transcriptome profiling of activated T cells. (англ.) // PloS One. — 2014. — Vol. 9, no. 1. — P. e78644—78644. — DOI:10.1371/journal.pone.0078644. — PMID 24454679. [исправить]
  4. 1 2 3 4 5 Ошибка в сносках?: Неверный тег <ref>; для сносок #19015660 не указан текст
  5. Ошибка в сносках?: Неверный тег <ref>; для сносок #22939981 не указан текст
  6. Stears R. L., Getts R. C., Gullans S. R. A novel, sensitive detection system for high-density microarrays using dendrimer technology. (англ.) // Physiological Genomics. — 2000. — 9 August (vol. 3, no. 2). — P. 93—99. — DOI:10.1152/physiolgenomics.2000.3.2.93. — PMID 11015604. [исправить]
  7. 1 2 3 4 5 6 Illumina RNA-Seq Data Comparison with Gene Expression Microarrays. European Pharmaceutical Review.
  8. 1 2 Black M. B., Parks B. B., Pluta L., Chu T. M., Allen B. C., Wolfinger R. D., Thomas R. S. Comparison of microarrays and RNA-seq for gene expression analyses of dose-response experiments. (англ.) // Toxicological Sciences : An Official Journal Of The Society Of Toxicology. — 2014. — February (vol. 137, no. 2). — P. 385—403. — DOI:10.1093/toxsci/kft249. — PMID 24194394. [исправить]
  9. Marioni J. C., Mason C. E., Mane S. M., Stephens M., Gilad Y. RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays. (англ.) // Genome Research. — 2008. — September (vol. 18, no. 9). — P. 1509—1517. — DOI:10.1101/gr.079558.108. — PMID 18550803. [исправить]
  10. SEQC/MAQC-III Consortium. A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequencing Quality Control Consortium. (англ.) // Nature Biotechnology. — 2014. — September (vol. 32, no. 9). — P. 903—914. — DOI:10.1038/nbt.2957. — PMID 25150838. [исправить]
  11. Chen J. J., Hsueh H. M., Delongchamp R. R., Lin C. J., Tsai C. A. Reproducibility of microarray data: a further analysis of microarray quality control (MAQC) data. (англ.) // BMC Bioinformatics. — 2007. — 25 October (vol. 8). — P. 412—412. — DOI:10.1186/1471-2105-8-412. — PMID 17961233. [исправить]
  12. Larkin J. E., Frank B. C., Gavras H., Sultana R., Quackenbush J. Independence and reproducibility across microarray platforms. (англ.) // Nature Methods. — 2005. — May (vol. 2, no. 5). — P. 337—344. — DOI:10.1038/nmeth757. — PMID 15846360. [исправить]
  13. 1 2 3 4 5 Lowe R., Shirley N., Bleackley M., Dolan S., Shafee T. Transcriptomics technologies. (англ.) // PLoS Computational Biology. — 2017. — May (vol. 13, no. 5). — P. e1005457—1005457. — DOI:10.1371/journal.pcbi.1005457. — PMID 28545146. [исправить]
  14. Quail M. A., Smith M., Coupland P., Otto T. D., Harris S. R., Connor T. R., Bertoni A., Swerdlow H. P., Gu Y. A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers. (англ.) // BMC genomics. — 2012. — Vol. 13. — P. 341. — DOI:10.1186/1471-2164-13-341. — PMID 22827831. [исправить]
  15. Ошибка в сносках?: Неверный тег <ref>; для сносок #22829749 не указан текст
  16. SRA. Дата обращения 6 октября 2016.
  17. Petrov Anton, Shams Soheil. Microarray Image Processing and Quality Control (англ.) // The Journal of VLSI Signal Processing-Systems for Signal, Image, and Video Technology. — 2004. — November (vol. 38, no. 3). — P. 211—226. — ISSN 0922-5773. — DOI:10.1023/B:VLSI.0000042488.08307.ad. [исправить]
  18. Zerbino D. R., Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. (англ.) // Genome Research. — 2008. — May (vol. 18, no. 5). — P. 821—829. — DOI:10.1101/gr.074492.107. — PMID 18349386. [исправить]
  19. Schulz M. H., Zerbino D. R., Vingron M., Birney E. Oases: robust de novo RNA-seq assembly across the dynamic range of expression levels. (англ.) // Bioinformatics. — 2012. — 15 April (vol. 28, no. 8). — P. 1086—1092. — DOI:10.1093/bioinformatics/bts094. — PMID 22368243. [исправить]
  20. Xie Y., Wu G., Tang J., Luo R., Patterson J., Liu S., Huang W., He G., Gu S., Li S., Zhou X., Lam T. W., Li Y., Xu X., Wong G. K., Wang J. SOAPdenovo-Trans: de novo transcriptome assembly with short RNA-Seq reads. (англ.) // Bioinformatics. — 2014. — 15 June (vol. 30, no. 12). — P. 1660—1666. — DOI:10.1093/bioinformatics/btu077. — PMID 24532719. [исправить]
  21. Robertson G., Schein J., Chiu R., Corbett R., Field M., Jackman S. D., Mungall K., Lee S., Okada H. M., Qian J. Q., Griffith M., Raymond A., Thiessen N., Cezard T., Butterfield Y. S., Newsome R., Chan S. K., She R., Varhol R., Kamoh B., Prabhu A. L., Tam A., Zhao Y., Moore R. A., Hirst M., Marra M. A., Jones S. J., Hoodless P. A., Birol I. De novo assembly and analysis of RNA-seq data. (англ.) // Nature Methods. — 2010. — November (vol. 7, no. 11). — P. 909—912. — DOI:10.1038/nmeth.1517. — PMID 20935650. [исправить]
  22. Ошибка в сносках?: Неверный тег <ref>; для сносок #21572440 не указан текст
  23. Haas B. J., Papanicolaou A., Yassour M., Grabherr M., Blood P. D., Bowden J., Couger M. B., Eccles D., Li B., Lieber M., MacManes M. D., Ott M., Orvis J., Pochet N., Strozzi F., Weeks N., Westerman R., William T., Dewey C. N., Henschel R., LeDuc R. D., Friedman N., Regev A. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. (англ.) // Nature Protocols. — 2013. — August (vol. 8, no. 8). — P. 1494—1512. — DOI:10.1038/nprot.2013.084. — PMID 23845962. [исправить]
  24. Chevreux B., Pfisterer T., Drescher B., Driesel A. J., Müller W. E., Wetter T., Suhai S. Using the miraEST assembler for reliable and automated mRNA transcript assembly and SNP detection in sequenced ESTs. (англ.) // Genome Research. — 2004. — June (vol. 14, no. 6). — P. 1147—1159. — DOI:10.1101/gr.1917404. — PMID 15140833. [исправить]
  25. Margulies M., Egholm M., Altman W. E., Attiya S., Bader J. S., Bemben L. A., Berka J., Braverman M. S., Chen Y. J., Chen Z., Dewell S. B., Du L., Fierro J. M., Gomes X. V., Godwin B. C., He W., Helgesen S., Ho C. H., Irzyk G. P., Jando S. C., Alenquer M. L., Jarvie T. P., Jirage K. B., Kim J. B., Knight J. R., Lanza J. R., Leamon J. H., Lefkowitz S. M., Lei M., Li J., Lohman K. L., Lu H., Makhijani V. B., McDade K. E., McKenna M. P., Myers E. W., Nickerson E., Nobile J. R., Plant R., Puc B. P., Ronan M. T., Roth G. T., Sarkis G. J., Simons J. F., Simpson J. W., Srinivasan M., Tartaro K. R., Tomasz A., Vogt K. A., Volkmer G. A., Wang S. H., Wang Y., Weiner M. P., Yu P., Begley R. F., Rothberg J. M. Genome sequencing in microfabricated high-density picolitre reactors. (англ.) // Nature. — 2005. — 15 September (vol. 437, no. 7057). — P. 376—380. — DOI:10.1038/nature03959. — PMID 16056220. [исправить]
  26. Kumar S., Blaxter M. L. Comparing de novo assemblers for 454 transcriptome data. (англ.) // BMC Genomics. — 2010. — 16 October (vol. 11). — P. 571—571. — DOI:10.1186/1471-2164-11-571. — PMID 20950480. [исправить]
  27. Bankevich A., Nurk S., Antipov D., Gurevich A. A., Dvorkin M., Kulikov A. S., Lesin V. M., Nikolenko S. I., Pham S., Prjibelski A. D., Pyshkin A. V., Sirotkin A. V., Vyahhi N., Tesler G., Alekseyev M. A., Pevzner P. A. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. (англ.) // Journal Of Computational Biology : A Journal Of Computational Molecular Cell Biology. — 2012. — May (vol. 19, no. 5). — P. 455—477. — DOI:10.1089/cmb.2012.0021. — PMID 22506599. [исправить]
  28. Li B., Dewey C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. (англ.) // BMC Bioinformatics. — 2011. — 4 August (vol. 12). — P. 323—323. — DOI:10.1186/1471-2105-12-323. — PMID 21816040. [исправить]
  29. Pertea M., Pertea G. M., Antonescu C. M., Chang T. C., Mendell J. T., Salzberg S. L. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. (англ.) // Nature Biotechnology. — 2015. — March (vol. 33, no. 3). — P. 290—295. — DOI:10.1038/nbt.3122. — PMID 25690850. [исправить]
  30. Gehlenborg N., O'Donoghue S. I., Baliga N. S., Goesmann A., Hibbs M. A., Kitano H., Kohlbacher O., Neuweger H., Schneider R., Tenenbaum D., Gavin A. C. Visualization of omics data for systems biology. (англ.) // Nature Methods. — 2010. — March (vol. 7, no. 3 Suppl). — P. 56—68. — DOI:10.1038/nmeth.1436. — PMID 20195258. [исправить]
  31. Trapnell C., Hendrickson D. G., Sauvageau M., Goff L., Rinn J. L., Pachter L. Differential analysis of gene regulation at transcript resolution with RNA-seq. (англ.) // Nature Biotechnology. — 2013. — January (vol. 31, no. 1). — P. 46—53. — DOI:10.1038/nbt.2450. — PMID 23222703. [исправить]
  32. Robinson M. D., McCarthy D. J., Smyth G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. (англ.) // Bioinformatics. — 2010. — 1 January (vol. 26, no. 1). — P. 139—140. — DOI:10.1093/bioinformatics/btp616. — PMID 19910308. [исправить]
  33. Love M. I., Huber W., Anders S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. (англ.) // Genome Biology. — 2014. — Vol. 15, no. 12. — P. 550—550. — DOI:10.1186/s13059-014-0550-8. — PMID 25516281. [исправить]
  34. Ritchie M. E., Phipson B., Wu D., Hu Y., Law C. W., Shi W., Smyth G. K. limma powers differential expression analyses for RNA-sequencing and microarray studies. (англ.) // Nucleic Acids Research. — 2015. — 20 April (vol. 43, no. 7). — P. e47—47. — DOI:10.1093/nar/gkv007. — PMID 25605792. [исправить]
  35. Frazee A. C., Pertea G., Jaffe A. E., Langmead B., Salzberg S. L., Leek J. T. Ballgown bridges the gap between transcriptome assembly and expression analysis. (англ.) // Nature Biotechnology. — 2015. — March (vol. 33, no. 3). — P. 243—246. — DOI:10.1038/nbt.3172. — PMID 25748911. [исправить]
  36. Edgar R., Domrachev M., Lash A. E. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. (англ.) // Nucleic Acids Research. — 2002. — 1 January (vol. 30, no. 1). — P. 207—210. — PMID 11752295. [исправить]
  37. 1 2 Brazma A., Hingamp P., Quackenbush J., Sherlock G., Spellman P., Stoeckert C., Aach J., Ansorge W., Ball C. A., Causton H. C., Gaasterland T., Glenisson P., Holstege F. C., Kim I. F., Markowitz V., Matese J. C., Parkinson H., Robinson A., Sarkans U., Schulze-Kremer S., Stewart J., Taylor R., Vilo J., Vingron M. Minimum information about a microarray experiment (MIAME)-toward standards for microarray data. (англ.) // Nature Genetics. — 2001. — December (vol. 29, no. 4). — P. 365—371. — DOI:10.1038/ng1201-365. — PMID 11726920. [исправить]
  38. 1 2 Brazma A. Minimum Information About a Microarray Experiment (MIAME)--successes, failures, challenges. (англ.) // TheScientificWorldJournal. — 2009. — 29 May (vol. 9). — P. 420—423. — DOI:10.1100/tsw.2009.57. — PMID 19484163. [исправить]
  39. Kolesnikov N., Hastings E., Keays M., Melnichuk O., Tang Y. A., Williams E., Dylag M., Kurbatova N., Brandizi M., Burdett T., Megy K., Pilicheva E., Rustici G., Tikhonov A., Parkinson H., Petryszak R., Sarkans U., Brazma A. ArrayExpress update--simplifying data submissions. (англ.) // Nucleic Acids Research. — 2015. — January (vol. 43). — P. D1113—1116. — DOI:10.1093/nar/gku1057. — PMID 25361974. [исправить]
  40. Petryszak R., Keays M., Tang Y. A., Fonseca N. A., Barrera E., Burdett T., Füllgrabe A., Fuentes A. M., Jupp S., Koskinen S., Mannion O., Huerta L., Megy K., Snow C., Williams E., Barzine M., Hastings E., Weisser H., Wright J., Jaiswal P., Huber W., Choudhary J., Parkinson H. E., Brazma A. Expression Atlas update--an integrated database of gene and protein expression in humans, animals and plants. (англ.) // Nucleic Acids Research. — 2016. — 4 January (vol. 44, no. D1). — P. D746—752. — DOI:10.1093/nar/gkv1045. — PMID 26481351. [исправить]
  41. Hruz T., Laule O., Szabo G., Wessendorp F., Bleuler S., Oertle L., Widmayer P., Gruissem W., Zimmermann P. Genevestigator v3: a reference expression database for the meta-analysis of transcriptomes. (англ.) // Advances In Bioinformatics. — 2008. — Vol. 2008. — P. 420747—420747. — DOI:10.1155/2008/420747. — PMID 19956698. [исправить]
  42. Mitsuhashi N., Fujieda K., Tamura T., Kawamoto S., Takagi T., Okubo K. BodyParts3D: 3D structure database for anatomical concepts. (англ.) // Nucleic Acids Research. — 2009. — January (vol. 37). — P. D782—785. — DOI:10.1093/nar/gkn613. — PMID 18835852. [исправить]
  43. Zhao Y., Li H., Fang S., Kang Y., Wu W., Hao Y., Li Z., Bu D., Sun N., Zhang M. Q., Chen R. NONCODE 2016: an informative and valuable data source of long non-coding RNAs. (англ.) // Nucleic Acids Research. — 2016. — 4 January (vol. 44, no. D1). — P. D203—208. — DOI:10.1093/nar/gkv1252. — PMID 26586799. [исправить]