腫瘤相關的甲基化高通量數據介紹

2019-02-18 07:35:29

DNA甲基化是一種參與了許多疾病與生物學過程的表觀遺傳標記,對於脊椎動物而言,常見的形式就是核苷酸5號位的胞嘧啶添加1個甲基(5mC), CpG含量豐富的啟動子區域的甲基化狀態當然就會影響基因的轉錄,而後是不是就可能影響基因的表達呢?再然後蛋白的的表達?繼而生物學過程,疾病發生髮展的過程啦,當然腫瘤也不例外。

在人的基因組中大約有2800萬個CpG位點,高通量技術的誕生使得全基因組範圍內的甲基化分析成為可能。提及高通量技術很容易聯想到兩類,即晶片與測序,兩者各自都有優缺點。目前腫瘤甲基化數據主要來源於4種技術,包括基於測序的whole-genome bisulfite sequencing(WGBS),methyl-binding domain capture sequencing(MBDCap-Seq),reduced-representation-bisulfite-sequencing (RRBS)以及Infinium HumanMethylation450BeadChips (HM450, Illumina),通常稱為甲基化450k晶片,即能檢測45萬個位點,當然甲基化晶片已經推出了850k(EPIC),能檢測85萬個位點。 在早期,甲基化分析僅僅局限於富含CpG的基因組區域,隨著技術發展已經有多種技術擴展至整個基因組範圍了,話不多說直接上圖。

很明顯,基於測序的技術檢測的範圍明顯高於晶片,尤其是WGBS其檢測覆蓋度達到95%,再看看幾種技術間的比較與檢測範圍,見下圖。

即便基於測序的甲基化高通量技術檢測的範圍是如此的大,如此壓倒性的優勢勝過晶片技術,然而我們來看看腫瘤相關甲基化高通量數據的分布情況以及一些存儲資料庫資源:

看到這你是不是:

甲基化晶片的數據以壓倒性的優勢勝過基於測序的甲基化數據,占據甲基化高通量數據的主導地位。連著名的TCGA項目都是以450k晶片檢測的腫瘤甲基化譜,推測原因有二,一是甲基化晶片的性價比可能跟高些,一是測序數據的數據量極大,數據處理的難度也相應攀升。 當然,隨著技術的不斷成熟,費用降低以及處理數據的軟體和方法的改進,將來測序數據是否大規模的增加,彎道超車,也未可知。

甲基化高通量資料庫資源及網路工具

甲基化高通量數據來源主要包括大型項目的檢測如,TCGA項目,還有全球各實驗室的檢測提交至公共資料庫中存儲。上圖中已經列出了一些

存儲資料庫

TCGA: cancergenome.nih.gov/

GEO: www.ncbi.nlm.nih.gov/geo/

Cancer Methylome System: cbbiweb.uthscsa.edu/KMethylomes/

ENCODE: www.encodeproject.org/

ArrayExpress: www.ebi.ac.uk/arrayexpress/

ICGC: dcc.icgc.org/

網路線上工具整理

也就是我們常說的神器,來看看神器長啥樣吧:

MethDB:www.methdb.net/

PubMeth:www.pubmeth.org/

MethyCancer:methycancer.psych.ac.cn/

NGSmethDB:bioinfo2.ugr.es:8888/NGSmethDB/

DiseaseMeth:www.bio-bigdata.com/diseasemeth/

MethHC:methhc.mbc.nctu.edu.tw/php/index.php

看一個神器長啥樣吧

相關文章
精选文章