GWAS(Genome-wide association study),即全基因組關(guān)聯(lián)分析,是指在人類全基因組范圍內(nèi)找出存在的序列變異,即單核苷酸多態(tài)性(SNP),從中篩選出與疾病相關(guān)的SNPs。全基因組關(guān)聯(lián)研究是一種檢測特定物種中不同個體間的全部或大部分基因,從而了解不同個體間的基因變化有多大的一種方法。不同的變化帶來不同的性狀,如各種疾病的不同。在人類中,這種技術(shù)發(fā)現(xiàn)了特定基因與疾病的關(guān)聯(lián),如被稱為年齡相關(guān)性黃斑變性的眼部疾病和糖尿病。
多種關(guān)聯(lián)分析模型,根據(jù)需求不同提供個性化分析
擁有強大生信分析團隊,快速分析SNP芯片/全基因組測序獲得的SNP譜
不同品種、亞種、地方種/種質(zhì)庫/混合家系/野生資源/半同胞家系/全同胞家系/野生資源
A:解釋基因-變異-環(huán)境因素之間的相互作用關(guān)系需要使用GWAS對更多微效的與疾病關(guān)聯(lián)的基因變異進行研究。
A:人群混雜(Population Stratification)是在大樣本研究中導(dǎo)致假陽性、假陰性結(jié)果出現(xiàn)的重要原因之一。使用分層分數(shù)法(Stratification-score approach)控制人群分層、運用統(tǒng)計分析手段控制人群混雜的影響、采用基于家系的關(guān)聯(lián)研究均能夠避免人群混雜對關(guān)聯(lián)結(jié)果分析的影響。
The genome sequence of allopolyploid Brassica juncea and analysis of differential homoeolog gene expression influencing selection
異源四倍體芥菜(AABB)屬于十字花科蕓薹屬,是重要經(jīng)濟作物,主要包括菜用和油用芥菜兩大類群,種植范圍較廣,經(jīng)濟價值較大。菜用芥菜主要分布在中國等東亞國家和地區(qū),油用芥菜主要分布在印度等南亞國家和地區(qū)。芥菜是“禹氏三角”中重要的一員,由白菜和黑芥雜交后加倍而來,至少發(fā)生了三次古多倍化事件,因此非常具有研究價值。但是由于其為異源多倍體,相關(guān)的全基因組測序工作一直很難開展。來自浙江大學(xué)、北京百邁客等單位的團隊共同合作,利用最新的測序技術(shù)(PacBio+BioNano),成功的組裝出高質(zhì)量的芥菜基因組圖譜,為進一步改良芥菜的農(nóng)藝性狀提供了基礎(chǔ),為多倍體物種遺傳育種提供了新的方向。同時,也從多角度論證了芥菜A亞基因組起源問題,揭示了多倍體亞基因組間同源基因表達與選擇機制。
1、芥菜A亞基因組起源問題
芥菜的基因組是異源四倍體(AABB),在“禹氏三角”中由白菜(AA),黑芥(BB)雜交后加倍形成,在演化過程中變異類型非常豐富。問題是油用芥菜的AA和菜用芥菜的AA是來自同一個亞種,還是來自多個亞種呢,這個問題就是A亞基因組的起源問題。
如上圖,a中對芥菜A、白菜A、甘藍型油菜A進行共線性分析,可以發(fā)現(xiàn)其是高度共線的。
我們對10個菜用的芥菜、7個油用的芥菜,5個甘藍型油菜基因組、27個白菜基因組(多亞種)進行了重測序分析,并繪制如上圖b中的進化樹。從b圖中可以看到芥菜全部聚在一起,沒有出現(xiàn)分散的情況,說明芥菜中A的基因組是來源于同一個亞種,屬于單系起源。
C圖中對同源物種和芥菜進行了進化樹構(gòu)建,并計算了芥菜分化的具體時間為3-5萬年。
除了從群體的角度研究了芥菜亞基因組A起源問題,還從PCA聚類和Fixed SNP角度驗正了單系起源的結(jié)論。
2、基因表達的dominance現(xiàn)象
由于芥菜基因組是異源四倍體,也就是說基因組中存在兩套非常相似的亞基因組,那么在基因表達的過程中,位于兩套亞基因組上的等位基因的表達模式是怎么樣的呢,是一起表達,是相互抑制,還是一方占主導(dǎo)?
通過計算等位基因的表達量,發(fā)現(xiàn)在不同的時期,不同組織之間,發(fā)現(xiàn)存在dominance基因,存在dominance的基因經(jīng)受的選擇壓力大于Neutral基因(不存在dominance現(xiàn)象,功能非常重要,純化作用較強,不輕易突變),但是小于Subordinate基因(作用不重要,純化作用較小,易丟失)。
3、油用芥菜和菜用芥菜的選擇與分化
通過菜用和油用芥菜群體進行選擇清除分析,發(fā)現(xiàn)dominance的基因被篩選出來的比例較高,同時結(jié)合轉(zhuǎn)錄組數(shù)據(jù),這部分基因在油用和菜用兩個群體中差異表達。同時通過上面的分析發(fā)現(xiàn)與硫苷,脂類代謝顯著相關(guān)并且存在dominance的基因組,這些基因在油用菜用群體中有各自獨特基因分型。
參考文獻
The genome sequence of allopolyploid Brassica juncea and analysis of differential homoeolog gene expression influencing selection.
Fst 分布圖橫坐標(biāo)代表不同的染色體名稱,縱坐標(biāo)代表相應(yīng)染色體窗口內(nèi)Fst 值,另外的兩條虛線代表兩種選擇閾值(top 5%或 1%)。
θπ 選擇消除分析圖 圖中橫坐標(biāo)表示染色體位置,縱坐標(biāo)反映核苷酸多態(tài)性水平。從圖中可以看出,在1 號染色體的不同位置,玉米的parviglumis 品種(綠線)、地方品種(紅線)和改良品種(藍線)的多態(tài)性水平。
全基因組關(guān)聯(lián)分析結(jié)果注:左側(cè)為曼哈頓圖,為遺傳標(biāo)記效應(yīng)值即經(jīng) F 檢驗的全基因組P 值按染色體上物理位置排序圖,橫坐標(biāo)為基因組坐標(biāo),縱坐標(biāo)-log10P,P值越小關(guān)聯(lián)性越強,表現(xiàn)為縱坐標(biāo)越大。
GWAS 強關(guān)聯(lián) SNP 位點功能注釋注:圖中紅線表示關(guān)聯(lián)最顯著的 SNP 位點(即P值最小的位點),藍線表示顯著關(guān)聯(lián)的閾值,綠色表示注釋的基因(對關(guān)聯(lián)最顯著 SNP位點兩側(cè) 50kb 范圍內(nèi)的基因進行注釋)。
GWAS 強關(guān)聯(lián) SNP 位點功能注釋注:圖中紅線表示關(guān)聯(lián)最顯著的 SNP 位點(即P值最小的位點),藍線表示顯著關(guān)聯(lián)的閾值,綠色表示注釋的基因(對關(guān)聯(lián)最顯著 SNP位點兩側(cè) 50kb 范圍內(nèi)的基因進行注釋)。
單體型圖譜注:C 圖為曼哈頓圖,為遺傳標(biāo)記效應(yīng)值即經(jīng) F 檢驗的全基因組 P 值按染色體上物理位置排序圖, 橫坐標(biāo)為基因組坐標(biāo),縱坐標(biāo)-log10P,P 值越小關(guān)聯(lián)性越強,表現(xiàn)為縱坐標(biāo)越大,紅色標(biāo)記為顯著 性相關(guān)位點。D 和 E 圖分別為 C 圖中顯著性位點附近的單倍體型圖,上方為曼哈頓圖,下方為代表連鎖關(guān)系的 LD圖,顏色越深表示連鎖越緊密,而 E 圖中用黑色邊框標(biāo)記出的范圍為 block 范圍。