中心動物遺傳育種團隊在基因組預測領域取得進展-生豬健康養殖協同創新中心（2021）

<menuitem id="xv63c"></menuitem>

中心新聞

中心動態

首頁 > 中心動態 > 正文

中心動物遺傳育種團隊在基因組預測領域取得進展

2020-06-17

近日，國際學術期刊Genome Biology在線發表了題為“KAML: improving genomic prediction accuracy of complex traits using machine learning determined parameters”的研究論文。該研究提出了一種準確性高且計算高效的基因組預測方法，該方法利用機器學習的策略解析基因組和表型組大數據之間的隱藏關系，并根據表型的遺傳復雜程度智能化選擇最優預測模型來提高基因組預測的準確性。

基因組預測是指利用覆蓋于基因組的高密度遺傳標記對未知表型（或育種值）進行預測的技術。在動植物領域，利用該技術可對不同經濟性狀進行早期選擇，保留優勢個體，淘汰劣勢個體，既能提高群體總體性能表現以獲得豐厚的經濟效應，還能極大降低飼養及表型測量成本；對于人類，基因組預測可根據遺傳標記信息估計各類遺傳疾病的患病風險，給人們的生活方式及飲食習慣提供針對性建議，保障人們的健康生活。預測準確性是基因組預測應用于實際的基本保證，而統計方法發揮至關重要的作用。線性混合模型（LMM）以其高效的計算效率優勢成為目前基因組預測使用最廣泛的方法，然而由于其簡單的標記效應假設，預測準確性往往偏低，尤其對于受大效應基因影響的性狀。另一類以貝葉斯（Bayes）理論為基礎的方法，大多具有復雜的標記效應假設，模型靈活多變，能夠適用于遺傳構建從簡單到復雜的性狀，預測準確性往往高于LMM方法，然而其復雜的假設導致眾多的未知待估超參，參數的求解過程無法并行運算，計算效率低下，尤其對于超高密度標記，預測一個性狀可能需要數周甚至數月的時間，因此難以廣泛應用于育種實踐.

高計算效率的方法預測準確性較低，高預測準確性的方法計算效率較低。為了解決這一難題，該研究結合兩類方法的特性，提出了一種準確性高且計算高效的新方法KAML。該方法利用高速可并行的機器學習策略解析性狀的復雜程度，機器學習過程整合了交叉驗證、多元回歸、網格搜索以及二分求極值等方法，智能化選擇最佳預測模型、最可靠的協變量QTN、最優的親緣關系矩陣，多方面優化模型以達到最理想的預測準確性。研究結果顯示，KAML具有與Bayes方法近似的準確性，在部分性狀上甚至表現更好，顯著超過LMM方法，計算效率高于Bayes方法30-100倍。同時，KAML可與動物育種中廣泛應用的一步法（SS, Single Step）策略結合，研究結果顯示SSKAML的預測準確性顯著優于SSBLUP方法。另外，對于已被KAML分析過的性狀，優化后的參數可直接用于新的群體預測，預測準確性幾乎不變，計算效率等同于LMM方法。KAML和SSKAML可助力動植物基因組育種產業以及疾病風險預測等人類大健康產業的發展。

中心劉小磊副教授、李新云教授為文章共同通訊作者，博士生尹立林為論文第一作者，趙書紅教授參與并指導了該項工作。同時，武漢理工大學袁曉輝教授、博士生張浩浩共同參與了該研究。上述研究工作得到了國家自然科學基金等項目的資助。

上一篇：關于檢測報告編號為2020A06065的檢測報告作廢的聲明

下一篇：關于檢測報告編號為2020C06012的檢測報告作廢的聲明

<menuitem id="xv63c"></menuitem>