
據(jù)科技日?qǐng)?bào)報(bào)道,23日,華大生命科學(xué)研究院與之江實(shí)驗(yàn)室聯(lián)合發(fā)布全球首個(gè)百億參數(shù)可部署的基因組通用基礎(chǔ)模型Genos。該模型支持多達(dá)百萬(wàn)堿基對(duì)的超長(zhǎng)上下文分析,并實(shí)現(xiàn)單堿基分辨率的精準(zhǔn)識(shí)別。
人類基因組由30億對(duì)堿基組成?!叭祟惢蚪M計(jì)劃”破譯了序列,但序列上堿基的具體功能仍需要精準(zhǔn)識(shí)別和解析。
現(xiàn)有模型大多基于1—2個(gè)參考基因組開(kāi)展訓(xùn)練,難以體現(xiàn)人類遺傳資源的多樣性。而Genos整合了人類泛基因組參考聯(lián)盟(HPRC)、人類基因組結(jié)構(gòu)變異圖譜計(jì)劃(HGSVC)等多個(gè)權(quán)威公開(kāi)資源,首次將全球范圍內(nèi)636個(gè)“端粒到端粒”級(jí)別的高質(zhì)量人類基因組作為訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)覆蓋了全球不同人群,有助更全面理解人類遺傳多樣性。
據(jù)悉,Genos模型已在HuggingFace(抱抱臉)、魔搭等平臺(tái)全面開(kāi)源開(kāi)放,提供12億和100億參數(shù)兩個(gè)版本,滿足不同需求。
京公網(wǎng)安備 11010802028547號(hào)