- +1
單位測(cè)序成本以“超摩爾定律”速度下降,全球大規(guī)模隊(duì)列研究恰逢其時(shí)?

上世紀(jì)末至本世紀(jì)初,美、英、日、法、德、中等6國(guó)科學(xué)家用了13年時(shí)間完成第一個(gè)人類全基因組圖譜,花費(fèi)近30億美元。而近20年來,隨著基因測(cè)序技術(shù)的迭代升級(jí),單位測(cè)序成本正以“超摩爾定律”的速度飛速下降。
成本日益親民化之后將帶來何種效應(yīng)?近日,來自中國(guó)、英國(guó)、美國(guó)以及新加坡等多國(guó)研究學(xué)者在于南京舉行的一場(chǎng)論壇上由此重點(diǎn)討論了隊(duì)列研究中國(guó)發(fā)展路徑,該論壇由南京醫(yī)科大學(xué)、全球基因測(cè)序儀龍頭因美納(Illumina)等多方舉辦。
與會(huì)者在大會(huì)中傳遞出一種趨勢(shì):研究人員能夠在有限的預(yù)算范圍內(nèi)對(duì)更多的樣本進(jìn)行測(cè)序,并結(jié)合生物信息學(xué)分析及解讀的進(jìn)步,正持續(xù)驅(qū)動(dòng)著精準(zhǔn)醫(yī)學(xué)領(lǐng)域新見解的快速發(fā)現(xiàn),尤其在腫瘤學(xué)、微生物等領(lǐng)域促進(jìn)了許多新的診斷和預(yù)后標(biāo)志物的研究進(jìn)展。
實(shí)際上,自人類基因組計(jì)劃完成以來,以發(fā)達(dá)國(guó)家為代表的全球主要經(jīng)濟(jì)體持續(xù)加大對(duì)大規(guī)模人群隊(duì)列研究的投入和支持。與此同時(shí),過去25年間基因測(cè)序技術(shù)的高速發(fā)展以及與大數(shù)據(jù)科學(xué)的交叉應(yīng)用,使大規(guī)模生物信息數(shù)據(jù)分析研究成為可能。
全球啟動(dòng)最早的英國(guó)生物樣本庫(kù)(UKB)即被稱為規(guī)模最大、樣本最全、開放程度最高的“典型范本”。該樣本庫(kù)共收集了來自50萬名年齡在40到69歲之間的英國(guó)人的健康數(shù)據(jù),共有約1500萬份生物樣本。換言之,每1000名英國(guó)人中就有7人參與其中,且平均每名參與者對(duì)應(yīng)30份樣本。
英國(guó)劍橋大學(xué)Emanuele Di Angelantonio教授在大會(huì)上表示,“UKB集合了來自政府資助、科研機(jī)構(gòu)和產(chǎn)業(yè)基金等各方的力量,真正實(shí)現(xiàn)了大規(guī)模公眾支持、樣本深度分析、數(shù)據(jù)共享、成功對(duì)接醫(yī)學(xué)研發(fā)的研究目標(biāo)。UKB特有的開放性,為科學(xué)家與研究人員提供了獨(dú)特的價(jià)值——既能提供數(shù)據(jù)來指導(dǎo)實(shí)踐,又能促成新的病因?qū)W見解,使得科研‘大數(shù)據(jù)’被不斷刷新。因此,各種機(jī)構(gòu)能夠廣泛加入,形成合力,使得生物樣本庫(kù)可持續(xù)‘運(yùn)轉(zhuǎn)’,從而充分發(fā)揮它的健康影響力?!?/p>
中國(guó)也是全球最早啟動(dòng)精準(zhǔn)醫(yī)學(xué)和隊(duì)列研究的國(guó)家之一。值得一提的是,我國(guó)人口基數(shù)大,民族多樣性豐富,地區(qū)差異明顯,疾病譜復(fù)雜,具有開展大規(guī)模人群隊(duì)列研究的獨(dú)特優(yōu)勢(shì)。
而隨著中國(guó)隊(duì)列研究的發(fā)展,當(dāng)前業(yè)內(nèi)開始更多地關(guān)注多學(xué)科多中心協(xié)作、標(biāo)準(zhǔn)體系統(tǒng)一、生物樣本數(shù)據(jù)共享等下一階段問題。上述大會(huì)提到,以中國(guó)慢性病前瞻性隊(duì)列(CKB)、泰州隊(duì)列、江蘇出生隊(duì)列等為代表的大規(guī)模人群隊(duì)列研究項(xiàng)目均取得了重要進(jìn)展,這為制定符合我國(guó)國(guó)情的疾病防控對(duì)策提供了新思路與科學(xué)依據(jù),也為全球隊(duì)列研究提供了“中國(guó)樣本”。
中國(guó)工程院院士、中國(guó)醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院林東昕教授即表示,“隊(duì)列研究對(duì)了解中國(guó)特有的疾病成因和防治手段的制定非常重要,以食管癌為例,全世界一半的食管癌患者在中國(guó),我們對(duì)于食管癌的研究以及從科研成果轉(zhuǎn)化而來的食道癌早篩早診技術(shù),其實(shí)是位居世界前列的?!逼鋸?qiáng)調(diào),中國(guó)人群基礎(chǔ)健康數(shù)據(jù)庫(kù)的建立,對(duì)于改善國(guó)民健康乃至促進(jìn)世界范圍內(nèi)人群主要慢病危險(xiǎn)因素及全球病因?qū)W研究具有重要意義。
此外,人口老齡化也對(duì)人類健康提出了新的挑戰(zhàn)。中國(guó)疾病預(yù)防控制中心副主任施小明研究員是中國(guó)老年健康生物標(biāo)志物隊(duì)列項(xiàng)目的帶頭人,他表示,“當(dāng)前,我國(guó)人口老齡化形勢(shì)突出,且老年人口多種慢性病共存比例達(dá)75%,為社會(huì)和公共服務(wù)帶來一系列挑戰(zhàn)。老齡人群健康問題的研究需要深入探究遺傳學(xué)機(jī)制,我們希望通過對(duì)全國(guó)代表性隊(duì)列和重點(diǎn)地區(qū)數(shù)據(jù)的分析研究,為我國(guó)健康老齡化的推進(jìn)應(yīng)對(duì)提供科學(xué)證據(jù)?!?/p>
值得一提的是,單個(gè)人的全基因組序列數(shù)據(jù)約為90GB(十億字節(jié)),一項(xiàng)50萬人的隊(duì)列研究?jī)H基因組序列數(shù)據(jù)就高達(dá)約5.6 PB(千兆字節(jié)),約等于5億張照片與1.5億小時(shí)視頻的數(shù)據(jù)量。美國(guó)國(guó)家衛(wèi)生研究院發(fā)布的數(shù)據(jù)顯示,每年生成的基因組數(shù)據(jù)量接近400億GB。
然而,獲取這些數(shù)據(jù)僅僅是解開諸多生命謎團(tuán)的第一步,測(cè)序獲得的海量數(shù)據(jù)如何處理則是該技術(shù)“有效應(yīng)用”的關(guān)鍵。作為設(shè)備和技術(shù)的提供方,全球巨頭因美納(Illumina)也參與了上述大會(huì)。該公司人工智能副總裁、杰出科學(xué)家Kyle Farh在大會(huì)上提出,“基于人工智能和大模型的算法正在基因數(shù)據(jù)領(lǐng)域展現(xiàn)巨大潛力,因美納研發(fā)團(tuán)隊(duì)正全力推動(dòng)基于自然選擇訓(xùn)練的AI算法在基因數(shù)據(jù)中的應(yīng)用開發(fā)?!?/p>
ChatGPT等大模型點(diǎn)燃人工智能新一輪熱潮之際,因美納在今年6月宣布推出全新人工智能(AI)算法——PrimateAI-3D,其能夠利用靈長(zhǎng)類動(dòng)物基因和先進(jìn)的人工智能技術(shù)來改善遺傳風(fēng)險(xiǎn)預(yù)測(cè)和藥物靶點(diǎn)發(fā)現(xiàn)。
因美納方面此前介紹,PrimateAI-3D采用了與ChatGPT和AlphaFold類似的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),不同之處在于PrimateAI-3D是根據(jù)基因組序列而不是人類語言來進(jìn)行訓(xùn)練?!澳憧梢栽诰S基百科和其他地方的現(xiàn)有文本上訓(xùn)練ChatGPT等生成語言模型,我們使用了類似的深度學(xué)習(xí)架構(gòu),但我們的數(shù)據(jù)來自數(shù)百萬年的自然選擇?!?/p>





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司