摘要:讀特客戶端·深圳新聞網(wǎng)2022年8月26日訊(記者 李旖露)近日,華大智造研發(fā)團(tuán)隊(duì)在《自然》子刊Nature Machine Intelligence(IF=25.898)上在線發(fā)表了題為“Contrastive learning enab...
讀特客戶端·深圳新聞網(wǎng)2022年8月26日訊(記者 李旖露)近日,華大智造研發(fā)團(tuán)隊(duì)在《自然》子刊Nature Machine Intelligence(IF=25.898)上在線發(fā)表了題為“Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale”的研究成果。研究人員開發(fā)了一種基于對(duì)比學(xué)習(xí)的多模態(tài)單細(xì)胞算法工具——Concerto (協(xié)奏曲)。該算法通過(guò)自監(jiān)督訓(xùn)練的方式,可快速對(duì)千萬(wàn)級(jí)無(wú)標(biāo)注的單細(xì)胞多組學(xué)數(shù)據(jù)進(jìn)行建模,得到的細(xì)胞表征(cell embedding)可以用于自動(dòng)注釋、多模態(tài)整合、聚類、跨批次整合、參考映射注釋等下游應(yīng)用。華大智造方面表示,Concerto在各項(xiàng)任務(wù)中都展現(xiàn)了優(yōu)異的性能,進(jìn)一步豐富了單細(xì)胞大數(shù)據(jù)領(lǐng)域的算法工具。
單細(xì)胞多組學(xué)工具在解析細(xì)胞多樣性的研究中發(fā)揮著至關(guān)重要的作用,可繪制單細(xì)胞水平的多組學(xué)圖譜,進(jìn)而從多模態(tài)角度揭示細(xì)胞功能或狀態(tài)的異質(zhì)性。百萬(wàn)甚至千萬(wàn)級(jí)別的單細(xì)胞多組學(xué)大數(shù)據(jù)需要通過(guò)智能高效的計(jì)算工具助力科學(xué)發(fā)現(xiàn),定義細(xì)胞類型和狀態(tài)。同時(shí),已發(fā)表的大量未經(jīng)人工注釋或者注釋顆粒度不夠精細(xì)的數(shù)據(jù)集本身也是寶貴的資源,若加以有效利用,可以幫助快速解讀新產(chǎn)生的數(shù)據(jù)集。
據(jù)介紹,目前主流的單細(xì)胞數(shù)據(jù)分析工具可能會(huì)造成信息量丟失。此外,單細(xì)胞數(shù)據(jù)集不可避免地存在不同程度的批次效應(yīng),在數(shù)據(jù)整合的過(guò)程中需要在保留每個(gè)樣本包含的細(xì)微生物學(xué)狀態(tài)差異前提下完成批次效應(yīng)的適度去除。隨著單細(xì)胞大數(shù)據(jù)時(shí)代的到來(lái),亟需可快速構(gòu)建千萬(wàn)級(jí)別單細(xì)胞多模態(tài)圖譜并可實(shí)現(xiàn)映射注釋的算法。
華大智造介紹,其自主開發(fā)的Concerto算法,采用人工智能領(lǐng)域新興的對(duì)比自監(jiān)督學(xué)習(xí)框架并進(jìn)行優(yōu)化適配,以應(yīng)用在海量單細(xì)胞組學(xué)數(shù)據(jù)的建模中,簡(jiǎn)而言之,即構(gòu)造一個(gè)直觀簡(jiǎn)潔的學(xué)習(xí)任務(wù),讓機(jī)器去對(duì)比和區(qū)分哪些樣本與哪些樣本相似,哪些樣本與哪些樣本不相似,從而學(xué)習(xí)到每個(gè)樣本蘊(yùn)含的高階特征。
這就好比是試圖理解世界的嬰兒,即使還未建立起認(rèn)知世界的知識(shí)框架,也可能會(huì)意識(shí)到,相比于“史努比”,“加菲貓”和“黑貓警長(zhǎng)”長(zhǎng)得更像。嬰兒通過(guò)比較不同物體之間的異同,或許可以學(xué)習(xí)到這些物體最重要的特征。
相比于傳統(tǒng)的監(jiān)督學(xué)習(xí),在自監(jiān)督學(xué)習(xí)中,機(jī)器學(xué)習(xí)的標(biāo)簽來(lái)自于樣本自身。在真實(shí)世界中,有標(biāo)簽或者說(shuō)有高質(zhì)量標(biāo)簽的數(shù)據(jù)集是稀缺的,通過(guò)對(duì)比學(xué)習(xí)這樣的自監(jiān)督訓(xùn)練框架,可以很好地利用大量真實(shí)世界未注釋的數(shù)據(jù)集。在機(jī)器視覺(jué)領(lǐng)域,Google和Meta近年來(lái)相繼提出多種對(duì)比自監(jiān)督學(xué)習(xí)算法,包括SimCLR、 MoCo等。在ImageNet分類基準(zhǔn)測(cè)試中,最新的自監(jiān)督算法甚至能優(yōu)于有監(jiān)督的基線方法。正如圖靈獎(jiǎng)得主Yann LeCun所預(yù)測(cè),自監(jiān)督學(xué)習(xí)是AI的未來(lái),它就像人一樣自覺(jué)觀察數(shù)據(jù),可能使AI產(chǎn)生類人的推理能力。
在生物學(xué)領(lǐng)域,通過(guò)新興的單細(xì)胞、時(shí)空組學(xué)工具獲得的全新數(shù)據(jù)集,大大拓展了人類對(duì)于復(fù)雜生物系統(tǒng)的認(rèn)知,這些數(shù)據(jù)還有大量未被人類標(biāo)記或僅僅是依賴于已有知識(shí)進(jìn)行注釋。借鑒機(jī)器學(xué)習(xí)領(lǐng)域中不依賴標(biāo)簽數(shù)據(jù)的智能建模思想,以無(wú)偏的方式去利用好這些全新的單細(xì)胞數(shù)據(jù),可以幫助科學(xué)家發(fā)現(xiàn)新的細(xì)胞類型、細(xì)胞狀態(tài),進(jìn)而重新定義細(xì)胞類型。華大智造團(tuán)隊(duì)通過(guò)構(gòu)造對(duì)比學(xué)習(xí)任務(wù),讓每個(gè)細(xì)胞自己跟自己“學(xué)習(xí)”,類似的細(xì)胞離得更近,不類似的細(xì)胞離得更遠(yuǎn),從而實(shí)現(xiàn)對(duì)千萬(wàn)級(jí)別單細(xì)胞數(shù)據(jù)的快速建模。
華大智造介紹,基于其自主研發(fā)的DNBelab C4單細(xì)胞建庫(kù)平臺(tái),結(jié)合GPU的使用,利用Concerto構(gòu)建千萬(wàn)級(jí)別的單細(xì)胞參考集耗時(shí)1.5小時(shí),注釋5萬(wàn)個(gè)細(xì)胞僅需8秒。同時(shí),該模型可以整合不同模態(tài)、不同批次、不同測(cè)序平臺(tái)和不同單細(xì)胞建庫(kù)的方法。值得一提的是,Concerto的對(duì)比學(xué)習(xí)架構(gòu)可以有效支持將一個(gè)細(xì)胞的所有基因作為輸入建模,避免了直接降維過(guò)程中的信息丟失,同時(shí)該優(yōu)勢(shì)對(duì)于跨數(shù)據(jù)集的遷移注釋至關(guān)重要,可以更好地?cái)U(kuò)展跨數(shù)據(jù)集間可利用的交集基因信息。
華大智造高級(jí)副總裁倪鳴博士表示:“單細(xì)胞組學(xué)的研究已進(jìn)入高通量、大數(shù)據(jù)、多模態(tài)的研究階段,此次基于對(duì)比學(xué)習(xí)的最新人工智能方法Concerto 用于單細(xì)胞參考數(shù)據(jù)集映射注釋成果的發(fā)布,豐富了華大智造此前自主研發(fā)DNBelab C4單細(xì)胞平臺(tái),實(shí)現(xiàn)了單細(xì)胞組學(xué)領(lǐng)域硬件與軟件的深度結(jié)合,相信未來(lái)會(huì)在單細(xì)胞領(lǐng)域賦能更多用戶?!眮?lái)源:深圳新聞網(wǎng)