實(shí)驗(yàn)室應(yīng)確定原始測(cè)序數(shù)據(jù)及 FASTQ 文件在服務(wù)器上存儲(chǔ)的位置,并明確具備唯一標(biāo)識(shí)的統(tǒng)一命名,便于數(shù)據(jù)調(diào)用與快速分類(lèi)查找。文件命名建議包含數(shù)據(jù)檢測(cè)/分析日期、檢測(cè)實(shí)驗(yàn)室名稱(chēng)、標(biāo)本類(lèi)型、測(cè)序批次、唯一的標(biāo)本編碼等。命名規(guī)則一旦確定不得隨意改動(dòng)。
實(shí)驗(yàn)室可通過(guò) FASTQC[19] 和 MultiQC[20] 等軟件查看測(cè)序數(shù)據(jù)質(zhì)量、總數(shù)據(jù)量、堿基質(zhì)量值(Q20 和 Q30)等,結(jié)合測(cè)序芯片泳道上生成的簇密度設(shè)置質(zhì)控點(diǎn)(如簇密度是否偏離有效范圍,堿基識(shí)別質(zhì)量值≥Q30 的數(shù)據(jù)比例是否偏低)判斷本批次數(shù)據(jù)能否用于后續(xù)分析。數(shù)據(jù)過(guò)濾規(guī)則可根據(jù)實(shí)驗(yàn)室對(duì) mNGS 檢測(cè)的敏感性和特異性需求進(jìn)行調(diào)整,建議設(shè)置 Q30 堿基數(shù)量占比>75%、有效序列長(zhǎng)度不小于 50bp、含 N 堿基比例小于 10% 等參數(shù)閾值。
為了提高微生物數(shù)據(jù)的分析時(shí)效性,需要去除測(cè)序數(shù)據(jù)中的宿主序列,通常方法是把比對(duì)到人類(lèi)基因組的序列進(jìn)行過(guò)濾。真菌和寄生蟲(chóng)與人類(lèi)的基因組序列有一定的同源性,在過(guò)濾宿主序列的過(guò)程中需要評(píng)估運(yùn)行時(shí)間、去除效率與非特異性去除(非人源序列而被錯(cuò)誤過(guò)濾)的序列比例。
物種注釋是病原宏基因組檢測(cè)最核心的內(nèi)容之一,主要是將通過(guò)質(zhì)量控制的非宿主序列與微生物參考數(shù)據(jù)庫(kù)比對(duì),或者經(jīng)過(guò)從頭組裝成 contigs/scaffolds 后再比對(duì)到微生物參考數(shù)據(jù)庫(kù),確定在特定序列相似性閾值(如≥97%)下的物種分類(lèi)級(jí)別。物種注釋的準(zhǔn)確性取決于所選注釋工具的敏感性和特異性、算法閾值的合理性、參考數(shù)據(jù)庫(kù)的完整性及其納入微生物基因組的準(zhǔn)確性 [12]。目前可用的注釋工具分為三類(lèi):
(1)DNA-to-DNA 比對(duì)工具;
(2)DNA-to-Protein 比對(duì)工具;
(3)基于特征標(biāo)記基因的比對(duì)工具。有研究表明,利用相同的模擬數(shù)據(jù)集測(cè)試不同的宏基因組學(xué)分類(lèi)工具,發(fā)現(xiàn)不同的分類(lèi)工具識(shí)別的物種數(shù)量可能相差 3 個(gè)數(shù)量級(jí)以上 [21]。在 mNGS 中,DNA-to-DNA 工具往往比 DNA-to-Protein 工具能夠更好地進(jìn)行物種分類(lèi) [22],但 DNA-to-Protein 工具在識(shí)別新發(fā)和高度可變的基因序列時(shí)敏感性更高 [23]。而在以注重物種豐度的微生物組學(xué)分析中,則推薦使用基于特征標(biāo)記基因的比對(duì)工具 [24]。
總之,實(shí)驗(yàn)室在選擇物種注釋工具時(shí),應(yīng)基于檢測(cè)的預(yù)期用途,從運(yùn)行速度、準(zhǔn)確率、精確率、召回率等維度評(píng)估性能 [17]。實(shí)驗(yàn)室可使用近緣物種的基因序列對(duì)分析軟件的物種注釋功能進(jìn)行評(píng)估,另外在數(shù)據(jù)庫(kù)或分析算法有變更時(shí),以及定期對(duì)本實(shí)驗(yàn)室的 mNGS 物種/基因注釋功能進(jìn)行評(píng)估。
微生物參考數(shù)據(jù)庫(kù)的選擇顯著影響物種注釋分類(lèi)的結(jié)果 [25,26]。《宏基因組測(cè)序病原微生物檢測(cè)生物信息學(xué)分析規(guī)范化管理專(zhuān)家共識(shí)》[17] 中對(duì) mNGS 常用微生物數(shù)據(jù)庫(kù)的特征有較為詳細(xì)的描述。目前沒(méi)有任何一個(gè)公共數(shù)據(jù)庫(kù)能夠包含所有的潛在人類(lèi)病原體的基因組信息(假陰性風(fēng)險(xiǎn)),且數(shù)據(jù)庫(kù)中不可避免地存在一些注釋錯(cuò)誤或污染的序列(假陽(yáng)性風(fēng)險(xiǎn))[27]。因此在構(gòu)建、使用和管理這類(lèi)數(shù)據(jù)庫(kù)時(shí)需要重點(diǎn)關(guān)注以下問(wèn)題:
(1)充分評(píng)估數(shù)據(jù)庫(kù)的全面性以及納入物種在分類(lèi)學(xué)上的代表性。同一微生物,往往具有遺傳差異的不同亞型或株,在選擇基因組時(shí),應(yīng)該考慮到微生物的遺傳多樣性,盡可能多地納入不同亞型或株的高質(zhì)量基因組;
(2)無(wú)論所選參考基因組的來(lái)源如何,實(shí)驗(yàn)室都需要通過(guò)重測(cè)序或其他技術(shù)手段確認(rèn)其注釋的準(zhǔn)確性,序列的完整性,避免納入錯(cuò)誤注釋、命名錯(cuò)誤或代表性不足的微生物序列;
(3)病原體(尤其是 RNA 病毒)在自然狀態(tài)下是不斷發(fā)生變異的,所以需要及時(shí)(或定期)對(duì)參考數(shù)據(jù)庫(kù)中的基因組信息進(jìn)行更新及驗(yàn)證 [28,29],更新的頻率取決于實(shí)驗(yàn)室或臨床的需求,以及序列在公共數(shù)據(jù)庫(kù)中的上傳或更新時(shí)間 [28];發(fā)生可能影響結(jié)果的數(shù)據(jù)庫(kù)修改、替換及更新等活動(dòng)均需要重新進(jìn)行評(píng)估;建議實(shí)驗(yàn)室每年對(duì)微生物數(shù)據(jù)庫(kù)進(jìn)行審核,必要時(shí)隨時(shí)進(jìn)行更新。但是對(duì)于使用本地化服務(wù)器的實(shí)驗(yàn)室,構(gòu)建的數(shù)據(jù)庫(kù)大小需要權(quán)衡服務(wù)器的計(jì)算能力以及報(bào)告的時(shí)效性要求。
mNGS 檢測(cè)到的微生物常以讀長(zhǎng)數(shù)作為結(jié)果,但它受測(cè)序量、標(biāo)本質(zhì)量等因素的影響,并且同張芯片不同文庫(kù)分配的下機(jī)數(shù)據(jù)量會(huì)有波動(dòng),所以有必要對(duì)讀長(zhǎng)進(jìn)行歸一化處理 [30]。建議將每百萬(wàn)測(cè)序讀長(zhǎng)中匹配到某一微生物基因組的特異讀長(zhǎng)(reads per million,RPM)作為歸一化指標(biāo) [30]。如果希望比較不同微生物在同一文庫(kù)中的讀長(zhǎng),則還需考慮微生物基因組大小不同帶來(lái)的差異(理論上,在相同條件下,基因組越長(zhǎng),測(cè)得的讀長(zhǎng)越多),建議通過(guò)計(jì)算每百萬(wàn)測(cè)序量下每一千個(gè)堿基的基因組長(zhǎng)度的歸一化讀長(zhǎng)來(lái)消除這種影響 [28]。需要注意,由于 mNGS 檢測(cè)原理不同于 qPCR,RPM 不能作為微生物核酸的定量指標(biāo)。
由于缺乏標(biāo)準(zhǔn)的 mNGS 生物信息學(xué)分析方案,各實(shí)驗(yàn)室自建分析流程內(nèi)部使用的分析軟件與數(shù)據(jù)庫(kù)處在不斷更新、確認(rèn)及完善的動(dòng)態(tài)過(guò)程中。為了保證每批次臨床標(biāo)本結(jié)果的可溯源性及可重復(fù)性,實(shí)驗(yàn)室需要明確每一次測(cè)試所使用的軟件及數(shù)據(jù)庫(kù)的版本,建議在報(bào)告單中體現(xiàn),至少應(yīng)包括分析日期、軟件名稱(chēng)和版本號(hào)、對(duì)每個(gè)組成工具及算法的用戶自定義參數(shù)和系統(tǒng)默認(rèn)值等 [28],可使用版本管理工具如 Conda 完成 [31]。此外,可使用流程管理工具如 Snakemake 和 Nextflow 等對(duì)整個(gè)工具集進(jìn)行版本控制。