核酸序列數據庫主要包括了基因組DNA序列,mRNA序列,tRNA序列,rRNA序列等核酸序列。國家上有三個主要核苷酸序列公共數據庫:
分別收集來自不同地區的數據,三大數據庫進行數據共享且向世界開放。
核酸序列數據增長迅速,所以數據庫版本更新較快,進行生物信息學分析時,務必注明數據庫的數據狀況及時間。
為維持數據的原始性,未經原作者允許,不能對原始數據庫中的數據記錄進行更新,修改,甚至加上注釋,這就是一級數據庫。
一級數據庫
以為例:
數據組織形式
數據庫中數據量巨大且不斷增長,為了方便數據的維護管理以及查詢,將數據進行分類,分為不同的子數據庫(不同的數據庫分類依據略有不同):
如哺乳類、嚙齒類和病毒等
主要依據序列來源分為專利、人工合成、表達序列標簽( Tags,EST)、高通量基因組測序(High ,HTG)、序列標簽位點( Tag Site,STS)以及基因組概覽序列( ,GSS)分支等
數據格式
數據庫不僅給出了序列信息,還包含了全面的注釋信息。
序列文件由單個序列條目組成序列格式與數據庫的區別,序列條目由字段組成,有些字段又分若干子字段,每個字段由關鍵字起始。
數據的訪問
對數據庫中海量數據進行訪問的途徑主要有四種:一是通過NCBI的檢索系統(//)進行檢索訪問;二是提交序列與或者其中某個子庫進行序列比對,通常使用NCBI提供的序列比對工具BLAST(www. /BLAST/);三是當需要大量訪問中的數據時,可以利用NCBI提供的FTP(ftp://)下載功能將全部數據下載到本地使用。不過即使是這種情況下,一般也只需要下載的某個分支子庫,如PRI子庫等;四是采用NCBI電子編程工具(NCBI e-(//query//.html),即“ ”,編程實現序列的查詢、鏈接和下載。
隨著數據的積累序列格式與數據庫的區別,一級數據庫中存在很多數據冗余和不完全數據,所以在一級數據庫基礎上對數據進行整合,加工,以及添加注釋隨之產生二級數據庫。
二級數據庫數據庫
參考序列數據庫(The )是NCBI建立的一個收集了基因組DNA、轉錄物RNA和蛋白質產物等的,全面的、整合的、非冗余的序列集合。是醫學()、功能學()和差異性()等研究的基石,為基因組注釋( )、基因辨識和特征分析(gene and )、突變和多態性分析( and )、表達研究( ),以及比較分析( )等提供了參考。的獨特之處在于提供了巨大的、多物種的、人工注釋和審核的序列數據庫,明確地關聯了染色體、轉錄本和蛋白質信息,將來源于序列、遺傳、表達和功能信息等多個數據源的大量相異數據整合為一個單一、一致和具有標準協議的數據集合。
的特點dbEST數據庫
表達序列標簽數據庫,包含來源于不同物種的表達序列標簽(EST)
Gene數據庫
為用戶提供基因檢索注釋和檢索服務,收錄來自5300多個物種的430萬條基因記錄
非編碼RNA數據庫
非編碼RNA包括rRNA,tRNA,snRNA,,等,共同特點是能夠轉錄卻不能翻譯成蛋白質,在RNA水平行使各自功能。根據長度又可分:
數據庫有:
基因組數據庫 基因組 基因
基因組組成完整生物體的全部DNA集合,基因是基因組中在染色體上的具有遺傳效應的片段。
隨著錯誤的基因測序結果被糾正,基因組也會隨之改變,所以研究基因組要明確基因組組裝版本。
數據庫
基因組數據庫不同于基因序列數據庫,不僅包含核酸序列數據還包含基因表達,突變位點,基因組定位,相關文獻等內容。