科研工作者在發(fā)表paper的時候,如果文章中涉及高通量測序數(shù)據(jù)分析,就需要提前向NCBI上傳數(shù)據(jù)獲得登錄號。然而,如何向NCBI提交這些序列?提交什么序列?總是提交失敗怎么辦?這一系列問題成為科研工作者不得不面對的一個難題。
今天小編就來介紹一種重要的NCBI數(shù)據(jù)庫GEO,它可用于存儲測序數(shù)據(jù),實現(xiàn)資源共享。小編將GEO數(shù)據(jù)庫的提交過程做一個簡單概述,希望能為大家提供一點幫助。
一.GEO數(shù)據(jù)上傳操作方法
1.NCBI 賬號注冊
數(shù)據(jù)上傳前需要注冊一個NCBI()賬號
若賬號已存在,可點擊“Log in”直接登錄,若未注冊賬號,需點擊“Sign up“注冊后登錄。
2.GEO賬號注冊
登錄NCBI后點擊“Submit”
下拉至“Other Tools”點擊GEO對應的“l(fā)earn more”,進入GEO
NCBI 賬號關聯(lián)GEO 數(shù)據(jù)庫提交賬號
填寫姓名、電話、E-mail等基本信息 (帶*號的為必填信息)
注:、 或 電子郵件地址可能不能收到來自 NCBI 的郵件。請?zhí)峁┢渌]箱以確保NCBI能夠與您溝通。
注冊成功后會收到GEO注冊成功郵件。
注:GEO帳戶三個月內不上傳數(shù)據(jù)將自動刪除。
3.數(shù)據(jù)上傳導航
RNA-seq 選擇高通量測序
需要提交的數(shù)據(jù):
可在下方直接下載填寫
data fies即表達量文件gene count或gene fpkm文件
raw data files即原始數(shù)據(jù)raw data
4. 表格填寫
(1)STUDY主要包含文章的標題、概述、實驗整體設計、共同作者等
(2)SAMPLES: 包括樣品名稱、樣品的詳細信息、物種、細胞系、細胞類型、試驗處理情況、單雙端測序情況、測序機器、原始文件名等(目前諾禾致源普通轉錄組標準項目使用 NovaSeq 6000測序儀器,采用paired-end測序)
主要是基因表達的數(shù)據(jù)文件(或FPKM),需要換成文本txt格式。
raw file對應原始數(shù)據(jù)raw data中的壓縮包名稱,以fq.gz結尾,由于是雙端測序,因此一個樣本對應-1、-2兩端數(shù)據(jù)。
(3): 樣本的處理方案,建庫方案,類型,處理步驟,處理過程中文件信息等
(4)PAIRED-END : 雙端測序的樣本fq文件名
(5)MD5
MD5 即 Message-Digest 5,是當前計算機領域廣泛使用的哈希算法之一,用于確保信息傳輸完整一致。
RAW FILES即raw data,對應的file cheksum可直接在釋放的全部數(shù)據(jù)中的md5.txt直接查看。
DATA FILES即結果文件中的表達量fpkm文件,需將文件轉換成txt格式后上傳,windows電腦的file cheksum可利用md5.exe(釋放的全部數(shù)據(jù)中有)生成,具體操作如下。
5.數(shù)據(jù)上傳
將以上涉及的三部分需提交的內容(表格與數(shù)據(jù))打包到一個文件夾內
注:可接受的壓縮格式是 gzip 和 bzip2(即以 .gz 或 .bz2 擴展名結尾的文件)。切勿壓縮二進制文件(例如,BAM、bigWig、bigBed),也不要上傳 ZIP 檔案(擴展名為 .zip 的文件)。
點擊“ your ”跳轉到數(shù)據(jù)上傳界面
分兩步:第一步下載FTP軟件上傳數(shù)據(jù),第二步發(fā)郵件通知GEO
上傳路徑:
上傳的主機,賬號及密碼:
“快速連接”工具欄中輸入主機(),用戶名(geoftp)和密碼()來快速連接,會看到“快速連接”錯誤,可以忽略此錯誤。在“遠程站點”地址欄中輸入個性化工作區(qū)的路徑(如我的路徑為:/ uploads / )。然后可以通過從“本地站點”窗口拖動包含所有提交文件的文件夾并將其拖放到右側的上傳空間(“遠程站點”窗口)中來傳輸文件。
此外,可以通過設置站點管理器避免目標列表錯誤,步驟如下:
(1)選擇文件-站點管理器-常規(guī)-輸入主機(),用戶名(geoftp)和密碼()
(2)選擇文件-站點管理器-高級-選擇需要上傳數(shù)據(jù)的文件夾-數(shù)據(jù)庫給出的遠程站點
(3)選擇文件-站點管理器-傳輸設置-選擇主動-點擊連接即可
6.郵件確認
待傳輸完成后,點擊Notify GEO通知GEO審核數(shù)據(jù),GEO官方大概在5個工作日左右回復,在收到管理員郵件確認之前不要引用GEO號。
在方框輸入上傳文件路徑
選擇數(shù)據(jù)公開的時間(根據(jù)需求自行決定)
注:若老師選擇3年后公開,后續(xù)想更改時間,可以進行提交界面,通過設置修改時間,或者直接反饋GEO官網(wǎng)進行修改。
二.GEO數(shù)據(jù)上傳常見問題
1.連接失敗問題
忽略錯誤,在遠程站點處輸入GEO給出的上傳路徑,回車后將要上傳的文件夾拖曳到右側即可開始上傳。
2.FTP上傳數(shù)據(jù)報550錯誤
請求操作未被執(zhí)行,文件不可用,可以嘗試以下的方法來解決:
(1)準備要傳輸?shù)奈募灰蜷_使用,很多人經(jīng)常會忘記關閉了個別的文件,同時又將文件發(fā)給別人,這種正在使用著的文件是傳輸不過去的;
(2)文件的體積比較大,傳輸過程中耗費時間比較長,網(wǎng)絡不穩(wěn)定,容易造成傳輸文件中斷,可以嘗試將體積比較大的文件分開傳輸,或者嘗試將文件壓縮一些體積,打包傳輸;
(3)網(wǎng)絡條件比較差,網(wǎng)絡不給力,傳輸文件比較困難,可以在網(wǎng)絡較好的情況下再傳輸;
(4)電腦上某些殺毒軟件攔截文件,造成文件傳輸?shù)腻e誤,可以嘗試暫時關閉特殊的殺毒軟件。
3.Ftp服務器連接失敗
主要分為以下四種情況:
(1)連接被拒, 錯誤信息如下:
正在連接到 -> DNS= IP=218.13.164.102 PORT=21
連接失敗 (連接被拒)
原因:這是因為客戶在作Ftp上傳時 填寫錯了Ftp服務器造成這個問題。
解決:在Ftp上傳時服務器填寫。
(2)FTP用戶登入失敗 錯誤信息如下:
正在連接到 -> DNS= IP=211.155.224.184 PORT=21 已連接到 (Ftp服務器連接成功)
220 Serv-U FTP Server v6.2 for WinSock ready...
USER test
331 User name okay, need .
PASS (隱藏)
530 Not logged in.
原因:這是用戶填寫錯誤的FTP服務器、Ftp用戶名/或Ftp密碼。
解決:請您核對您的Ftp 信息(開通空間時,系統(tǒng)會把FTP信息發(fā)到你郵箱里,你可以查看一下郵件)。如果您忘記Ftp密碼??梢栽凇坝脩糁行模摂M主機管理---控制面板”里重設Ftp密碼。
(3)用戶本地上網(wǎng)問題,錯誤信息如下:
無法解析主機:
C:\>ping
Ping request could not find host .please check the name and try again.
原因:如這兩種情況同時都出現(xiàn),那是用戶本地上網(wǎng)的DNS有問題。
解決:請用其它的DNS試下。
(4)Ftp服務器解析正常,Ftp服務器連接超時,錯誤信息如下:
正在連接到 -> DNS= IP=203.171.239.16 PORT=21 連接失敗(連接超時)
原因:網(wǎng)絡方面有問題。
解決:更換網(wǎng)絡再次嘗試。
總結:目前最常見的FTP錯誤檢查主要是檢查FTP服務器、Ftp用戶名/或Ftp密碼是否正確;切換站點管理器中傳輸設置的主動被動模式;站點管理器常規(guī)中的加密選項選擇只使用普通FTP(不安全)。
以上就是本次GEO數(shù)據(jù)上傳操作指南的主要內容啦,希望可以對各位老師有所幫助。后續(xù)小編還會推出SRA數(shù)據(jù)上傳指南,敬請期待~
鍵盤操作方法
鍵盤操作方法
1、Esc:取消鍵
2、F1~F12鍵:功能鍵。在不同的軟件中,起為其定義的相應功能的作用,也可以配合其他的鍵起作用。例如在常用軟件中按一下F1是幫助功能。
3、Tab:切換鍵 。
4、Caps look:字母大小寫切換鍵 。
5、Shift: 換檔鍵 。
6、Ctrl:控制鍵,一般與其它鍵組合使用。例如復制 CTRL+C 。
7、Alt:選擇鍵,一般與其它鍵組合使用。例如要將計算機熱啟動可以同時按住Ctrl+Alt+Del完成。
8、:退格鍵。
9、Enter:回車鍵,用于執(zhí)行操作。
10、Print Screen|SysRq:打印鍵或拍照鍵
11、Scroll Lock:用于開啟中間區(qū)域的鍵
12、Pause|Break:暫停鍵
13、Home:光標移動到字的開頭
14、Insert:插入鍵
15、Delete:刪除鍵
16、End:光標移動到字的結尾
17、PageUp鍵:向上翻頁鍵。
18、鍵:向下翻頁鍵。
19、10.Num Lock:燈滅的話,鍵盤右邊的數(shù)字鍵那一塊(俗稱小鍵盤)就無效了,按一下Num lock就會亮起來,就可以用了。