關(guān)鍵詞:SCI論文;圖像查重;軟件
雜志新聞版于2020年7月21日發(fā)表一篇重磅消息:論文圖片查重軟件研發(fā)成功,在對3500篇預(yù)印版論文進(jìn)行的檢測中,找出24張涉嫌重復(fù)/造假的圖像。這對于論文造假無疑是一記重錘。
一,瘋狂的論文造假
由于存在巨大的利益,論文造假一直屢見不鮮,甚至在部分國家或地區(qū)形成了造假論文產(chǎn)業(yè)鏈。有造假、就有打假;但與龐大的造假數(shù)量相比,靠幾個志愿者打假,顯然是杯水車薪。
二,中國是重災(zāi)區(qū)之一
美國 LLC對全球撤稿數(shù)據(jù)庫的分析顯示,
1,中國SCI論文撤稿占到所有撤稿的44.0%。截止到2020年6月22日,世界范圍內(nèi)共有23,425篇SCI撤稿,其中中國有10,303篇,遠(yuǎn)遠(yuǎn)高于第二位的美國4,125篇。中國論文撤稿占44%。
(圖1. : LLC, USA)
2,剽竊仍然是中國SCI論文撤稿的首要原因。近三年中國SCI論文共有1397篇SCI論文撤稿,其中因為剽竊所致的撤稿有547篇(39%),另外錯誤所致的撤稿有330篇(24%)。
(圖2. : LLC, USA)
三,圖片查重軟件應(yīng)運(yùn)而生
上面數(shù)據(jù)中提到的占撤稿原因39%的“抄襲”,主要是指文字抄襲。因為目前的查重系統(tǒng)只能查文字,不能查圖片。而撤稿第二常見原因“錯誤”部分,則主要是圖片“錯誤”。在目前靠人工檢查的情況下,就已經(jīng)發(fā)現(xiàn)了大量偽造的圖片,可知實際情況多么嚴(yán)重。所以當(dāng)論文圖像查重軟件的研發(fā)者,美國紐約大學(xué)的機(jī)器學(xué)習(xí)研究人員 Acuna,遞交了其第一批圖片查重結(jié)果時,立即引起學(xué)術(shù)界的關(guān)注。
識別原理其基本原理是,將提取圖片放大以獲得特征性圖片數(shù)字“指紋”,從而即使圖片做了旋轉(zhuǎn)、大小調(diào)整、截取、改變對比度或顏色,該軟件仍然能夠識別出其相似度。根據(jù)Acuna研究團(tuán)隊之前的檢測結(jié)果,他們推測數(shù)據(jù)庫中1.5%論文包含有可疑的圖像,而0.6%論文包含有欺詐性圖像。
小試牛刀這款軟件從2015年開始研發(fā),歷經(jīng)5年反復(fù)測試、并經(jīng)過小范圍試用終獲成功。首次正式應(yīng)用于新冠病毒病(COVID-19)領(lǐng)域預(yù)印版論文的識別。因為這個領(lǐng)域論文的爆發(fā)程度不亞于病毒傳播,低質(zhì)量、甚至造假論文也屢見不鮮。Acuna研究團(tuán)隊從和服務(wù)器上下載了3500篇論文,總共有21,000張圖片。在4個小時內(nèi),該軟件就找到約400張可能重復(fù)的圖像。經(jīng)過人工鑒定后,Acuna團(tuán)隊認(rèn)為,其中的24張包含有重復(fù)圖片,并在7月份將之公布在其網(wǎng)站上。
優(yōu)勢和不足Acuna團(tuán)隊的檢測結(jié)果立即引起轟動。因為是通過軟件自動檢測可以查找圖片出處的軟件,可以大規(guī)模發(fā)現(xiàn)重復(fù)的圖像;另外可以發(fā)現(xiàn)人工不能識別的圖像。收到email通知后一些論文作者立即回應(yīng),承認(rèn)該軟件找到的是重復(fù)圖片,并表示將糾正錯誤。芬蘭赫爾辛基大學(xué)病毒學(xué)家 更是建議在數(shù)據(jù)庫中應(yīng)用該軟件。著名學(xué)術(shù)打假人伊麗莎白·比克( Bik)在贊許之余,也建議在正式公布軟件識別的造假圖片之前,由她做鑒定。因為該軟件識別出的“嫌疑圖片”仍然需要人工確認(rèn)。但也有一些收到通知的學(xué)者說,Acuna的軟件搞錯了,標(biāo)記出來并不匹配的圖像。美國北卡羅來納州的學(xué)者則要求Acuna刪除其網(wǎng)站公示可以查找圖片出處的軟件,因為Acuna軟件對其論文圖片做了錯誤識別。
進(jìn)一步處理方法基于上述反饋,Acuna已經(jīng)將其識別出來的“造假圖片”由網(wǎng)站公示改為私下訪問。只有從他的email通知的學(xué)者,才能憑借給予的密碼進(jìn)行訪問和回復(fù)。所以設(shè)置的“嫌疑造假圖片”處理流程也變?yōu)椋合韧ㄖ髡撸绻髡卟换貜?fù)則將公開。在初嘗戰(zhàn)果后,Acuna也計劃擴(kuò)大軟件篩查范圍。Acuna特別告誡說:“我希望作者意識到,有人正在對所有的論文圖片進(jìn)行識別。”