2020年7月21日,雜志新聞版發布了一篇重磅消息:論文圖片查重軟件研發成功,軟件開發人員在對3500篇預印版論文進行的檢測中,找出24張涉嫌重復/造假的圖像。
這對于論文造假無疑是一記重錘。
瘋狂的論文造假
由于存在巨大的利益,論文造假一直屢見不鮮,甚至在部分國家或地區形成了造假論文產業鏈。
有造假、就有打假;但與龐大的造假數量相比,靠幾個志愿者打假,顯然是杯水車薪。
中國是重災區之一
美國 LLC對全球撤稿數據庫的分析顯示,
1、中國SCI論文撤稿占到所有撤稿的44.0%。
截止到2020年6月22日,世界范圍內共有23,425篇SCI撤稿,其中中國有10,303篇,遠遠高于第二位的美國4,125篇。中國論文撤稿占44%。
(圖1. : LLC, USA)
2、剽竊仍然是中國SCI論文撤稿的首要原因。
近三年中國SCI論文共有1397篇SCI論文撤稿,其中因為剽竊所致的撤稿有547篇(39%),另外錯誤所致的撤稿有330篇(24%)。
(圖2. : LLC, USA)
圖片查重軟件應運而生
上面數據中提到的占撤稿原因39%的“抄襲”,主要是指文字抄襲。因為目前的查重系統只能查文字,不能查圖片。
而撤稿第二常見原因“錯誤”部分,則主要是圖片“錯誤”。在目前靠人工檢查的情況下,就已經發現了大量偽造的圖片,可知實際情況多么嚴重。
所以當論文圖像查重軟件的研發者,美國紐約大學的機器學習研究人員 Acuna,遞交了其第一批圖片查重結果時,立即引起學術界的關注。
識別原理
其基本原理是,將提取圖片放大以獲得特征性圖片數字“指紋”,從而即使圖片做了旋轉、大小調整、截取、改變對比度或顏色,該軟件仍然能夠識別出其相似度。
根據Acuna研究團隊之前的檢測結果,他們推測數據庫中1.5%論文包含有可疑的圖像,而0.6%論文包含有欺詐性圖像。
小試牛刀
這款軟件從2015年開始研發圖片相似度檢測軟件,歷經5年反復測試、并經過小范圍試用終獲成功。首次正式應用于新冠病毒病(COVID-19)領域預印版論文的識別。因為這個領域論文的爆發程度不亞于病毒傳播,低質量、甚至造假論文也屢見不鮮。
Acuna研究團隊從和服務器上下載了3500篇論文,總共有21,000張圖片。在4個小時內,該軟件就找到約400張可能重復的圖像。經過人工鑒定后,Acuna團隊認為,其中的24張包含有重復圖片,并在7月份將之公布在其網站上。
優勢和不足
Acuna團隊的檢測結果立即引起轟動。
因為是通過軟件自動檢測,可以大規模發現重復的圖像;另外可以發現人工不能識別的圖像。
收到email通知后一些論文作者立即回應,承認該軟件找到的是重復圖片圖片相似度檢測軟件,并表示將糾正錯誤。芬蘭赫爾辛基大學病毒學家 更是建議在數據庫中應用該軟件。
著名學術打假人伊麗莎白·比克( Bik)在贊許之余,也建議在正式公布軟件識別的造假圖片之前,由她做鑒定。因為該軟件識別出的“嫌疑圖片”仍然需要人工確認。
但也有一些收到通知的學者說,Acuna的軟件搞錯了,標記出來并不匹配的圖像。美國北卡羅來納州的學者則要求Acuna刪除其網站公示,因為Acuna軟件對其論文圖片做了錯誤識別。
進一步處理方法
基于上述反饋,Acuna已經將其識別出來的“造假圖片”由網站公示改為私下訪問。只有從他的email通知的學者,才能憑借給予的密碼進行訪問和回復。
所以設置的“嫌疑造假圖片”處理流程也變為:先通知作者,如果作者不回復則將公開。
在初嘗戰果后,Acuna也計劃擴大軟件篩查范圍。Acuna特別告誡說:“我希望作者意識到,有人正在對所有的論文圖片進行識別。”
原文鏈接: