【摘要】基于最廣泛使用的 Word文件結構格式分析,集中關注編輯過程還原主題,立足.xml與core.xml文件內容,挖掘OOXML格式中獨特的RI值變化規則,進而完成文件來源的取證分析,并通過自主研發的軟件使得分析工作智能化工具化。電子數據取證實踐證明,所述方法準確高效?!娟P鍵詞】 Word、溯源分析、.xml、core.xml、 【中圖分類號】 引言隨著以計算機為代表的新型信息技術的發展,原有以紙張、模型等形式保存的核心技術轉化為使用電子文檔進行說明描述。雖然電子文檔具有方便管理、易于存儲等特點,但同時也存在能修改、易復制的缺陷。一旦遭遇篡改或濫用,需要綜合分析計算機操作系統環境,才可能尋找到有力的證據或線索。電子數據取證實踐也由此越來越多地遇到涉知識產權方面的鑒定需求,送檢人往往要求針對文件的來源進行判定,或是尋找源文件與目標文件間的復雜聯系。傳統的針對電子文檔是否涉及知識產權糾紛的分析,集中關注于文件內容,偏重使用內容相似性檢查技術。由于嫌疑人在通過非法手段收集到含有核心技術的電子文檔后,出于掩蓋罪行及再次使用等目的,會對其進行增、刪、改等操作或是對文件內容進行轉義編輯處理,傳統分析方法往往無法取得理想效果。
針對上述情況,課題組成員將研究重點轉移至文件格式方面怎么把word文件壓縮到最小,曾經基于微軟復合文檔結構格式(應用于 XP環境)的挖掘,嘗試恢復出了 2003演示文稿中被刪除的幻燈片信息。然而隨著 XP正式停止支持服務,以及 2010(廣泛應用于 7之后的操作系統中)的逐步普及,針對 2003文檔的操作行為挖掘研究已不具現實意義。 系列文件在2007、2010版本之后,采用了OOXML( Open XML)格式,該格式通過可配置的方式描述文件組件,并提供用戶訪問文件結構的通道,目前已成為國際文檔格式標準。因此,針對該新型文件格式的深入分析,可以挖掘出文件自身包含的更深層次信息,為電子文檔的溯源研究提供了可能。2 Word 2010文檔溯源分析2.1 Word 2010整體架構 Word是系列文件中使用最廣泛的文件類型,其整體采用ZIP集成壓縮格式。解壓后,其根目錄下會出現“_rels”、“word”、“”三個文件夾和“[].xml”文件(如圖1所示)。
其中,[].xml文件以字典形式存放該集成包中內置的內容類型;擴展名為“.rels”的文件總是存放在“_rels”文件夾中,根目錄與“word”文件夾下均含有“_rels”文件夾,其內包含的“.rels”文件用于描述文檔組件之間的關聯,以此來減輕用戶程序遍歷尋找特定內容的負擔;“word”文件夾中最重要的就是.xml文件,存儲著文檔中的文字內容;“”文件夾負責保存時間屬性、文件所有者等屬性信息。除上述說明的主要文件(夾)外,集成包中還含有用于描述字體、字號、顏色、腳注等配置信息的文件,如.xml、.xml、.xml、.xml等。
圖 Word 2010集成包整體架構
2.2 .xml文件分析.xml使用名為“body”的子元素存放文本信息。body元素中包含兩種內容組別,一種叫做“block-level”,負責描述內容的整體結構,如段或表;另一種被稱為“ ”,即為文本或圖片信息,包含于block-level內容中。.xml使用“w:p”、“w:r”、“w:t”等標識對內容進行標簽。其中,w:p用于定義一個段落;段落被分割為若干運行w:r,運行(run)是能夠擁有格式的最小基本單位;w:r元素又被分割為若干w:t元素,w:t元素不可以擁有格式,只能是文本內容(如圖2所示)。因此,可依據下述流程定位具體的文本信息:段落元素(...)->運行元素(...)->文本元素(...)。
圖2 .xml文件內容
從圖2還可以看出,.xml包含有被稱為RI( )的各種碼值,如w:rsidR、w: 、w:等。雖然,RI碼的生成算法尚未被破解,但研究發現,新建文件后輸入內容、編輯現有文字格式、在文件中鍵入新內容等操作會促使.xml更新RI碼值。鑒于每篇電子文檔在最終成稿前都不可避免的需要經歷反復多次修改,因此對于 2007、2010及其之后的Word版本,可以依據RI值挖掘曾經有過的文檔增、刪、改操作,實現文檔溯源的目的。實驗證明,如果A文檔由B文檔通過復制操作生成,只要編輯后的A文檔還存留有B文檔中的字符(任意數量),.xml文件中就會保留有維持不變的RI值(.xml中也會留存原有的RI)。由于RI碼通常由8個十六進制數組成,完全相同的概率為2的32次方分之一,即4 294 分之一。因此,A文檔如果含有與B相同的RI值,即可說明A與B同源。實驗還發現,文件.xml的末尾通常會出現名為“w: w:rsidR”的標記,同一臺計算機在一段時間內創建的文件會含有相同的“w: w:rsidR”碼值。這一規則可以用來判斷文件是否來源于同一臺計算機。若存在相同的w: w:rsidR碼,可判定是由同一計算機所創建;但若不同,卻不能由此推斷文件來至不同計算機,因為如果相隔時間過久,同一計算機上創建的w: w:rsidR碼值也會不同。
圖3 “1.docx”與“1的副本.docx”對應的.xml文件內容
圖3所示為“1.docx”與“1的副本.docx”對應的.xml文件內容,其中“1的副本.docx”由“1.docx”復制而來,并對內容做了適當修改。圖3中兩文件除擁有相同的w: w:rsidR碼值()外,w:rsidR碼值也相同()。因此可以得出結論,兩文件來源于同一計算機,并且其中一個文件是由另一文件復制而來的。2.3 core.xml文件分析依據.xml文件內容可以判斷文件是否同源,但若要進而實現“誰復制于誰”的分析,則可結合core.xml文件內容完成。core.xml位于文件夾中,其內存放著創建者、最后修改者、創建時間、修改時間等重要文件屬性(如圖4所示)??梢罁鲜鰞热葺o助判定文件的最早版本。需要指出的,core.xml文件中與時間相關的信息采用格林威治時間進行存儲,實踐中需要將其轉換為北京時間。
圖4 core.xml文件內容
3 智能溯源工具實現基于第2節所述原理,課題組使用VB.NET語言實現了 Word 2010溯源分析工具。首先將需要比對的文檔進行集成包分解處理,之后重點針對word文件夾中.xml里面的元素進行抽取,基于w: w:rsidR實現受檢文檔是否產生至同一計算機的判斷,再通過w:、w:rsidP、w:、w:rsidR、w:等碼值的循環比對,確定文檔來源是否相同?;境绦蛄鞒倘鐖D5所示。為提升溯源判斷的可信程度,本軟件工具還將core.xml文件納入考察范疇,展示其含有的創建時間、修改時間、創建者、最后修改者、修改次數等關鍵元素,幫助取證人員進行輔助分析。對于core.xml文件中的時間問題,智能工具已默認將其轉換為北京時間(+8hour)予以顯示。
圖5 智能溯源分析工具基本處理流程4 案例分析2013年11月,趙某應聘到重慶一家生產電控設備的高科技企業A公司工作,期間趙某有機會接觸到A公司的核心機密技術文件。2014年底,趙某申請離職,聲稱要回鄉創業。此后怎么把word文件壓縮到最小,趙某投身于B公司,B公司與A公司屬競爭對手關系,都在研發生產同類型的電控設備。趙某加入后,B公司生產的設備在性能上有了極大地提升,其產品在規格上也與A公司極其類似。A公司遂起訴趙某擅自將本公司核心技術泄露于B公司。取證人員從趙某筆記本電腦中提取到一份名為《汽車電控機密技術》的文檔,發現該文檔與A公司的技術文檔《電控設備核心技術》內容上極其相似。但當對趙某展開訊問時,其咬定該文檔為自己原創,并非盜取A公司成果。取證人員使用智能分析工具針對兩份文檔內嵌的RI值進行比對分析,從中碰撞出了相同的RI碼值(如圖6所示);并結合文件屬性中的時間與創建者等關鍵要素的綜合挖掘,形成證據鏈條,判定《汽車電控機密技術》確實由《電控設備核心技術》復制轉義而形成,從而認定了趙某的犯罪行為。
圖6 利用軟件工具處理知識產權案件5 結束語本文重點依托.xml中RI碼值完成word文檔同源性判斷,同時輔以core.xml呈現的時間序列先后性,提升結論的可信度。未來計劃繼續梳理挖掘RI值的生成原理與變化規則,特別是復雜編輯行為對其產生的影響,同時關聯OOXML結構中的其他配置說明文件,力爭全景再現文檔編輯過程,為電子文檔的取證分析開辟新的思路與方法。
【參考文獻】
[1]羅文華.復合文檔結構電子數據取證分析[J].信息網絡安全,2013(3):9-11.[2]劉惠萍,羅文華.從知識產權侵害案件看 演示文稿鑒定實踐[J].中國司法鑒定,2013(3):62-65.[3]羅文華.演示文稿參與編輯信息調查方法研究[J].中國刑警學院學報,2013(4):32-35.[4]Rice Frank. (2007) open xml file [OL].[2012.11.07].[5]劉洋洋,盧睿.網絡行為軌跡分析在現代偵查機制中的應用研究[J].警察技術,2014(5):46-48.【作者介紹】
羅文華(1977—),男,教授,研究方向為電子數據取證
孫道寧(1987—),女,助教,研究方向為涉計算機犯罪偵查
1.Word And File
2.