欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    機器之心編譯

    機器之心編輯部

    該研究中,來自北航和微軟亞研的研究者聯(lián)合創(chuàng)建了一個基于圖像的表格檢測和識別新型數(shù)據(jù)集 ,該數(shù)據(jù)集是通過對網(wǎng)上的 Word 和 Latex 文檔進行弱監(jiān)督而建立的。該數(shù)據(jù)集包含 417K 個高質(zhì)量標注表格,通過此數(shù)據(jù)集作者利用深度神經(jīng)網(wǎng)絡 SOTA 模型建立了數(shù)個強大的基線,從而助力更多研究將深度學習方法應用到表格檢測與識別任務中。目前 已開源。

    開源地址:

    表格通常以結構化的方式展示基本信息,因而表格檢測和識別是諸多文件分析應用中的一項重要任務。如圖 1 所示,由于表格的布局和格式不同,其檢測和識別是個難題。常規(guī)表格分析技術通常以文件的布局分析為基礎。但這些技術中的大多數(shù)都無法泛化,究其原因,它們依賴于手工構建的特征,而后者對布局變化不具備穩(wěn)健性。最近,計算機視覺領域深度學習的快速發(fā)展極大地推動了數(shù)據(jù)驅(qū)動且基于圖像的表格分析方法?;趫D像的表格分析的優(yōu)勢體現(xiàn)在其對文件類型的穩(wěn)健性,并對文件是頁面掃描圖像還是原始數(shù)字文件格式不做任何假設。因此,大型端到端深度學習模型能夠取得更好的效果。

    圖 1:不同布局和格式的表格電子文件。

    現(xiàn)有的基于深度學習的表格分析模型通常對使用數(shù)千個人工標注訓練實例獲得的預訓練目標檢測模型進行微調(diào),但它依然難以在現(xiàn)實世界應用程序中擴展。例如,我們發(fā)現(xiàn),在類似圖 1a、1b 和 1c 中的數(shù)據(jù)上訓練出的模型在圖 1d 中表現(xiàn)不佳,其原因在于表格布局和顏色大不相同。因此,擴大訓練數(shù)據(jù)是使用深度學習構建開放域表格分析模型的唯一途徑。深度學習模型比傳統(tǒng)模型復雜得多,現(xiàn)在的很多標準深度學習模型擁有數(shù)億自由參數(shù),且需要更多標注訓練數(shù)據(jù)。在實踐中,人工標注大型訓練數(shù)據(jù)成本高昂且缺乏靈活性,這是實際部署深度學習模型的關鍵瓶頸。眾所周知, 和 COCO 是兩個流行的圖像分類和目標檢測數(shù)據(jù)集,兩者均以眾包的方式構建,但花費高昂且耗日持久,需要數(shù)月甚至數(shù)年時間來構建大型基準數(shù)據(jù)集。幸運的是,網(wǎng)絡上存在大量數(shù)字文件,如 Word 和 Latex 源文件。對這些在線文件進行一些表格標注方面的弱監(jiān)督則是有益的。

    c#反序列xml指定格式_序列格式與數(shù)據(jù)庫的區(qū)別_臺球鋼庫和木庫的區(qū)別

    為解決對標準開放域表格基準數(shù)據(jù)集的需求序列格式與數(shù)據(jù)庫的區(qū)別,該研究提出一種新穎的弱監(jiān)督方法,可自動創(chuàng)建 數(shù)據(jù)集, 要比現(xiàn)有的表格分析人工標注數(shù)據(jù)集大幾個量級。與傳統(tǒng)弱監(jiān)督訓練集不同,該研究提出的弱監(jiān)督方法可以同時獲得大規(guī)模和高質(zhì)量的訓練數(shù)據(jù)。現(xiàn)在,網(wǎng)絡上有大量電子文檔,如 Word(.docx)和 Latex(.tex)文件。這些在線文檔的源代碼中包含表格的 mark-up tag。直觀地講,借助每個文檔中的標記語言,研究者可以通過添加邊框來操控這些源代碼。就 Word 文檔而言,內(nèi)部 XML 代碼可以在標注每一表格邊界的地方進行修改。就 Latex 文檔而言,tex 代碼同樣可以在標注表格邊界的地方進行修改。這種方式可以為多個不同域創(chuàng)建高質(zhì)量的標注數(shù)據(jù),如商業(yè)文件、官方名錄和科研論文等,這些數(shù)據(jù)對大規(guī)模表格分析任務大有裨益。

    數(shù)據(jù)集共包含 417,234 個高質(zhì)量標注表格以及各域中對應的的原始文檔。為驗證 的效果,研究者使用當前最優(yōu)的端到端深度神經(jīng)網(wǎng)絡模型構建了多個強大的基線。表格檢測模型基于不同設置下的 R-CNN 架構(Ren 等人,2015 年),表結構識別模型基于圖像-文本(image-to-text)的編碼器-解碼器框架。實驗結果表明,布局和格式變化對表格分析任務的準確率影響很大。此外,在某一特定域訓練的模型在另一域中表現(xiàn)不佳。這表明,在 數(shù)據(jù)集上建模和學習還有很大的進步空間。

    數(shù)據(jù)收集

    大致上,研究者構建 數(shù)據(jù)集時使用了兩種不同的文件類型:Word 文檔和 Latex 文檔。這兩種文件類型的源代碼中都包含 mark-up tag。這部分分三步詳細介紹了數(shù)據(jù)收集過程:文檔獲取、創(chuàng)建表格檢測數(shù)據(jù)集、創(chuàng)建表結構識別數(shù)據(jù)集。

    文檔獲取

    研究者從網(wǎng)上抓取 Word 文檔。這些文檔都是 .docx 格式,因此研究者可以通過編輯內(nèi)部 XML 代碼來添加邊框。研究者并未過濾文檔語言,因此這些文檔包含英語、中文、日語、阿拉伯語和其他語言。這使得該數(shù)據(jù)集在實際應用中更多樣化、更穩(wěn)健。

    Latex 文檔與 Word 文檔不同,因為前者需要其他資源來編譯成 PDF 文檔。因此,研究者不能從網(wǎng)上抓取 tex 文檔,而是利用最大預印本數(shù)據(jù)庫 中的文檔以及相應的源代碼。借助 arXiv bulk data ,研究者下載了 2014 年至 2018 年論文的 Latex 源代碼。

    表格檢測

    臺球鋼庫和木庫的區(qū)別_c#反序列xml指定格式_序列格式與數(shù)據(jù)庫的區(qū)別

    直觀地講,借助每個文檔中的標記語言,研究者可以通過添加邊框來操控源代碼。處理流程如圖 2 所示。就 Word 文檔而言,研究者通過編輯每個文檔中的內(nèi)部 XML 代碼來添加表格邊框。每個 .docx 格式文件有一個壓縮包,解壓后的文件夾中有一個 .xml 文件。在 XML 文件中,該代碼片段介于標記 和 之間,通常表示 Word 文件中的表格,如圖 3 所示。研究者修改 XML 文件中的代碼片段,使表格邊框可更改為與文檔其他部分不同的顏色。如圖 3 所示,研究者在 PDF 文檔中添加了一個綠色邊框,該表格得到完美識別。最后,研究者從 Word 文檔中獲得了 PDF 頁面。

    圖 2:數(shù)據(jù)處理流程。

    圖 3:通過 XML 代碼中的 和 標記來識別和標注表格。

    表結構識別

    表結構識別旨在確定表格的行列布局結構,尤其適用于掃描圖像等非數(shù)字化文檔格式的表格?,F(xiàn)有表結構識別模型通常用于識別布局信息和單元格的文本內(nèi)容,而文本內(nèi)容識別并非這一工作的重心。所以,研究者將任務定義為:給定一個圖像格式的表格,生成表示表格行列布局和單元格類型的 HTML 標簽序列。通過這種方式,研究者可以從 Word 和 Latex 文檔的源代碼中自動構建表表結構識別數(shù)據(jù)集。就 Word 文檔而言,研究者只需將原始 XML 信息從文檔格式轉(zhuǎn)換成 HTML 標簽序列即可。而對于 Latex 文檔,研究者首先使用 從 Latex 中生成 XML序列格式與數(shù)據(jù)庫的區(qū)別,然后將其轉(zhuǎn)換為 HTML 格式。如圖 4 中的簡單示例,研究者使用 表示含有文本的單元格, 表示沒有文本的單元格。在過濾噪聲后,研究者基于 Word 和 Latex 文檔創(chuàng)建了 145,463 個訓練實例。

    c#反序列xml指定格式_臺球鋼庫和木庫的區(qū)別_序列格式與數(shù)據(jù)庫的區(qū)別

    圖 4:表格轉(zhuǎn) HTML 示例,其中 表示含有文本的單元格, 表示沒有文本的單元格。

    基線

    表格檢測

    該研究使用 R-CNN 作為表格檢測基線模型,其架構如下圖所示:

    圖 5:用于表格檢測的 R-CNN 模型。

    表結構識別

    該研究使用圖像-文本模型作為表結構識別的基線模型,其整體架構如下圖所示:

    臺球鋼庫和木庫的區(qū)別_c#反序列xml指定格式_序列格式與數(shù)據(jù)庫的區(qū)別

    圖 6:用于表結構識別的圖像-文本模型。

    實驗

    表 1: 數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)。

    表 2:使用 -{101,152} 作為骨干網(wǎng)絡對 Word 和 Latex 數(shù)據(jù)集的評估結果。

    c#反序列xml指定格式_序列格式與數(shù)據(jù)庫的區(qū)別_臺球鋼庫和木庫的區(qū)別

    表 3:圖像-文本模型在 Word 和 Latex 數(shù)據(jù)集上的評估結果(BLEU)。

    表 4:生成 HTML 標注序列和真值序列之間的精確匹配(exact match)數(shù)量。

    圖 7:使用 a)-、b)un- 和 c)mis- 進行表格檢測的示例。

    論文:: Table for Image-based Table and

    論文鏈接:

網(wǎng)站首頁   |    關于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有