国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

EEPW首頁(yè) > 博客 > TSRFormer:復(fù)雜場(chǎng)景的表格結(jié)構(gòu)識(shí)別新利器

TSRFormer:復(fù)雜場(chǎng)景的表格結(jié)構(gòu)識(shí)別新利器

發(fā)布人:MSRAsia 時(shí)間:2022-11-21 來(lái)源:工程師 發(fā)布文章
編者按:近年來(lái),各大企業(yè)和組織機(jī)構(gòu)都在經(jīng)歷數(shù)字化轉(zhuǎn)型。將文檔轉(zhuǎn)換成計(jì)算機(jī)所能識(shí)別的樣態(tài),是數(shù)字化轉(zhuǎn)型的關(guān)鍵步驟,如何識(shí)別出圖片中表格具體的結(jié)構(gòu)與內(nèi)容,并直接提取其中的數(shù)據(jù)和信息是學(xué)術(shù)界和工業(yè)界共同矚目的焦點(diǎn)。然而,目前的表格識(shí)別算法多用于識(shí)別橫平豎直的表格,對(duì)于全無(wú)邊界和實(shí)線的表格、行列之間存在大片空白區(qū)域的表格等日常生活中常見的表格還沒(méi)有較好的解決方案,對(duì)于拍攝角度傾斜而表格邊框彎曲等情況更是束手無(wú)策。今天我們將為大家介紹微軟亞洲研究院在表格結(jié)構(gòu)識(shí)別方向的最新進(jìn)展,研究員們提出了一種新的表格結(jié)構(gòu)識(shí)別算法 TSRFormer,能夠較好地識(shí)別復(fù)雜場(chǎng)景中不同類型的表格。


如今,各行各業(yè)正在向數(shù)字化轉(zhuǎn)型,海量的文檔型數(shù)據(jù)也源源不斷地生成。用人工處理這些蘊(yùn)含著豐富信息的文檔,存在如耗時(shí)長(zhǎng)、成本高、易出錯(cuò)等缺陷,在實(shí)際應(yīng)用中難以高效執(zhí)行。因此,社會(huì)對(duì)于自動(dòng)化文檔處理技術(shù)的需求日益增加,智能文檔處理(IDP)成為了近幾年的熱點(diǎn)。與此同時(shí),市場(chǎng)上也涌現(xiàn)出了許多相關(guān)產(chǎn)品,例如微軟就提供了全方位的 IDP 服務(wù)及解決方案(https://adoption.microsoft.com/intelligent-document-processing/)。如圖1所示,智能文檔處理通過(guò)光學(xué)字符識(shí)別(OCR)、文檔圖像分析、計(jì)算機(jī)視覺,以及自然語(yǔ)言處理等技術(shù),將復(fù)雜的非結(jié)構(gòu)化文檔數(shù)據(jù)轉(zhuǎn)變?yōu)槟鼙挥?jì)算機(jī)直接理解和使用的結(jié)構(gòu)化數(shù)據(jù),從而幫助企業(yè)或個(gè)人更加高效地獲取文檔中的有用信息。


圖片

圖1:智能文檔處理(IDP)的流程示意圖


在各類文檔中,表格作為一種高效的信息表達(dá)形式,通常被人們用來(lái)呈現(xiàn)結(jié)構(gòu)化的數(shù)據(jù),例如公司財(cái)報(bào)、****、****流水、實(shí)驗(yàn)數(shù)據(jù)、醫(yī)院檢驗(yàn)報(bào)告等等。如何抽取及理解表格的技術(shù)一直都是 IDP 中的重要組成部分。


表格抽取技術(shù)解決的主要問(wèn)題是如何自動(dòng)地將圖像中的表格數(shù)字化,其包含兩個(gè)子任務(wù):表格檢測(cè)表格結(jié)構(gòu)識(shí)別。其中,表格結(jié)構(gòu)識(shí)別旨在從表格的圖像中還原表格的結(jié)構(gòu)信息,包括每個(gè)單元格的坐標(biāo)位置以及每個(gè)單元格所屬的行列信息。如圖2所示,在實(shí)際場(chǎng)景中,表格結(jié)構(gòu)識(shí)別是一個(gè)極具挑戰(zhàn)性的問(wèn)題。其挑戰(zhàn)的難度主要在于表格的結(jié)構(gòu)與內(nèi)容的復(fù)雜多樣性,例如存在完全無(wú)邊界和實(shí)線的表格、包含許多空白單元格或者跨行跨列單元格的表格、行列之間存在大片空白區(qū)域的表格、嵌套的表格、密集的大表格、單元格包含多行文字內(nèi)容的表格等等。不僅如此,在相機(jī)拍攝的場(chǎng)景中,有些表格的邊框可能因拍攝角度而傾斜或彎曲,這都大大增加了表格結(jié)構(gòu)識(shí)別的難度。


圖片圖片圖片圖片

圖2:表格圖像的多樣性與復(fù)雜性(左右滑動(dòng)查看更多)


近年來(lái),表格結(jié)構(gòu)識(shí)別領(lǐng)域受到了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注,其中涌現(xiàn)出了大量研究成果。但這些研究成果的視角大多僅限于簡(jiǎn)單的應(yīng)用場(chǎng)景,例如 PDF 或掃描文檔中橫平豎直的表格或分割線均為實(shí)線的表格,而對(duì)于圖2中這些在實(shí)際場(chǎng)景中經(jīng)常出現(xiàn)的情況,尤其是傾斜、彎曲且沒(méi)有實(shí)線的表格關(guān)注度較低。因此,現(xiàn)有的算法距離完全解決實(shí)際場(chǎng)景中的表格識(shí)別問(wèn)題還存在很大差距。為了讓表格識(shí)別技術(shù)適用于更廣泛的應(yīng)用場(chǎng)景,微軟亞洲研究院的研究員們提出了一種新的表格結(jié)構(gòu)識(shí)別算法 TSRFormer[1],該算法能夠較好地識(shí)別復(fù)雜場(chǎng)景中不同類型的表格。


圖片

TSRFormer: 提供表格結(jié)構(gòu)識(shí)別新思路



現(xiàn)有的表格結(jié)構(gòu)識(shí)別算法大致分為三種范式:編碼-解碼范式、自底向上范式和拆分-合并范式。編碼-解碼范式下的模型在輸入表格圖像后可以直接預(yù)測(cè)表示表格結(jié)構(gòu)的編碼序列(如 HTML、LaTeX 等)。該范式即使在識(shí)別較為容易的橫平豎直表格的任務(wù)中,仍然需要遠(yuǎn)超于其他范式的訓(xùn)練數(shù)據(jù)才能產(chǎn)出較好的效果。若要進(jìn)一步支持傾斜或彎曲的表格,則還需額外收集大量的數(shù)據(jù),因此研發(fā)成本較高。此外,目前基于該范式的方法在處理單元格較為密集的大表格時(shí),精度相對(duì)較低。


自底向上范式一般需要依賴額外的模塊預(yù)先檢測(cè)文本或單元格作為基礎(chǔ)單元,再預(yù)測(cè)這些基礎(chǔ)單元是否屬于同一行、列或單元格從而定位表格結(jié)構(gòu)。所以該范式難以處理包含大量空白單元格或空行空列的表格。


不同于以上兩種范式,微軟亞洲研究院的研究員們發(fā)現(xiàn)基于拆分-合并范式的方法具有更強(qiáng)的可擴(kuò)展性,在復(fù)雜場(chǎng)景中只需要較少的訓(xùn)練數(shù)據(jù)就能達(dá)到很高的精度,而且可以魯棒地處理包含空白單元格以及空行空列的表格。因此,基于該范式研究員們提出了 TSRFormer。如圖3所示,對(duì)于輸入的表格圖像,TSRFormer 先由拆分模塊預(yù)測(cè)出所有行、列的表格分割線,求交點(diǎn)后,生成 N x M 個(gè)單元格,再由合并模塊預(yù)測(cè)相鄰單元格是否需要合并從而恢復(fù)出跨多行、多列的單元格。


圖片

圖3:TSRFormer 的整體結(jié)構(gòu)圖


在以往基于拆分-合并范式的方法中,預(yù)測(cè)拆分模塊的表格線一般通過(guò)圖像分割模型結(jié)合從分割圖中提取表格分割線的后處理模塊完成(如[2][3]等),而基于規(guī)則設(shè)計(jì)的后處理模塊難以處理低質(zhì)量的分割圖,這嚴(yán)重降低了模型針對(duì)諸如傾斜、彎曲的表格識(shí)別的精度以及泛化能力。不同于既有設(shè)計(jì),TSRFormer 提出了一種不需要后處理模塊的全新思路:通過(guò)直接回歸的方式來(lái)預(yù)測(cè)分割線。具體來(lái)說(shuō),該方法采用每條分割線上的若干采樣點(diǎn)來(lái)表示該分割線,并讓模型直接回歸每條分割線上采樣點(diǎn)的坐標(biāo),從而得到分割線的位置信息。


為了讓 TSRFormer 能夠精確且高效地預(yù)測(cè)表格分割線,研究員們還提出了一套新的基于兩階段 DETR[4] 的分割線回歸算法:SepRETR。如圖4所示,在第一階段中,SepRETR 先用參考點(diǎn)預(yù)測(cè)模塊,為每一條表格分割線預(yù)測(cè)出一個(gè)參考點(diǎn)(reference point);在第二階段,由這些參考點(diǎn)的視覺以及空間信息組成的特征向量集合作為查詢特征(query)輸入進(jìn)一個(gè)****(Transformer decoder)來(lái)回歸對(duì)應(yīng)的完整分割線。


圖片

圖4:基于 SepRETR 的表格分割線預(yù)測(cè)模型(此處以行分割線為例)


在此基礎(chǔ)上,研究員們進(jìn)一步提出了兩個(gè)改進(jìn)算法來(lái)提升模型性能:(1)提出了基于先驗(yàn)增強(qiáng)的匹配策略來(lái)解決原始 DETR[5] 訓(xùn)練收斂慢的問(wèn)題;(2)僅采樣少量像素的特征作為****交叉注意力(cross attention)模塊的輸入,該方案可以使模型事半功倍,利用較少的計(jì)算量即可達(dá)到高定位精度。


圖片

實(shí)驗(yàn)結(jié)果及可視化效果



目前,學(xué)術(shù)界的絕大部分公開數(shù)據(jù)集都只包含 PDF 或者掃描文檔圖像中完全橫平豎直的表格(如 SciTSR[6]、PubTabNet[7] 等)。與實(shí)際應(yīng)用場(chǎng)景相比,這類數(shù)據(jù)集較為簡(jiǎn)單,不能涵蓋日常生活中的所有表格類型。近一年,復(fù)雜場(chǎng)景中的表格結(jié)構(gòu)識(shí)別問(wèn)題逐漸受到關(guān)注,例如去年新發(fā)布的 WTW 數(shù)據(jù)集[8]就開始考慮實(shí)際自然場(chǎng)景中的表格。在該數(shù)據(jù)集中,由于相機(jī)拍攝引起的干擾,一些表格會(huì)出現(xiàn)傾斜或彎曲,這大大增加了表格結(jié)構(gòu)識(shí)別問(wèn)題的難度。但 WTW 數(shù)據(jù)集只考慮了分割線均為實(shí)線的表格,而沒(méi)有包含無(wú)實(shí)線的表格。為了能夠更全面地測(cè)試模型在各類場(chǎng)景下的性能,研究員們收集了一個(gè)更加復(fù)雜的數(shù)據(jù)集,該數(shù)據(jù)集包含了各式各樣復(fù)雜場(chǎng)景的樣本,例如結(jié)構(gòu)復(fù)雜、包含大量空單元格或長(zhǎng)跨行跨列單元格的無(wú)實(shí)線表格,以及傾斜甚至彎曲的表格等等。


研究員們首先在三個(gè)較大規(guī)模的公開數(shù)據(jù)集 SciTSR、PubTabNet 以及 WTW 上驗(yàn)證了 TSRFormer 的性能。從表1、表2以及表3的結(jié)果可以看出,無(wú)論是在橫平豎直的簡(jiǎn)單場(chǎng)景(SciTSR、PubTabNet)還是在分割線均為實(shí)線的自然場(chǎng)景(WTW)表格識(shí)別任務(wù)上,TSRFormer 均比現(xiàn)有的方法表現(xiàn)得更加優(yōu)秀。


圖片

表1:TSRFormer 與現(xiàn)有方法在 SciTSR 上的性能對(duì)比


圖片

表2:TSRFormer 與現(xiàn)有方法在 PubTabNet 上的性能對(duì)比(其中 TEDS[7] 指標(biāo)同時(shí)考慮表格結(jié)構(gòu)識(shí)別和表格內(nèi)容 OCR 識(shí)別的精度,而 TEDS-Struct[10] 僅評(píng)測(cè)表格結(jié)構(gòu)識(shí)別,因此后者更適用于公平比較表格結(jié)構(gòu)識(shí)別模型的精度)


圖片

表3:TSRFormer 與現(xiàn)有方法在 WTW 上的性能對(duì)比


為了進(jìn)一步驗(yàn)證 TSRFormer 的有效性,研究員們?cè)诟咛魬?zhàn)性的內(nèi)部數(shù)據(jù)集上開展了實(shí)驗(yàn),并將 TSRFormer 與另外兩個(gè)基于拆分-合并范式的代表算法——SPLERGE[2] 和 RobusTabNet[3],進(jìn)行了對(duì)比。為了使對(duì)比更加公平,在實(shí)現(xiàn)這三個(gè)方法的時(shí)候僅有表格分割線預(yù)測(cè)的部分不同,其余部分模型結(jié)構(gòu)均保持一致。從表4可以看出,由于 SPLERGE 假設(shè)表格是橫平豎直的,其在同樣是橫平豎直場(chǎng)景的數(shù)據(jù)集 SciTSR 和 PubTabNet 上都能取得接近 SOTA 的結(jié)果,但在包含傾斜甚至彎曲的內(nèi)部數(shù)據(jù)集上則大幅度落后于 TSRFormer,F(xiàn)1-score 相差了11.4%。圖5的可視化效果展示了 SPLERGE 與 TSRFormer 在復(fù)雜場(chǎng)景中的明顯差距。


圖片

表4:TSRFormer 與 SPLERGE 在多個(gè)數(shù)據(jù)集上的性能對(duì)比


圖片

圖5:TSRFormer()與 SPLERGE(藍(lán))的可視化效果對(duì)比


在表5的消融實(shí)驗(yàn)中,研究員們將基于直接回歸的 TSRFormer 與目前基于圖像分割的最優(yōu)方案 RobusTabNet 進(jìn)行了對(duì)比。TSRFormer 與 RobusTabNet 均能處理傾斜或彎曲的表格。根據(jù)表5的實(shí)驗(yàn)結(jié)果,在更具挑戰(zhàn)性的內(nèi)部數(shù)據(jù)集中,相比 RobusTabNet,TSRFormer 的 F1-score 高出2.9%。關(guān)于消融實(shí)驗(yàn)的其他細(xì)節(jié),可見論文[1]。


圖片

表5:TSRFormer 與 RobusTabNet 在內(nèi)部數(shù)據(jù)集上的對(duì)比,以及各模塊的消融實(shí)驗(yàn)


圖6中的可視化結(jié)果展示了基于直接回歸方法的優(yōu)勢(shì)。對(duì)于圖6這種單元格密集、彎曲且含有大面積空白區(qū)域的困難樣本,基于圖像分割的結(jié)果并不魯棒,這使得后續(xù)的后處理模塊難以提取出正確的分割線。而與之相反,基于直接回歸思想的 TSRFormer 并不需要任何后處理模塊,對(duì)表格中的數(shù)據(jù)和內(nèi)容識(shí)別得更為精確。


圖片原始表格圖片RobusTabNet 的可視化結(jié)果圖片TSRFormer 的可視化結(jié)果

圖6:TSRFormer 與 RobusTabNet 的可視化結(jié)果對(duì)比(左右滑動(dòng)查看更多)


最后,圖7展示了 TSRFormer 在多個(gè)場(chǎng)景表格圖像上的可視化結(jié)果,可以看到該方法對(duì)于大部分復(fù)雜場(chǎng)景表格的識(shí)別呈現(xiàn)高魯棒性。


圖片圖片

圖7:TSRFormer 在各個(gè)數(shù)據(jù)集上的可視化結(jié)果(左右滑動(dòng)查看更多。(a-b)來(lái)自 SciTSR,(c-d)來(lái)自 PubTabNet,(e-h)來(lái)自 WTW,以及(i-l)來(lái)自內(nèi)部數(shù)據(jù)集


圖片

未來(lái)的挑戰(zhàn)



雖然 TSRFormer 在識(shí)別大部分場(chǎng)景的表格圖像中取得了可喜成果,但要完全解決所有場(chǎng)景的表格結(jié)構(gòu)識(shí)別問(wèn)題道阻且長(zhǎng)。主要問(wèn)題在于,目前的算法只考慮了視覺圖像單一模態(tài)的信息,而對(duì)于內(nèi)容極為復(fù)雜的表格,例如單元格包含多行文字內(nèi)容或存在極長(zhǎng)且無(wú)實(shí)線的跨行跨列單元格,不僅需要利用圖像信息,還需要充分理解圖中文字的語(yǔ)義后,才能正確地識(shí)別表格結(jié)構(gòu)。此外,現(xiàn)有的方法仍然無(wú)法解析多層級(jí)的嵌套表格。微軟亞洲研究院的研究員們將不斷推進(jìn)表格結(jié)構(gòu)識(shí)別的性能,也歡迎同行共同交流、探索該領(lǐng)域更好的技術(shù)!



參考文獻(xiàn):


[1] Weihong Lin, Zheng Sun, Chixiang Ma, Mingze Li, Jiawei Wang, Lei Sun, Qiang Huo. TSRFormer: Table structure recognition with Transformers. In ACM Multimedia, 2022.

[2] Chris Tensmeyer, Vlad I. Morariu, Brian Price, Scott Cohen, Tony Martinez. Deep splitting and merging for table structure decomposition. In ICDAR, 2019.

[3] Chixiang Ma, Weihong Lin, Lei Sun, Qiang Huo. Robust table detection and structure recognition from heterogeneous document images. Pattern Recognition, 2023.

[4] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai. Deformable DETR: Deformable Transformers for end-to-end object detection. In ICLR, 2021.

[5] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko. End-to-end object detection with Transformers. In ECCV, 2020.

[6] Zewen Chi, Heyan Huang, Heng-Da Xu, Houjin Yu, Wanxuan Yin, XianLing Mao. Complicated table structure recognition. arXiv:1908.04729, 2019.

[7] Xu Zhong, Elaheh ShafieiBavani, Antonio Jimeno Yepes. Image-based table recognition: Data, model, and evaluation. In ECCV, 2020.

[8] Rujiao Long, Wen Wang, Nan Xue, Feiyu Gao, Zhibo Yang, Yongpan Wang, Gui-Song Xia. Parsing table structures in the wild. In ICCV, 2021.

[9] Sachin Raja, Ajoy Mondal, CV Jawahar. Table structure recognition using top-down and bottom-up cues. In ECCV, 2020.

[10] Liang Qiao, Zaisheng Li, Zhanzhan Cheng, Peng Zhang, Shiliang Pu, Yi Niu, Wenqi Ren, Wenming Tan, Fei Wu. LGPMA: Complicated table structure recognition with local and global pyramid mask alignment. In ICDAR, 2021.

[11] Hao Liu, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji. Show, read and reason: Table structure recognition with flexible context aggregator. In ACM Multimedia, 2021.

[12] Xinyi Zheng, Douglas Burdick, Lucian Popa, Xu Zhong, Nancy Xin Ru Wang. Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context. In WACV, 2021.


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉