TSRFormer：復(fù)雜場(chǎng)景的表格結(jié)構(gòu)識(shí)別新利器

發(fā)布人：MSRAsia 時(shí)間：2022-11-21 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：近年來(lái)，各大企業(yè)和組織機(jī)構(gòu)都在經(jīng)歷數(shù)字化轉(zhuǎn)型。將文檔轉(zhuǎn)換成計(jì)算機(jī)所能識(shí)別的樣態(tài)，是數(shù)字化轉(zhuǎn)型的關(guān)鍵步驟，如何識(shí)別出圖片中表格具體的結(jié)構(gòu)與內(nèi)容，并直接提取其中的數(shù)據(jù)和信息是學(xué)術(shù)界和工業(yè)界共同矚目的焦點(diǎn)。然而，目前的表格識(shí)別算法多用于識(shí)別橫平豎直的表格，對(duì)于全無(wú)邊界和實(shí)線的表格、行列之間存在大片空白區(qū)域的表格等日常生活中常見的表格還沒(méi)有較好的解決方案，對(duì)于拍攝角度傾斜而表格邊框彎曲等情況更是束手無(wú)策。今天我們將為大家介紹微軟亞洲研究院在表格結(jié)構(gòu)識(shí)別方向的最新進(jìn)展，研究員們提出了一種新的表格結(jié)構(gòu)識(shí)別算法 TSRFormer，能夠較好地識(shí)別復(fù)雜場(chǎng)景中不同類型的表格。

如今，各行各業(yè)正在向數(shù)字化轉(zhuǎn)型，海量的文檔型數(shù)據(jù)也源源不斷地生成。用人工處理這些蘊(yùn)含著豐富信息的文檔，存在如耗時(shí)長(zhǎng)、成本高、易出錯(cuò)等缺陷，在實(shí)際應(yīng)用中難以高效執(zhí)行。因此，社會(huì)對(duì)于自動(dòng)化文檔處理技術(shù)的需求日益增加，智能文檔處理（IDP）成為了近幾年的熱點(diǎn)。與此同時(shí)，市場(chǎng)上也涌現(xiàn)出了許多相關(guān)產(chǎn)品，例如微軟就提供了全方位的 IDP 服務(wù)及解決方案（https://adoption.microsoft.com/intelligent-document-processing/）。如圖1所示，智能文檔處理通過(guò)光學(xué)字符識(shí)別（OCR）、文檔圖像分析、計(jì)算機(jī)視覺，以及自然語(yǔ)言處理等技術(shù)，將復(fù)雜的非結(jié)構(gòu)化文檔數(shù)據(jù)轉(zhuǎn)變?yōu)槟鼙挥?jì)算機(jī)直接理解和使用的結(jié)構(gòu)化數(shù)據(jù)，從而幫助企業(yè)或個(gè)人更加高效地獲取文檔中的有用信息。

圖1：智能文檔處理（IDP）的流程示意圖

在各類文檔中，表格作為一種高效的信息表達(dá)形式，通常被人們用來(lái)呈現(xiàn)結(jié)構(gòu)化的數(shù)據(jù)，例如公司財(cái)報(bào)、****、****流水、實(shí)驗(yàn)數(shù)據(jù)、醫(yī)院檢驗(yàn)報(bào)告等等。如何抽取及理解表格的技術(shù)一直都是 IDP 中的重要組成部分。

表格抽取技術(shù)解決的主要問(wèn)題是如何自動(dòng)地將圖像中的表格數(shù)字化，其包含兩個(gè)子任務(wù)：表格檢測(cè)和表格結(jié)構(gòu)識(shí)別。其中，表格結(jié)構(gòu)識(shí)別旨在從表格的圖像中還原表格的結(jié)構(gòu)信息，包括每個(gè)單元格的坐標(biāo)位置以及每個(gè)單元格所屬的行列信息。如圖2所示，在實(shí)際場(chǎng)景中，表格結(jié)構(gòu)識(shí)別是一個(gè)極具挑戰(zhàn)性的問(wèn)題。其挑戰(zhàn)的難度主要在于表格的結(jié)構(gòu)與內(nèi)容的復(fù)雜多樣性，例如存在完全無(wú)邊界和實(shí)線的表格、包含許多空白單元格或者跨行跨列單元格的表格、行列之間存在大片空白區(qū)域的表格、嵌套的表格、密集的大表格、單元格包含多行文字內(nèi)容的表格等等。不僅如此，在相機(jī)拍攝的場(chǎng)景中，有些表格的邊框可能因拍攝角度而傾斜或彎曲，這都大大增加了表格結(jié)構(gòu)識(shí)別的難度。

圖2：表格圖像的多樣性與復(fù)雜性（左右滑動(dòng)查看更多）

近年來(lái)，表格結(jié)構(gòu)識(shí)別領(lǐng)域受到了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注，其中涌現(xiàn)出了大量研究成果。但這些研究成果的視角大多僅限于簡(jiǎn)單的應(yīng)用場(chǎng)景，例如 PDF 或掃描文檔中橫平豎直的表格或分割線均為實(shí)線的表格，而對(duì)于圖2中這些在實(shí)際場(chǎng)景中經(jīng)常出現(xiàn)的情況，尤其是傾斜、彎曲且沒(méi)有實(shí)線的表格關(guān)注度較低。因此，現(xiàn)有的算法距離完全解決實(shí)際場(chǎng)景中的表格識(shí)別問(wèn)題還存在很大差距。為了讓表格識(shí)別技術(shù)適用于更廣泛的應(yīng)用場(chǎng)景，微軟亞洲研究院的研究員們提出了一種新的表格結(jié)構(gòu)識(shí)別算法 TSRFormer[1]，該算法能夠較好地識(shí)別復(fù)雜場(chǎng)景中不同類型的表格。

TSRFormer: 提供表格結(jié)構(gòu)識(shí)別新思路

現(xiàn)有的表格結(jié)構(gòu)識(shí)別算法大致分為三種范式：編碼-解碼范式、自底向上范式和拆分-合并范式。編碼-解碼范式下的模型在輸入表格圖像后可以直接預(yù)測(cè)表示表格結(jié)構(gòu)的編碼序列（如 HTML、LaTeX 等）。該范式即使在識(shí)別較為容易的橫平豎直表格的任務(wù)中，仍然需要遠(yuǎn)超于其他范式的訓(xùn)練數(shù)據(jù)才能產(chǎn)出較好的效果。若要進(jìn)一步支持傾斜或彎曲的表格，則還需額外收集大量的數(shù)據(jù)，因此研發(fā)成本較高。此外，目前基于該范式的方法在處理單元格較為密集的大表格時(shí)，精度相對(duì)較低。

自底向上范式一般需要依賴額外的模塊預(yù)先檢測(cè)文本或單元格作為基礎(chǔ)單元，再預(yù)測(cè)這些基礎(chǔ)單元是否屬于同一行、列或單元格從而定位表格結(jié)構(gòu)。所以該范式難以處理包含大量空白單元格或空行空列的表格。

不同于以上兩種范式，微軟亞洲研究院的研究員們發(fā)現(xiàn)基于拆分-合并范式的方法具有更強(qiáng)的可擴(kuò)展性，在復(fù)雜場(chǎng)景中只需要較少的訓(xùn)練數(shù)據(jù)就能達(dá)到很高的精度，而且可以魯棒地處理包含空白單元格以及空行空列的表格。因此，基于該范式研究員們提出了 TSRFormer。如圖3所示，對(duì)于輸入的表格圖像，TSRFormer 先由拆分模塊預(yù)測(cè)出所有行、列的表格分割線，求交點(diǎn)后，生成 N x M 個(gè)單元格，再由合并模塊預(yù)測(cè)相鄰單元格是否需要合并從而恢復(fù)出跨多行、多列的單元格。

圖3：TSRFormer 的整體結(jié)構(gòu)圖

在以往基于拆分-合并范式的方法中，預(yù)測(cè)拆分模塊的表格線一般通過(guò)圖像分割模型結(jié)合從分割圖中提取表格分割線的后處理模塊完成（如[2][3]等），而基于規(guī)則設(shè)計(jì)的后處理模塊難以處理低質(zhì)量的分割圖，這嚴(yán)重降低了模型針對(duì)諸如傾斜、彎曲的表格識(shí)別的精度以及泛化能力。不同于既有設(shè)計(jì)，TSRFormer 提出了一種不需要后處理模塊的全新思路：通過(guò)直接回歸的方式來(lái)預(yù)測(cè)分割線。具體來(lái)說(shuō)，該方法采用每條分割線上的若干采樣點(diǎn)來(lái)表示該分割線，并讓模型直接回歸每條分割線上采樣點(diǎn)的坐標(biāo)，從而得到分割線的位置信息。

為了讓 TSRFormer 能夠精確且高效地預(yù)測(cè)表格分割線，研究員們還提出了一套新的基于兩階段 DETR[4] 的分割線回歸算法：SepRETR。如圖4所示，在第一階段中，SepRETR 先用參考點(diǎn)預(yù)測(cè)模塊，為每一條表格分割線預(yù)測(cè)出一個(gè)參考點(diǎn)（reference point）；在第二階段，由這些參考點(diǎn)的視覺以及空間信息組成的特征向量集合作為查詢特征（query）輸入進(jìn)一個(gè)****（Transformer decoder）來(lái)回歸對(duì)應(yīng)的完整分割線。

圖4：基于 SepRETR 的表格分割線預(yù)測(cè)模型（此處以行分割線為例）

在此基礎(chǔ)上，研究員們進(jìn)一步提出了兩個(gè)改進(jìn)算法來(lái)提升模型性能：（1）提出了基于先驗(yàn)增強(qiáng)的匹配策略來(lái)解決原始 DETR[5] 訓(xùn)練收斂慢的問(wèn)題；（2）僅采樣少量像素的特征作為****交叉注意力（cross attention）模塊的輸入，該方案可以使模型事半功倍，利用較少的計(jì)算量即可達(dá)到高定位精度。

實(shí)驗(yàn)結(jié)果及可視化效果

目前，學(xué)術(shù)界的絕大部分公開數(shù)據(jù)集都只包含 PDF 或者掃描文檔圖像中完全橫平豎直的表格（如 SciTSR[6]、PubTabNet[7] 等）。與實(shí)際應(yīng)用場(chǎng)景相比，這類數(shù)據(jù)集較為簡(jiǎn)單，不能涵蓋日常生活中的所有表格類型。近一年，復(fù)雜場(chǎng)景中的表格結(jié)構(gòu)識(shí)別問(wèn)題逐漸受到關(guān)注，例如去年新發(fā)布的 WTW 數(shù)據(jù)集[8]就開始考慮實(shí)際自然場(chǎng)景中的表格。在該數(shù)據(jù)集中，由于相機(jī)拍攝引起的干擾，一些表格會(huì)出現(xiàn)傾斜或彎曲，這大大增加了表格結(jié)構(gòu)識(shí)別問(wèn)題的難度。但 WTW 數(shù)據(jù)集只考慮了分割線均為實(shí)線的表格，而沒(méi)有包含無(wú)實(shí)線的表格。為了能夠更全面地測(cè)試模型在各類場(chǎng)景下的性能，研究員們收集了一個(gè)更加復(fù)雜的數(shù)據(jù)集，該數(shù)據(jù)集包含了各式各樣復(fù)雜場(chǎng)景的樣本，例如結(jié)構(gòu)復(fù)雜、包含大量空單元格或長(zhǎng)跨行跨列單元格的無(wú)實(shí)線表格，以及傾斜甚至彎曲的表格等等。

研究員們首先在三個(gè)較大規(guī)模的公開數(shù)據(jù)集 SciTSR、PubTabNet 以及 WTW 上驗(yàn)證了 TSRFormer 的性能。從表1、表2以及表3的結(jié)果可以看出，無(wú)論是在橫平豎直的簡(jiǎn)單場(chǎng)景（SciTSR、PubTabNet）還是在分割線均為實(shí)線的自然場(chǎng)景（WTW）表格識(shí)別任務(wù)上，TSRFormer 均比現(xiàn)有的方法表現(xiàn)得更加優(yōu)秀。

表1：TSRFormer 與現(xiàn)有方法在 SciTSR 上的性能對(duì)比

表2：TSRFormer 與現(xiàn)有方法在 PubTabNet 上的性能對(duì)比（其中 TEDS[7] 指標(biāo)同時(shí)考慮表格結(jié)構(gòu)識(shí)別和表格內(nèi)容 OCR 識(shí)別的精度，而 TEDS-Struct[10] 僅評(píng)測(cè)表格結(jié)構(gòu)識(shí)別，因此后者更適用于公平比較表格結(jié)構(gòu)識(shí)別模型的精度）

表3：TSRFormer 與現(xiàn)有方法在 WTW 上的性能對(duì)比

為了進(jìn)一步驗(yàn)證 TSRFormer 的有效性，研究員們?cè)诟咛魬?zhàn)性的內(nèi)部數(shù)據(jù)集上開展了實(shí)驗(yàn)，并將 TSRFormer 與另外兩個(gè)基于拆分-合并范式的代表算法——SPLERGE[2] 和 RobusTabNet[3]，進(jìn)行了對(duì)比。為了使對(duì)比更加公平，在實(shí)現(xiàn)這三個(gè)方法的時(shí)候僅有表格分割線預(yù)測(cè)的部分不同，其余部分模型結(jié)構(gòu)均保持一致。從表4可以看出，由于 SPLERGE 假設(shè)表格是橫平豎直的，其在同樣是橫平豎直場(chǎng)景的數(shù)據(jù)集 SciTSR 和 PubTabNet 上都能取得接近 SOTA 的結(jié)果，但在包含傾斜甚至彎曲的內(nèi)部數(shù)據(jù)集上則大幅度落后于 TSRFormer，F(xiàn)1-score 相差了11.4%。圖5的可視化效果展示了 SPLERGE 與 TSRFormer 在復(fù)雜場(chǎng)景中的明顯差距。

表4：TSRFormer 與 SPLERGE 在多個(gè)數(shù)據(jù)集上的性能對(duì)比

圖5：TSRFormer（紅）與 SPLERGE（藍(lán)）的可視化效果對(duì)比

在表5的消融實(shí)驗(yàn)中，研究員們將基于直接回歸的 TSRFormer 與目前基于圖像分割的最優(yōu)方案 RobusTabNet 進(jìn)行了對(duì)比。TSRFormer 與 RobusTabNet 均能處理傾斜或彎曲的表格。根據(jù)表5的實(shí)驗(yàn)結(jié)果，在更具挑戰(zhàn)性的內(nèi)部數(shù)據(jù)集中，相比 RobusTabNet，TSRFormer 的 F1-score 高出2.9%。關(guān)于消融實(shí)驗(yàn)的其他細(xì)節(jié)，可見論文[1]。

表5：TSRFormer 與 RobusTabNet 在內(nèi)部數(shù)據(jù)集上的對(duì)比，以及各模塊的消融實(shí)驗(yàn)

圖6中的可視化結(jié)果展示了基于直接回歸方法的優(yōu)勢(shì)。對(duì)于圖6這種單元格密集、彎曲且含有大面積空白區(qū)域的困難樣本，基于圖像分割的結(jié)果并不魯棒，這使得后續(xù)的后處理模塊難以提取出正確的分割線。而與之相反，基于直接回歸思想的 TSRFormer 并不需要任何后處理模塊，對(duì)表格中的數(shù)據(jù)和內(nèi)容識(shí)別得更為精確。

原始表格RobusTabNet 的可視化結(jié)果TSRFormer 的可視化結(jié)果

圖6：TSRFormer 與 RobusTabNet 的可視化結(jié)果對(duì)比（左右滑動(dòng)查看更多）

最后，圖7展示了 TSRFormer 在多個(gè)場(chǎng)景表格圖像上的可視化結(jié)果，可以看到該方法對(duì)于大部分復(fù)雜場(chǎng)景表格的識(shí)別呈現(xiàn)高魯棒性。

圖7：TSRFormer 在各個(gè)數(shù)據(jù)集上的可視化結(jié)果（左右滑動(dòng)查看更多）。（a-b）來(lái)自 SciTSR，（c-d）來(lái)自 PubTabNet，（e-h）來(lái)自 WTW，以及（i-l）來(lái)自內(nèi)部數(shù)據(jù)集

未來(lái)的挑戰(zhàn)

雖然 TSRFormer 在識(shí)別大部分場(chǎng)景的表格圖像中取得了可喜成果，但要完全解決所有場(chǎng)景的表格結(jié)構(gòu)識(shí)別問(wèn)題道阻且長(zhǎng)。主要問(wèn)題在于，目前的算法只考慮了視覺圖像單一模態(tài)的信息，而對(duì)于內(nèi)容極為復(fù)雜的表格，例如單元格包含多行文字內(nèi)容或存在極長(zhǎng)且無(wú)實(shí)線的跨行跨列單元格，不僅需要利用圖像信息，還需要充分理解圖中文字的語(yǔ)義后，才能正確地識(shí)別表格結(jié)構(gòu)。此外，現(xiàn)有的方法仍然無(wú)法解析多層級(jí)的嵌套表格。微軟亞洲研究院的研究員們將不斷推進(jìn)表格結(jié)構(gòu)識(shí)別的性能，也歡迎同行共同交流、探索該領(lǐng)域更好的技術(shù)！

參考文獻(xiàn)：

[1] Weihong Lin, Zheng Sun, Chixiang Ma, Mingze Li, Jiawei Wang, Lei Sun, Qiang Huo. TSRFormer: Table structure recognition with Transformers. In ACM Multimedia, 2022.

[2] Chris Tensmeyer, Vlad I. Morariu, Brian Price, Scott Cohen, Tony Martinez. Deep splitting and merging for table structure decomposition. In ICDAR, 2019.

[3] Chixiang Ma, Weihong Lin, Lei Sun, Qiang Huo. Robust table detection and structure recognition from heterogeneous document images. Pattern Recognition, 2023.

[4] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai. Deformable DETR: Deformable Transformers for end-to-end object detection. In ICLR, 2021.

[5] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko. End-to-end object detection with Transformers. In ECCV, 2020.

[6] Zewen Chi, Heyan Huang, Heng-Da Xu, Houjin Yu, Wanxuan Yin, XianLing Mao. Complicated table structure recognition. arXiv:1908.04729, 2019.

[7] Xu Zhong, Elaheh ShafieiBavani, Antonio Jimeno Yepes. Image-based table recognition: Data, model, and evaluation. In ECCV, 2020.

[8] Rujiao Long, Wen Wang, Nan Xue, Feiyu Gao, Zhibo Yang, Yongpan Wang, Gui-Song Xia. Parsing table structures in the wild. In ICCV, 2021.

[9] Sachin Raja, Ajoy Mondal, CV Jawahar. Table structure recognition using top-down and bottom-up cues. In ECCV, 2020.

[10] Liang Qiao, Zaisheng Li, Zhanzhan Cheng, Peng Zhang, Shiliang Pu, Yi Niu, Wenqi Ren, Wenming Tan, Fei Wu. LGPMA: Complicated table structure recognition with local and global pyramid mask alignment. In ICDAR, 2021.

[11] Hao Liu, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji. Show, read and reason: Table structure recognition with flexible context aggregator. In ACM Multimedia, 2021.

[12] Xinyi Zheng, Douglas Burdick, Lucian Popa, Xu Zhong, Nancy Xin Ru Wang. Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context. In WACV, 2021.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

TSRFormer：復(fù)雜場(chǎng)景的表格結(jié)構(gòu)識(shí)別新利器

相關(guān)推薦

技術(shù)專區(qū)

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

TSRFormer：復(fù)雜場(chǎng)景的表格結(jié)構(gòu)識(shí)別新利器

相關(guān)推薦

技術(shù)專區(qū)

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产