<sub id="xbx9d"></sub>


      當前位置:首頁 > 學院動態 > 計通

      我校殷緒成教授團隊在場景圖像文本檢測與識別研究中取得重要進展

      單位(作者):計算機與通信工程學院 | 來源:本站原創 | 更新時間:2020-07-15 | 點擊數:

      近期,我校計算機科學與技術系殷緒成教授團隊,針對復雜場景環境下的圖像與視頻文本檢測與識別,創新性地引入深度學習新框架,提出了多方向文本檢測新模型與新方法,解決了任意形狀文本檢測中文本關系難以挖掘的核心技術問題,在領域內最具代表性的任意形狀文本數據庫(Total-Text)上取得了88.72%的性能(f-score)。該項成果在國際計算機視覺與模式識別頂級會議(IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2020)發表了Oral論文(“Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection”),并在國際圖像處理和圖像識別頂級期刊(IEEE Transactions on Image Processing,IEEE T-IP)在線發表了長文(“HAM: Hidden Anchor Mechanism for Scene Text Detection”),闡述了這些創新方法和研究進展。

      1.jpg

      科研成果簡介

      場景圖像視頻中文本檢測與識別廣泛應用于在線教育、產品搜索、即時翻譯、圖像視頻大數據理解和網絡內容安全等領域,是模式識別、文字識別、計算機視覺中一個重要的研究方向。由于圖像視頻中文本布局分布的復雜性和文本表示形式的局限性,任意形狀文本檢測成為了文本檢測與識別中一個技術難點和研究熱點。殷緒成教授團隊提出的創新方法,利用深度圖卷積神經網絡來進行文本組件之間的深度關系推理,有效地學習、推理與挖掘文字、文本組件之間的連接及語義關系,高精度地檢測復雜場景圖像視頻中的任意形狀文本。

      2.jpg

      復雜場景環境下的文字識別效果

      復雜場景環境下的圖像與視頻文本檢測與識別一直都是國內外學術界和工業界關注的重點方向。目前,世界上幾乎所有的互聯網和IT巨頭都進行相關的技術研究,包括了阿里巴巴、騰訊、百度、Google、Microsoft、Facebook等。我校殷緒成教授團隊在文本檢測、文本識別、圖像識別技術領域進行了長期的探索與研究,取得了世界先進的創新技術和國內矚目的應用成果,主持的項目獲2019年度北京市科技進步一等獎和2018年度教育部科技進步二等獎。

      CVPR 2020 Oral論文和IEEE T-IP論文的第一作者分別為碩士生張世學同學和博士生侯杰波同學。二人均為我校計算機與通信工程學院本科畢業生,推免到模式識別與人工智能技術創新實驗室殷緒成教授團隊攻讀碩士研究生和博士研究生(碩博連讀)。自大四進入實驗室學習以來,他們在場景文本檢測與識別方面進行了較深入的研究,取得了令人印象深刻的成績,在IEEE T-IP、IEEE T-ITS、CVPR、ICDAR等國際知名期刊和會議上發表了多篇高水平學術論文。

      論文鏈接:

      https://openaccess.thecvf.com/content_CVPR_2020/html/Zhang_Deep_Relational_Reasoning_Graph_Network_for_Arbitrary_Shape_Text_Detection_CVPR_2020_paper.html(CVPR論文);

      https://ieeexplore.ieee.org/document/9143459(IEEE T-IP論文)。

      (圖片:計通學院)

      (責編:杜嘉慶、邢華超)

      彩吧论坛