模式识别与人工智能
2025年4月13日 星期日   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2009, Vol. 22 Issue (3): 488-493    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于OCR与词形状编码的英文扫描文档检索*
夏勇1,2,戴汝为2,肖柏华2,王春恒2
1.哈尔滨工业大学 计算机科学与技术学院 哈尔滨 150001
2.中国科学院自动化研究所 复杂系统与智能科学重点实验室 北京 100080
Scanned English Document Retrieval Based on OCR and Word Shape Coding
XIA Yong1,2, DAI Ru-Wei2, XIAO Bai-Hua2, WANG Chun-Heng2
1.School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001
2.Key Laboratory of Complex System and Intelligence Science, Institute of Automation, Chinese Academy of Sciences, Beijing 100080

全文: PDF (456 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 分析当前常用的两类扫描文档检索方法:基于OCR和基于词形状编码的方法.提出基于识别信度将两种方法进行有机结合的思路.基于文档排字特性和笔画特征,还提出一种词形状编码方法,对字体有较强的容忍性.针对各种标引方法进行关键词检索对比实验,实验结果表明,本文方法性能较优越.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
夏勇
戴汝为
肖柏华
王春恒
关键词 检索对比实验实验结果表明本文方法性能较优越.关键词词形状编码光学字符识别(OCR)识别信度评估文档检索    
Abstract:Two commonly used methods for scanned document retrieval are analyzed, namely retrieval based on optical character recognition (OCR) and retrieval based on word shape coding. A new strategy of combining these two methods based on recognition confidence is given. Furthermore, a new way for word shape coding based on typographic feature and stroke is presented and it is tolerant to fonts. Experiments are conducted based on different word indexing and the results verify the validity of the proposed method.
Key wordsWord Shape Coding    Optical Character Recognition (OCR)    Evaluation of Recognition Confidence    Document Retrieval   
收稿日期: 2008-06-30     
ZTFLH: TP391  
基金资助:国家自然科学基金资助项目(No.60602031)
作者简介: 夏勇,男,1975年生,博士,主要研究方向为模式识别、图像处理、信息检索等.E-mail: xiayong@hit.edu.cn.戴汝为,男,1932年生,研究员,院士,主要研究方向为模式识别、综合集成理论、复杂系统等.肖柏华,男,1974年生,研究员,主要研究方向为模式识别、图像处理、信息检索等.王春恒,男,1971年生,研究员,主要研究方向为模式识别、综合集成理论、复杂系统等.
引用本文:   
夏勇,戴汝为,肖柏华,王春恒. 基于OCR与词形状编码的英文扫描文档检索*[J]. 模式识别与人工智能, 2009, 22(3): 488-493. XIA Yong, DAI Ru-Wei, XIAO Bai-Hua, WANG Chun-Heng. Scanned English Document Retrieval Based on OCR and Word Shape Coding. , 2009, 22(3): 488-493.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2009/V22/I3/488
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn