第一范文网 - 专业文章范例文档资料分享平台

计算机技术在手写体汉字识别方面的应用及发展趋势

来源:用户分享 时间:2025/5/22 6:11:29 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

计算机技术在手写体汉字识别方面的应用及发展趋势

作者:陈擎国

来源:《科技传播》 2018年第19期

摘 要 随着计算机技术以及大数据时代的到来,大众将在越来越多的方面需要手写体汉字识别技术产品。这意味着手写体汉字识别技术的市场空间将变得更加广阔。手写体汉字识别技术主要分为联机手写体汉字识别技术与脱机手写体汉字识别技术。其中,联机手写体汉字识别技术已较为成熟。文章对手写体汉字识别技术发展历程、基本原理、脱机手写体汉字识别技术识别准确率较低、反应时间长等问题,以及手写体汉字识别技术的未来发展方向做了研究及展望。

关键词 手写汉字;汉字识别;脱机识别;光学字符识别

中图分类号 G2 文献标识码 A 文章编号 1674-6708(2018)220-0001-03

随着计算机科学技术的发展以及大数据时代的到来,传统的纸质文献将越来越多地需要被转化为电子文档储存在计算机中。例如:将纸质的会议记录拍摄成图像,将其快速地转化为能够在计算机内储存与加工的电子文档;将文献古籍以图片或扫描件的形式快速转换为电子文档进行保存等。这将势必需要完善目前的汉字手写体识别方面的技术,并提升其识别的准确率以及减少其对较大训练样本及硬件运行内存的依赖。

1 手写体汉字识别技术的发展历程

随着计算机技术的发展,汉字识别技术已经逐渐融入人们的日常生活中,并将在经济、教育等领域发挥越来越重要的作用。汉字识别技术,主要基于光学字符识别技术(Optical

CharacterRecognition),以识别对象为标准,可分为印刷体汉字识别与手写体汉字识别技术;以输入方式为标准,可分为联机汉字识别与脱机汉字识别。手写体汉字识别技术,源于印刷体汉字识别技术,从20世纪六七十年代开始,大致可分为3 个时期:理论探索期、快速发展期、深入发展期。

1.1 理论探索期(20 世纪60 年代— 70 年代)

自1946 年世界上第一台电子计算机在美国出现后,人们除了将计算机用于复杂计算外,还将其应用于文档的处理与保存。由于电子文档拥有效率高、易于储存、容量大等特点,一经问世便受到科学家们的广泛重视与研究。因为英文字母数量较少、笔画简单,在计算机识别中

遇到的困难较小。而汉字数量大、笔画繁杂、形近字较多,给予这一时代的科学家不小的困难。

在这一阶段,主要是欧美大型计算机企业以及中国国内一些高校、研究所进行初步的理论探索。例如:在1966 年,Casey R 与Nagy G 首次发表关于印刷体汉字识别的文章,提出计算机识别汉字的理论基础以及需要解决的技术难题。清华大学、南开大学、北京大学等高校开始进行对规则且有限的汉字识别进行研究。这个时期进行的探索,尽管较为粗浅,但其为之后印刷体及手写体汉字识别奠定了理论基础、发现并定位了亟待解决的问题。

1.2 快速发展期(20 世纪80 年代至21 世纪初)

到了20 世纪80 年代,汉字识别技术有了一定发展。印刷体汉字识别技术逐渐发展并最终成熟。科学家们通过模仿人类视觉识别的过程,采用统计模式识别方法,通过逼近取值的算法

来提取汉字,解决了印刷体汉字识别中汉字结构与笔画提取困难的难题,也为手写体汉字识别提供了思路与方法。

在这个阶段,一些实用性高、错误率低的印刷体汉字识别软件问世。例如:IBM 公司的OCR 技术已经趋于成熟;20 世纪90 年代,清华大学研发的TH-OCR 产品率先实现了中英文混排识别;汉王公司的汉王OCR 凭借识别率高等优势,在2000 年达到世界领先水平。80 年代中国发布了GB 2312-80 国家标准字符库,国外计算机公司也建立了相应字符库。这对汉字识别的发展起到极大的推动作用。

而在20 世纪80 年代,手写体汉字识别技术才刚刚起步,仅作为印刷体汉字识别产品的附加功能,识别率低,实用性不强。但至21 世纪初,联机手写体汉字识别技术由于可通过笔画的先后顺序进行识别,发展已经较为完善,也有多种实用的联机手写体汉字识别产品面世。然而,脱机手写体识别技术仍处于萌芽阶段。

1.3 深入探索期(21 世纪初至今)

在21 世纪初期,印刷体汉字识别技术已经完善的背景下,越来越多的学者将目光投向了脱机手写体汉字识别技术,并构建出基本识别流程,针对汉字分类提出了多种方法。主要分类方法分为:统计模式识别与结构模式识别。这两种方法各有利弊,但实用性尚为欠缺。近几年随着人工智能的发展,人工神经网络、多分类器聚合等方法也相继被提出。

近年来,腾讯云OCR 推出手写体汉字识别服务;百度、科大讯飞等互联网企业也推出了手写体汉字识别产品。但是,真正有效实用的脱机手写体汉字识别技术仍然需要科学家们继续深入探索。

2 手写体汉字识别基本原理

目前,计算机对手写体汉字进行识别分为两种类别:联机手写体汉字识别与脱机手写体汉字识别。尽管联机识别时有笔顺可进行辅助参考,但两种类别的基本原理大致相同,均分为:样本输入、预处理、特征提取、分类识别、末处理等五大流程(参见图1)。

2.1 样本输入

样本输入,指的是将所需识别的汉字通过拍摄图片、扫描等手段,转换为计算机所能识别的图像。在联机手写体汉字识别中,不仅要将相应的图像信息输入电脑,也需把对应的笔画顺序输入电脑,以作为分类识别时的辅助参考。由于缺少相应的笔画顺序作为辅助判断的工具,脱机手写体汉字识别在下列步骤中的识别速度与准确率目前均不及联机手写体汉字识别。

2.2 预处理

预处理,指的是计算机对输入的图像通过二值化、去噪等手段,降低图片的维度,通过扭转校正等方法,初步规范汉字图像,继而对图像进行切分,切分出单一的汉字,以便于对汉字的特征提取并降低识别的错误率。

其中:二值化指的是,对图片进行灰度处理,将图片转换为黑白色,并用坐标的方式标记各个像素点,从而简化计算机对汉字特征提取的难度,降低出错率。去噪指的是,对图像中的孤立点、孤立的笔画、污点等进行去除,以简化识别难度,降低对CPU 的使用率,降低对计算机硬件的要求。扭转校正是指:将歪斜扭曲的笔画变化成整齐规则的标准笔画,或将不同字体、风格的文字统一转换为标准字体,从而降低分类识别的难度。

2.3 特征提取

特征提取,指的是计算机对汉字中能够体现出差异的特有信息进行提取,例如:提取汉字的偏旁部首、笔画的离散程度等。目前,特征提取方法主要分为两种:提取结构特征与提取统计模式特征。提取结构特征是指:提取汉字结构中的特殊结构,如:部首、框架等,并记录提取的信息以供分类识别使用。

该方法的优点是易识别形近字,对不同字体的识别能力较强。但是,此方法对预处理要求较高,若预处理的图像中出现断裂、连笔等影响因素,此方法的提取成功率将会下降。而提取统计模式特征指的是:对样本的坐标进行数学变换,利用傅里叶变换、Gabor 变换等数学方法,再结合正态分布等统计方法来提取汉字特征。这种方法对预处理要求较低,但识别形近字、不同字体汉字的能力较弱。2.4 分类识别

分类识别是指:利用上一步所提取的汉字特征信息,在计算机的字符库中进行检索比对,检索出相似程度最高的汉字作为输出结果。这种检索比对的方法被称为分类识别方法。目前,汉字的主流分类识别方法有基于结构的识别方法、基于统计模式的识别方法、神经网络识别法、贝叶斯决策法与支持向量机法等。其中神经网络识别法与支持向量机法是时下的热点研究方向。

各种分类方法适用不同的情形,有他们各自的优缺点,例如基于结构的识别方法中,隐马尔科夫模型是其中的典型,该方法成功率较高,在中小字符集的识别中成功率较高,但在识别大字符集方面识别率较低。而支持向量机法,拥有识别率较高,适应训练字符集较小情况等优势,复杂程度高,对大字符集的识别时间较长。

2.5 末处理

在分类识别给出结果后,需要计算机通过解析句式结构来验证对汉字识别的正确与否。此时,联机手写体汉字识别还可以通过笔画顺序来辅助验证。若验证通过,则输出识别结果;若验证未通过,如:出现识别乱码或语意等严重不符时,则反馈给分类识别环节重新进行识别。末处理能够显著降低识别的错误率。目前,科学家也在试图用增加末处理的环节等手段来提高手写体汉字识别的准确率。

3 手写体汉字识别技术的短板及发展趋势

近年来,联机手写体汉字识别由于拥有可以运用笔画顺序来辅助识别的优势,发展比脱机手写体汉字识别技术较快。目前,市场上已经有为数众多的联机汉字识别产品供大众使用。即使目前已有脱机手写体汉字识别技术产品问世,我们也无法忽视脱机手写体汉字识别技术中仍然存在的问题。下面将大致说明脱机手写体汉字识别技术存在的缺陷。

3.1 识别准确率较低

脱机手写体汉字识别技术由于只能够通过输入的图像进行分析,受字体风格、连笔、缺损、污点、扭曲等因素影响较大,给予预处理及特征提取步骤不小的困难。这也导致了在一开始的两步中极易出现错误,从而导致后面分类识别环节中的错误,降低了识别准确率。

3.2 反应时间长,对计算机硬件要求高

脱机手写体汉字识别技术由于缺乏笔画作为辅助参考,一个汉字往往有几个,甚至几十个、上百个相似的汉字。因此在分类识别环节中,相应的算法较为复杂,检索比对的耗时较长,从而拖慢了整个流程的反应时间。这也使得该技术对计算机硬件的要求较高,特别是对CPU 的要求较高,并且增加能耗,浪费资源。

计算机技术在手写体汉字识别方面的应用及发展趋势.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c565rq7s5f96ehs64cxfu8wrp7230fg017t6_1.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top