| 扫描仪使用3板斧(2) |
|
· 2002-9-9 · 浏览人数:311
|
| 请记下上海电脑维修上门服务电话:021-61121021,以备急用!(嘉定,青浦,普陀,闵行,松江)
|
文本识别篇
所谓文本识别系统,即OCR(Optical Character Rcognize)光学字符识别系统,指利用扫描仪将报纸、杂志等媒体上的印刷体汉字、表格和图形,甚至手写体汉字扫描入电脑,再识别,从而达到高速录入汉字的一种软件。现在大多数扫描仪都随机附送了一套OCR软件,但是,如何提高OCR的识别率呢?一般说来,OCR的识别率主要受如下四个因素的影响:
1.原稿质量; 2.所用的OCR软件; 3.OCR的参数设置; 4.扫描时的参数设置。
原稿应保证清洁、无灰尘和杂质,最好选用印刷质量较高的原稿,尽量避免使用手写稿。扫描时,应将原稿摆放整齐,避免过度倾斜。万一倾斜,也要用软件的“倾斜校正”功能进行校正,以利于OCR软件的版面分析。若扫描出来的影像杂点较多,则应首先进行去除杂点的处理,然后再识别。
在OCR软件的选择方面,目前市场上流行的主要有清华OCR、尚书OCR、蒙恬OCR等,有的产品还有专业版和普及版之分。选好OCR后,正确设置其参数很重要。很多OCR软件提供了标准TWAIN界面和所谓的“直接终扫”两种扫描方式,在实际使用中,应通过多次实验来确定哪种方式更有效、实用。
另外,有不少人有这样一种误解:提高分辨率(DPI)能提高识别率。但事实上,对于一般的报刊、杂志,选择300DPI左右的分辨率就可以了,过高的分辨率反而可能降低识别率。这是因为过高的分辨率会更“仔细”地扫描印刷文字的细节,更容易“揪”出印刷文稿的瑕疵、缺陷,导致识别率下降。尤其当原稿的印刷质量不是很好时,这种副作用体现得更为明显。其实,对于绝大多数的原稿而言,真正影响识别率的参数是明暗浓度,即亮度和对比度。其设置以汉字的笔画看上去既不残缺,又不相互粘连为准。
|
|
|
| |
·连载文章 ·扫描仪使用3板斧-连载 ·扫描仪使用3板斧(2) ·扫描仪使用3板斧(3)
|
|
|
|
|
|
发表评语
|
| 文章原网址:http://www.yesky.com/20010910/195786.shtml |
管理通道
|