OCR文字识别
使用OCR文字识别后,发现错误很多,是否可以减少这样的错误?该怎样操作?
1.首先,要检查OCR要识别的文本图片,应该是文字清晰,背景和文字色彩对比清楚。如果字体有五号字大(指汉字),分辨率应该是至少300像素/英寸,格式一般是TIF为好,放置应该尽量横平竖直。如果较差,应该用图像处理软件先做些调整。或是按以上一些指标设定重新扫描。 2.OCR选择识别的段落范围中不应有表格,图片之类。如果有,应该处理掉或是躲开。 3.对文学作品,古汉语等识别率稍低一些,商务,新闻,计算机类识别率能高一些,但达到95%以上,已经不错了。 4.选择较好的OCR软件。根据我使用,尚书OCR还是不错的,一般文本可达到98%左右的识别率。
尚书OCR还是不错的,一般文本可达到98%左右的识别率。 不同的OCR软件其准确率有所不同。 还有,一般的纸张为纯白色,对比清楚,无折痕、污点、表格、图片的识别率高一些。有折痕、污点、表格、图片、彩色纸张、复印稿、繁体字一般识别率低。
OCR文字识别的错误在所难免(数学公式一般都不能正确识别),不同的OCR软件其准确率有所不同,您可多试几个OCR软件,再选择相对最好的软件。另外图片中文字大的识别准确率较高。
答:注意调节扫描文稿的分辨率,太高或太低都不好,扫描格式选为黑白的TIFF格式,扫描出的图片可先进行处理去除噪点后识别,如识别率不高,可改一下分辨率或对比度,直到基...详情>>
答:详情>>
答:看在哪种类型的单位工作了 如果是国企事业单位有一定的作用详情>>