分享关于ocr的一些经验

工具

1. 如果需要识别的文件是pdf格式

  • 在菜单栏中点击【文件】→【打开图像】,在对话框中选择需要识别的pdf,再按需选择所需页数和dpi(一般选择保留原书dpi),等待软件对pdf进行拆分;如果原pdf为双层pdf或文字pdf(即可以直接复制文字的pdf),则可以选择此对话框下方的【pdf转为txt文件】直接进行转换,但识别准确率不高;

  • 选择所有图像文件,在【识别】菜单栏中点击【版面分析】,可以对图像中的可识别部分进行初步分析,分析完成后版面上会出现多个文本框,可以选中边缘进行拖拉以调整范围,在【识别】的【修改栏属性】菜单中修改属性,或是直接按【delete】删除不需要识别的部分;

  • 完成图像处理后,在【识别】菜单中点击【开始识别】,识别完成后,可在上方直接校对;

  • 校对完成或想在文字处理软件进行校对的话,选中左侧所有文件,在【输出】菜单中选择【到指定格式文件】,再用相应的软件打开即可。

2. 如果需要识别的文件是复数图片

  • 首先请注意将图片名按先后顺序命名;
  • 使用【汉王pdf ocr】,步骤同pdf扫描,在此不做赘述;
  • 也可使用【umiocr】,应在【设置】菜单中提前设置好输出格式和目录,点击【文件夹】图标,选中需要识别的图片后点击【开始任务】,完成后输出的文件已经已经指定格式存到指定路径了。

3. 如果需要识别的是实体书

  • 使用扫描仪或手机获取图片后接上述操作。

4. 如果需要识别的是电脑屏幕上的部分文字
使用【umiocr】,点击【批量处理】菜单下方的【截图】图标,截图后进行识别即可。

5. 如果要用手机进行ocr(适合在阅读实体书时进行摘抄)
推荐app【汉王扫描王】,免费好用,各大手机软件商店均可下载。

4 个赞

因为论坛限制新用户每个帖子的链接数量,补充如下:

  • 注意事项
    如遇识别内容被分成多个txt输出的情况,可用软件【txtforever】(下载地址: 百度网盘 请输入提取码 ,提取码4hie)进行合并。

文本处理

  • 识别软件经常会将原书的每一行作为一个段落。导致得到的文本多出不必要的换行,可在 论文工具 优化排版,删除多余的换行符和空格,转换中英文标点等;

常见识别错误

  • 破折号经常会被ocr成汉字“一”,需要将word页面放大观察字尾处是否有回笔,或是搜索“一一”(两个汉字“一”),反之亦然;
  • 书面如果存在污渍容易被识别成乱码,需要在录入的时候注意;
  • 部分因ocr出现的错误多次遇到后应及时记录,在最后用查找功能校对,以免肉眼看漏,如“负贵”(负责)、“白主”(自主)、“竞然”(竟然)、“夭”(天)等。
2 个赞