分享关于ocr的一些经验

chenghuang · 2023 年5 月 22 日 03:06

工具：

1. 如果需要识别的文件是pdf格式

在菜单栏中点击【文件】→【打开图像】，在对话框中选择需要识别的pdf，再按需选择所需页数和dpi（一般选择保留原书dpi），等待软件对pdf进行拆分；如果原pdf为双层pdf或文字pdf（即可以直接复制文字的pdf），则可以选择此对话框下方的【pdf转为txt文件】直接进行转换，但识别准确率不高；
选择所有图像文件，在【识别】菜单栏中点击【版面分析】，可以对图像中的可识别部分进行初步分析，分析完成后版面上会出现多个文本框，可以选中边缘进行拖拉以调整范围，在【识别】的【修改栏属性】菜单中修改属性，或是直接按【delete】删除不需要识别的部分；
完成图像处理后，在【识别】菜单中点击【开始识别】，识别完成后，可在上方直接校对；
校对完成或想在文字处理软件进行校对的话，选中左侧所有文件，在【输出】菜单中选择【到指定格式文件】，再用相应的软件打开即可。

2. 如果需要识别的文件是复数图片

首先请注意将图片名按先后顺序命名；
使用【汉王pdf ocr】，步骤同pdf扫描，在此不做赘述；
也可使用【umiocr】，应在【设置】菜单中提前设置好输出格式和目录，点击【文件夹】图标，选中需要识别的图片后点击【开始任务】，完成后输出的文件已经已经指定格式存到指定路径了。

3. 如果需要识别的是实体书

4. 如果需要识别的是电脑屏幕上的部分文字
使用【umiocr】，点击【批量处理】菜单下方的【截图】图标，截图后进行识别即可。

5. 如果要用手机进行ocr（适合在阅读实体书时进行摘抄）
推荐app【汉王扫描王】，免费好用，各大手机软件商店均可下载。

chenghuang · 2023 年5 月 22 日 03:07

因为论坛限制新用户每个帖子的链接数量，补充如下：

文本处理