工具:
- 在 https://www.hanwang.com.cn/index.php?m=content&c=index&a=lists&catid=46 依次点击【类别】:用于其他应用→【产品】:PDF识别软件→【型号】:PDF OCR,即可下载【汉王pdf ocr】。
- 在 GitHub - hiroi-sora/Umi-OCR: OCR图片转文字识别软件,完全离线。截屏/批量导入图片,支持多国语言、合并段落、竖排文字。可排除水印区域,提取干净的文本。基于 PaddleOCR 。 下载【umiocr】软件。
1. 如果需要识别的文件是pdf格式
-
在菜单栏中点击【文件】→【打开图像】,在对话框中选择需要识别的pdf,再按需选择所需页数和dpi(一般选择保留原书dpi),等待软件对pdf进行拆分;如果原pdf为双层pdf或文字pdf(即可以直接复制文字的pdf),则可以选择此对话框下方的【pdf转为txt文件】直接进行转换,但识别准确率不高;
-
选择所有图像文件,在【识别】菜单栏中点击【版面分析】,可以对图像中的可识别部分进行初步分析,分析完成后版面上会出现多个文本框,可以选中边缘进行拖拉以调整范围,在【识别】的【修改栏属性】菜单中修改属性,或是直接按【delete】删除不需要识别的部分;
-
完成图像处理后,在【识别】菜单中点击【开始识别】,识别完成后,可在上方直接校对;
-
校对完成或想在文字处理软件进行校对的话,选中左侧所有文件,在【输出】菜单中选择【到指定格式文件】,再用相应的软件打开即可。
2. 如果需要识别的文件是复数图片
- 首先请注意将图片名按先后顺序命名;
- 使用【汉王pdf ocr】,步骤同pdf扫描,在此不做赘述;
- 也可使用【umiocr】,应在【设置】菜单中提前设置好输出格式和目录,点击【文件夹】图标,选中需要识别的图片后点击【开始任务】,完成后输出的文件已经已经指定格式存到指定路径了。
3. 如果需要识别的是实体书
- 使用扫描仪或手机获取图片后接上述操作。
4. 如果需要识别的是电脑屏幕上的部分文字
使用【umiocr】,点击【批量处理】菜单下方的【截图】图标,截图后进行识别即可。
5. 如果要用手机进行ocr(适合在阅读实体书时进行摘抄)
推荐app【汉王扫描王】,免费好用,各大手机软件商店均可下载。