渐进式阅读记录(pdf拆书阅读)(持续更新)

单下下 PDF 拆书, 为了渐进式阅读. 此帖为了记录折腾+交流
渐进式阅读步骤或者功能:

  1. pdf转成markdown
  2. markdown拆分
  3. markdown随机跳转并阅读
  • markdown索引原来的页数,加上引用(note linking能实现页数, 引用还没有)
  • 随机跳转(random note或者improve Random Note插件来阅读. )
  • 标注已看过

1. pdf转成markdown

note linkeing插件

note Linking 能跑, 作者没有维护了. 把报错的空值加个判空问号?判断. 就能正常生成了, 虽然有瑕疵…但我现在用的是这个. 以后估计会在这个插件上动手脚

其他方案

在线的网站(自己上zh搜"pdf转markdown obsidian")/Pandoc

OCR转书方案

方案: marker/ABBYY Finereader
marker配置比较麻烦, 直接跑他们容器
marker讨论

2.markdown拆分

各种脚本. 让LLM帮你写一个python脚本也行.

awk

我自己的:

awk -F, '/^###### /{h=substr($0,8,12);} {print > ( h ".md")}' D:/obsidian/Procrastination.md
 #六级标头是拆分的地方,substr是标头中第八个到第十二个作为文件名

其他拆分方案链接

其他方案

note refactor只有三级header拆分功能

成品就是思源的"重构助手"+"渐进式阅读"插件.