单下下 PDF 拆书, 为了渐进式阅读. 此帖为了记录折腾+交流
渐进式阅读步骤或者功能:
- pdf转成markdown
- markdown拆分
- markdown随机跳转并阅读
- markdown索引原来的页数,加上引用(note linking能实现页数, 引用还没有)
- 随机跳转(random note或者improve Random Note插件来阅读. )
- 标注已看过
1. pdf转成markdown
note linkeing插件
note Linking 能跑, 作者没有维护了. 把报错的空值加个判空问号?判断. 就能正常生成了, 虽然有瑕疵…但我现在用的是这个. 以后估计会在这个插件上动手脚
其他方案
在线的网站(自己上zh搜"pdf转markdown obsidian")/Pandoc
OCR转书方案
方案: marker/ABBYY Finereader
marker配置比较麻烦, 直接跑他们容器
marker讨论
2.markdown拆分
各种脚本. 让LLM帮你写一个python脚本也行.
awk
我自己的:
awk -F, '/^###### /{h=substr($0,8,12);} {print > ( h ".md")}' D:/obsidian/Procrastination.md
#六级标头是拆分的地方,substr是标头中第八个到第十二个作为文件名
其他拆分方案链接
- How do I split a markdown file into separate files at the heading - Stack Overflow
- https://forum.obsidian.md/t/split-books-chapter-as-separated-files/5908/7
- Markdown头部文本分割 | Langchain114
- python
其他方案
note refactor只有三级header拆分功能