如何加速百万级别的文件索引

Channing · 2022 年4 月 19 日 01:30

目前，我有一个文件数量五十万的库。
所有文件都放在一个文件夹里。
第一次打开的时间很久，随后可以进入索引。
但是索引的速度非常缓慢。
另外，内存也暴涨接近6G.
请问，是否如果把所有文件分成多个文件夹会不会降低内存以及加速索引速度？
obsidian是怎么索引的？

Ryooo · 2022 年4 月 19 日 10:22

具体机制还是得开发者来说明，但是分库还是能有效减少索引时间的。所以在不需要那么多文件的情况下，还是分库使用。

不过感觉这 50w 文件不全是笔记吧。个人建议不要把 ob 当成文件管理软件了，这样意义不大= =。

Channing · 2022 年4 月 20 日 02:54

并没有当成文件管理器。
我一般是多条笔记嵌入空笔记内，组织上下文形成新笔记。
笔记的可以会拆分得非常细致，然后通过嵌入的方式构建树状结构等。

xbeta · 2022 年4 月 24 日 09:27

很有意思的使用方式~
远超出普通场景的使用，确实会给工具带来挑战。
没有直接经验，但有些问题思考过，部分尝试过，供参考：

我对工具性能是极关注的。测试新工具性能，习惯做法有两项：一是把原来云笔记时代积累的6000+笔记导入；二是导入单篇长文档，例如35万字的鲁迅笔记。以初步判断单篇笔记、笔记库的上限。
笔记间的关联性越强大，笔记就可以越碎。这也更合理，方便收集，积累。
以文件方式进行管理，在极多文件时，比如万、十万，很容易遇到瓶颈。这种场景数据库更合适。（曾经见过两款工具，明确说过考虑了几十万条笔记的场景：一是很久不更新极小众几乎搜索不到的 Tobu，体验并不好；二是目前比较活跃的 Trilium Notes ，但实现效果也不满意）
十万文件，对其他的管理，比如搜索、备份，也是考验。

自己能做的：

相信你也测试过其他工具，也欢迎分享它们在 50万笔记面前的优点与缺点。

Channing · 2022 年4 月 24 日 10:23

解决方案

不关闭软件肯定是不行了，我会经常切换设备。
解决这种超大量级的方法我有想过，比如将所有分库同步到主库，如此就能通过主库找到多个分库之间的关联。
但是，具体操作起来也是一个新流程，肯定还要写一些筛选文件的文件同步脚本，并且验证的结果不一定满意。

xbeta · 2022 年4 月 24 日 12:39

我慢，但数据再多，也不会更慢！——这也算个优点

Channing · 2022 年4 月 25 日 00:57