KG 笔记法评析(一):不靠插件和全文搜索也能轻松管理百万字笔记

前阵子库中笔记的总字数终于突破了两百五十万,自己也用 KG 笔记法重新记录了 3k 多篇笔记,也算对自己创造的方法有了更深的体会。后面我将陆续写些小短文,简单评价一下 KG 笔记法的优点和不足。今天这篇文章就先简单讲讲 KG 笔记法的第一个优点——不依赖任何复杂功能即可管理百万字笔记。

知识组织的底层逻辑

为了方便讨论,在具体展开前还是先明确一些相关概念。平时我们常说的“知识管理”,实际上指的是“知识组织”或“信息组织”,即对知识或信息的整理和加工,使其有序化、系统化,使我们能高效地获取所需知识或信息 (周宁, 2017)。简单一点来说就是想找什么就能找得着。

而无论是知识组织还是信息组织,无论是什么组织方法,为了实现高效检索这个目标,都遵循着一个共同的底层逻辑——“内容-检索标识-检索系统”。当我们组织知识或信息时,我们需要将知识或信息等内容提炼成检索标识,然后将标识存到检索系统中;而当我们进行信息或知识的检索时,我们需要在检索系统中搜索检索标识,然后依靠检索标识来获得对应的内容。也就是说,知识信息的组织和检索实际上是从不同的方向来应用这个底层逻辑。

image

信息检索与信息组织示意图 (周宁, 2017)

笔记软件常见组织方法的优与劣

信息组织的经典方法有分类法、关键词法、元信息法 (周宁, 2017)。下面分析一下笔记软件中常见的方法是怎么应用这个底层逻辑的:

  • 分类法:我们需要先为每篇笔记分配一个分类,这个分类就充当着检索标识的作用,然后我们的软件识别、记录这些分类名称。未来我们在检索笔记的时候,通过软件搜索相应的分类名称从而来获取同一分类下的多篇笔记。
  • 关键词法:也就是我们常用的全局搜索。软件会自动识别每篇笔记中的关键词,这些关键词即检索标识,储存在软件的词典中。检索时我们通过输入相应的关键词,软件就会返回包含该关键词的笔记集合。
  • 元信息法:软件会自动识别每篇笔记中的元信息,比如创建时间、修改时间等等,同时我们也可以为每篇笔记添加自定义的元信息字段。所有的元信息字段就成为了这种方法里的检索标识,会被软件储存起来。检索时我们通过对字段进行筛选从而获得符合条件的笔记集合。

以上三种方法采用了不同的检索标识,而不同的检索标识给这些方法带来了各自的优点和缺点。

  • 对于分类法来说,其优点在于分类号往往是以学科分类为基础创建的,这样能比较好的满足人们常以学科视角进行检索的需要。比如,当我们想搜索经济学科相关的笔记就可以使用“F 经济”这一分类号。但是其缺点在于复杂内容的笔记难以分类,同时上手门槛较高,不适合没有相关知识的用户组织管理大量内容。
  • 对于关键词法,其优点在于自动化,也就是说作为检索标识的关键词完全是软件自动切词构成。但这样不好的地方在于对软件算法和性能依赖极大。另外,关键词法也有查不准的问题,比如搜索“马铃薯”就找不到“土豆”,用简体字搜索就找不到对应的繁体字内容。
  • 对于元信息法:其优点在于较低的上手门槛,毕竟要给笔记赋予元信息是非常容易的。但缺点在于元信息字段常常记录的是作者、期刊、创作日期等外表属性,不适合从内容角度进行检索。毕竟我们检索时想的是找“马铃薯”相关的笔记,而不是一上来就想哪天的笔记里写马铃薯相关的内容。(所以 daily note 这种设计不适合管理大量的笔记。)

就目前的笔记软件来看,大多数软件基本是围绕关键词法和元信息法来设计的。而且这点在 Obsidian 这边更为明显——开放的插件系统可以让用户设计功能更为复杂强大的插件来组织管理自己的笔记,比如 Dataview 就是元信息法的典型代表,Omnisearch 就是关键词法的典型代表。(关于双向链接、块引用MOC和见尾注)。这就给用户造成了一种错觉,仿佛不折腾这些插件就不能管理笔记了。但实际上,要实现低上手门槛和高检索效率,我们还有另一个选择——主题法。

另一种选择——主题法

残缺的叙词法

主题法是以信息主题作为检索标识的组织方法(张燕飞, 2005)。在组织知识和信息时,我们只需要将知识和信息的主题用一些词提炼出来,检索标识就形成了;在检索知识和信息时,我们通过这些表达主题的词便能轻松检索到所需的内容。举例来说,一篇讲述“马铃薯种植”的笔记可以用“马铃薯”和“种植”两个词来表示其主题,未来我们检索时,就可以通过“马铃薯”和“种植”两个词来检索到关于“马铃薯种植”这个主题的笔记集合,再从中找到我们所需的这篇笔记。没错,这就是为大家所熟知的标签,对应的是主题法中的叙词法。叙词法的好处在于提炼检索标识非常简单,笔记内容写了什么我们就用什么词语当标签,而不像分类法那样需要我们绞尽脑汁地想分类号。

但是,现有笔记软件的标签设计并不能实现完整的叙词法,因为标签没有别名功能,这就给标签带来了缺点。还是刚刚的例子,对于“马铃薯”这个标记,图书馆中会将“土豆”、“洋芋”、“potato”等别称同时映射到“马铃薯”这个词上,这样读者无论是用“马铃薯+种植”还是“土豆+种植”都能找到关于“马铃薯种植”这个主题的文献集合。但由于笔记软件中的标签没有映射功能,因此使用“土豆+种植”并不能关联到“马铃薯+种植”。此外,目前的笔记软件中也没有像叙词法那般给标签添加词族索引(将同个词开头的标签汇聚在一起)、范畴索引(给标签分类以方便查找和管理)、轮排索引(将组成标签的不同词语分别轮流放于开头以方便查找),这给拥有大量标签的用户带来了使用上的麻烦。因此,叙词法虽然作为主题法中最为流行的一个分支,其并不能在当下的笔记软件中很好的应用。

Obsidian 的最佳伴侣——标题法

考虑到 Obsidian 为笔记标题设置了别名功能,我们可以转向主题法的另一种形式——标题法。

标题法中的“标题”二字其实并非文章题目的意思,而是“主题标目”的简称(张燕飞, 2005)。标题法和叙词法最大的不同就在于标题法是通过主题标目这样的短语来表达信息主题,而不是像叙词法那样通过多个词语的组合来表达主题。对于刚刚的例子,标题法的检索标识就是“马铃薯种植”。在 Obsidian 里,我们完全可以让主题标目成为笔记的标题,方便我们看到标题就能了解笔记的内容。同时,我们还可以配合 Obsidian 的别名功能,很轻松的将“土豆种植”关联到“马铃薯种植”上。

运用标题法,我们既避免了像分类法那样复杂的检索标识创建过程,也弥补了关键词法对于同义不同形的词语检索不完全的缺点。这也是为什么 KG 笔记法要以标题法为理论基础的原因。

轻松管理百万字笔记

标题法是对于公众图书馆使用的方法,因此图书馆员在赋予书籍标题时往往需要借助通用的标题表,从标题表中选取合适的标题。而 KG 笔记法是针对个人知识管理的方法,为了降低创建标题的难度,我在设计之初就为其选用了一个更宽容的标题创建原则——任何固定短语都可以成为标题。无论这个短语是否为大众所熟知,只要你觉得某个短语能代表某些信息,那么这个短语就能成为你独特的检索标识,成为你数字花园的独特入口,轻松地带你去到想要去的地方。

kckew-ppskk (2)
写作时搜索“主题语言”相关内容

使用 KG 笔记法,管理知识时只需想想当前知识的主题是什么,应该用什么固定短语来表示这个主题,然后将知识记录到以短语为标题的笔记中去即可。不需要复杂的插件,也不依赖全文搜索,我们仅需要一个文件标题搜索功能,就能在几秒之内在百万字笔记中迅速找到自己所需的知识,何不简单轻松?


周宁. (2017). 信息组织 . 武汉大学出版社.
张燕飞. (2005). 信息组织的主题语言. 武汉:武汉大学出版社.


  • 注1:双向链接实际对应的是引文组织方法,但引文组织方法并不算一种典型的信息组织方法。这种方法的优点在于系统是动态的且自组织的,但缺点在于检索性能很差。所以就算是使用引文组织方法最多的文献数据库(知网、web of science 等),也需要提供其他检索入口供用户使用。如果只有引用和被引关系,在大多数情况下是根本查不了文献的。
  • 注2:块引用也遵循“内容-检索标识-检索系统”这一逻辑——块内容需要由软件赋予一个随机的块 id 作为检索标识,然后储存在软件中;检索时再通过块 id 来查找对应的块内容。但由于块 id 是一个随机乱序的字符串,是完全不面向人类的,因此其查找性能也很差,用户没法通过语义来找到对应的块 id,更无法通过块 id 引出对应内容。所以一般块引用都依赖关键词检索来找对应的块,从这个角度来看,块引用继承了关键词法的缺点。
  • 注3:MOC 实际上就是来源于信息组织学中的主题法,与非电子化时代图书馆的主题卡片目录非常相似。MOC 也遵守“内容-检索标识-检索系统”这一逻辑——当我们写完笔记后需要提炼笔记的主题,然后将该笔记登记到该主题对应的 MOC 笔记中;检索时我们需要思考自己找的主题,然后找到主题对应的 MOC 笔记,该笔记中记录了该主题相关的多篇笔记,我们再从中选择自己需要的某篇笔记。MOC 和 KG 笔记法的区别就在于同一主题的内容是存放在不同的笔记中还是汇总到某篇笔记中。
4 个赞

一般人肯定达不到你这样百万字的笔记,我觉得简单创立几个文件夹剩下的靠标签系统处理,双链作为补充就够了。
我就只创立了收集箱资料箱写作箱这样的文件夹。
收集箱是第一步经过筛选后才放进来的,资料箱是经过转写或是备注后的区域,写作箱就分为项目写作及最近研究的课题资料。
我觉得找一条笔记在ob中大部分肯定是使用快速切换来找文档打开,资讯太多或是忘记关键字的时候我才会去全局搜索或使用标签,而标签系统对我来说不是为了找一条笔记,而是为了找一群笔记,例如我的某个标签是职业/心理学家,那么我就是点进去看有哪些心理学家,这时候还可以建立学派/社会心理学、个体心理学等来进行复合筛选,还可以建立年代/1900~1999来进行又一次的筛选,而双链在于当我找到这些笔记点进去的时候可以为我提供更多的补充信息,而关系图可以让我看见有没有我没发现的关联,这样其实也用不到插件,不过没有插件的ob就…很普通。
PS.不过目前我还没有找到可以批量添加标签的功能,我觉得文件夹赢过标签的一方面就在于可以批量移动等于赋予了他们一个属性。

标签那部分确实写得有些疏漏,已修改。不过总的来说当前笔记软件的标签系统还是没法很好的复现叙词法,词形控制、范畴索引都没有加入,这给用户在使用标签管理大量内容时带来了一些麻烦,让用户不得不用“克制地使用标签”这种自断双臂的使用理念——从理论视角来说,标签优于分类核心就在于标签数量众多,可以任意揭示内容主题。

强调无需插件更多的是想扭转当下一谈 Obsidian、一谈知识管理就必须折腾插件的风气。谈知识管理的时候,其实并不需要涉及什么插件,这本质还是一个学科方法的问题。

1 个赞