原文见知乎文章,本文首发于2021年7月23日。文中所述方法是目前我所用的知识组织方法,相比起这篇回答,文中方法弱化了分类法与主题法的比例,更注重于知识点的判断和拆分。目前个人知识组织方法的1.0、2.0、3.0已经构建完成,正在写一个大的教程vault,以供各位就自己的情况选择适合自己情境的组织方法。(截止2021年10月28日已完成13k字。)
引言
双链笔记爆发至今已经有一年多的时间了。在这一年中,各式各样的笔记方法教学层出不穷。尽管如此,双链笔记中的关系图谱仍是一块未被开垦的处女地——大多数笔记方法都未涉及关系图谱的利用,笔记软件的用户也普遍认为复杂、密集的关系图谱除了在朋友圈装逼之外别无他用。本文的目的正是要改变大家对关系图谱的印象,帮助大家更好的理解关系图谱的使用方法。
知识图谱
既然想更好地使用关系图谱,那么就必须了解如何用图来表示知识。知识图谱正是用图来表示知识的一门技术。
知识图谱概述
狭义上来说,知识图谱特指一种知识表示方式,其本质上是一种大规模语义网络,即以图形化的形式、通过点和边来表达知识[1]。知识图谱的基本组成元素是点和边,点用来指代现实世界中的具体事物(实体),边用来指代事物之间的关系。现实中很多知识都可以用“实体-关系-实体”这样的三元组形式来表示。比如,“亚里士多德出生于 Chaicis”这样一条知识就可以用<亚里士多德,出生地,Chalcis>的形式来表示。
图 1 用三元组表示“亚里士多德出生于 Chaicis”
除了“实体-关系-实体”这样的形式外,知识图谱还可以表示“实体-属性-属性值”这样的知识。比如,“雅典的英文名是Athens”则可以用<雅典,英文名,Athens>的形式来表示。
图 2 用三元组表示“雅典的英文名是Athens”
感兴趣的读者可以到全历史 (allhistory.com)和金融知识图谱 (jd.com)上体验真实的知识图谱。
知识图谱的应用
基于这种图形化的知识表示方法,知识图谱可以实现一些传统搜索无法实现的应用,比如构造依赖链来辅助决策。
现在,我们越来越不满足于传统搜索返回的“叶莉是姚明的妻子”这样的简单答案,而是希望通过搜索发现一些深层、潜藏的关系。比如,在王宝强离婚的时候,我们就想知道他为什么要找张起淮当律师。传统的关键词搜索无法告诉我们答案。但是,通过人物知识图谱,我们就可以很好地发现这背后的逻辑:人物关联图谱显示王宝强与冯小刚关系很好,冯小刚又经常与徐静蕾和赵薇两位演员合作,而张起淮正好是这两位演员的法律顾问。知识图谱把零散的关系整合成系统的关系链路,在一定程度上揭示了王宝强与他的律师之间的深层次关联,也解释了王宝强为何选择这位律师[1]。
图 3 通过人物知识图谱发现深层次联系
金融领域也有类似的应用。在金融领域,我们十分关注投资关系,比如某个投资人为什么要投资某家公司;我们也会十分关注金融安全,比如给他人借贷时我们需要通过分析与贷款人相关的人物和公司的信用评级,从而更好地进行信贷决策。此时,建立包含各种语义关联的知识图谱,构造实体间的依赖链,挖掘这些实体之间的深层关系,就显得十分重要了[1]。因此,知识图谱已经成为决策分析的重要辅助手段,为决策支持提供深层关系发现与推理能力。
其实,这样的关系链路不仅能用于人物、公司间的深层关系分析,也能用于科研方面。比如伯克利实验室就通过知识图谱对COVID-19进行药物预测(FLC, 2020)。从这个角度来看,创新其实也是一个挖掘实体间深层关系的过程。科学研究中的创新,很多时候就是发现看似没有联系的事物、概念之间的深层联系。这也是为什么卡片笔记法强调要通过笔记之间的联系来产生洞见的原因。但遗憾的是,卡片笔记法并未对这种“联系”给出更有可操作性的说明,且卡片笔记法又局限在传统纸质笔记中,这些因素都使得笔记间的联系难以被揭示和利用。好在随着知识图谱技术的成熟以及笔记工具的不断更新,我们完全可以把知识图谱这门学科的思路借鉴到自己的笔记软件中,在软件中构造一个属于自己的知识图谱,从而促进自己的创新。
说到这里,你可能已经开始跃跃欲试了。但转念一想,你便会觉得这根本无从下手:知识图谱中的点和边都只有寥寥数字,但一篇笔记动则成百上千字,而且一篇笔记中往往包含数不清的实体与联系,这种情况下该如何在软件中构造知识图谱?比如,下图中“刘德华”这篇笔记就包含了<刘德华,同学,吴家丽>、<刘德华,同学, 梁家辉>、<刘德华,同学, 徐锦江>等一系列知识,这些知识在知识图谱中应该表示为多组点与边,但其在笔记软件中只表示为一个点。这该如何是好?
图 4 软件图谱和知识图谱无法对应
要解决这个问题,我们需要借助文献主题这个概念。
文献主题
文献主题是概括文献中心论题的一个或若干概念的组合[2],用以表达文献所论述和研究的具体对象和问题[3]。简单来说,文献主题有点像我们小学语文阅读题中概括出来的文章主旨一样,只不过文献主题更精炼一些。
依据论述问题数量的多少,文献可分为单主题文献和多主题文献两种类型[2]:
-
单主题文献是指一篇文献只研究一个中心问题或事物,即只有一个主题。单主题文献可以是论述一个独立的事物、问题,如《市场经济》、《高等数学》、《信息咨询》等文献名称都反映了文献只有一个主题;也可以是论述一个事物或问题的某个方面,如《高等教育改革》、《市场经济的调查》、《竞争情报的咨询与技能》等。
-
多主题文献是指一篇文献同时研究两个或两个以上的事物或问题, 即包含多个主题。多主题文献可以同时论述多个独立的主题,如《控制论、信息论、系统科学和哲学》这篇文献就涉及控制论、信息论、系统科学和哲学等多个主题;也可以同时论述几个相关联的主题,比如《太阳系、地球、小行星》、《理论力学、材料力学、弹性力学》、《热力学与统计物理学》等。但如我在先前文章中所述,一篇笔记不应该包含多个主题。
对于每个主题,我们可以根据构成因素的多少将其分成以下几种类型[2]:
-
单元主题。单元主题指主题中只含有一个主题因素,我们只需要一个词就能概括文献的主题。比如《传热学》、《激光》这两篇文献,我们只需要使用传热学、激光两个词就可概括其主题。
-
复合主题。复合主题是指主题中含有两个或两个以上的主题因素,是一种比较复杂的主题。根据主题因素之间的关系,复合主题又可分为以下几种不同的类型:
a) “事物——部分”型,如计算机存储器、人的心脏等。
b) “事物——方面”型,如大黄鱼养殖、传染病预防等。
c) “事物一部分一方面”型,如拖拉机发动机故障诊断。
d) “事物——比较——事物”型,即事物间的比较关系,比如中美文化比较。
e) “事物——关系——事物” 型,即事物间的相互关系,比如鱼与水的关系。
f) “事物——影响——事物” 型,即事物间的影响关系,比如风速对运动成绩的影响。
g) “事物——应用——事物” 型,即事物间的应用关系,比如数学在农业中的应用。
h) “原因——结果”型,即事物间的因果关系,比如糖尿病眼病。
从以上定义我们不难看出,文献主题可以将文献中成百上千字表达的信息浓缩成一个或多个概念。其中,描述事物整体或部分的主题,可以视为实体,对应知识图谱中的“点”;描述事物之间关系的主题,可以视为关系,对应知识图谱中的“边”。因此,基于笔记的主题,我们就能完成笔记与知识图谱之间的对应,从而实现个人知识图谱的构建。
在Obsidian中构建个人知识图谱
下面,以Obsidian为例,我们开始在笔记软件中构建我们的个人知识图谱。
实现思路
在开始之前,我们先进一步明确构建思路。为了在Obsidian中构建知识图谱,我们需要将笔记分成以下两类:
-
实体笔记:实体笔记指的是论述事物、概念、理论或论述其某方面的笔记。这类笔记对应知识图谱中的实体(点)。
-
关系笔记:关系笔记指的是论述多个事物或概念间关系的笔记。这类笔记对应知识图谱中的关系(边)。
通过以上两种笔记,知识图谱“实体(点)-关系(边)-实体(点)”的形式就可以在Obsidian中表示为“实体笔记(点)-关系笔记(点)-实体笔记(点)”。换句话说,我们在Obsidian中通过一篇单独的笔记来表示两个实体间的关系。
图 5 通过单独的笔记来表示两个实体间的关系
如果是两个以上实体间的关系,也是类似的。
图 6 多个实体存在关系的情况
当然,只有那些复杂的、需要详细说明的关系才需要这么处理。并非什么关系都需要通过单独的笔记来说明、表示,有的关系还是很简单的。比如,“狮子是一种动物”,这个关系就非常简单,无需过多说明。对于这种情况,我们在Obsidian中直接链接两篇笔记即可:即在“狮子”这篇笔记中链接“动物”这篇笔记即可。
图 7 通过直接链接来表示简单关系
这里再补充一种更复杂一点的情况。假设这里有三个实体x、y、z,x和y间存在复杂关系,而z对x与y的关系又有特殊的影响,即实体和关系间存在关系。此时,我们也是新建一篇关系笔记来表示实体和关系之间的关系。
图 8 实体与关系存在关系的情况
这样,我们就能通过Obsidian的关系图谱来模仿知识图谱了。
在Obsidian中构建好图谱后,我们可以通过Obsidian的Journey插件来模拟知识图谱的路径搜索[4],从而挖掘笔记间的深层联系。比如,我想知道a和z间的关系情况,那我只需在Journey插件中以a为起点、以z为终点进行搜索即可:
图 9 通过Journey插件发现深层联系
如果a、c、y、z分别代表一些研究上的事物的话,或许一个新的研究想法就产生了。
实际操作
下面,我们对实际记录时出现的情况进行讲解,并顺便补充一些操作细节。
情况1:记录与细化
我们常常是在学习新领域、新知识的时候做笔记。因此我们先从这种情况开始说起。
1. 先在一篇笔记上记录
任何领域都是从一个基本概念开始的。因此,我们在这个领域的笔记也应该从该领域的基本概念出发,从创建这个领域的实体笔记开始。
比如我在看《知识图谱》这本书,那我关于知识图谱的第一篇笔记就应该是名为“知识图谱”的笔记。然后边阅读边在这篇笔记上记录。
图 10 在名为“知识图谱”的笔记中记录
这样做的好处主要有三点:
-
让我们在学习新知识时无需过多思考笔记结构,降低认知负载(Colliot & Jamet, 2018),从而将注意力充分集中在学习上。
-
能充分汇总相关内容,即便日后不整理,也能通过概念名称进行查找。
-
可以充分利用Obsidian别名功能完成词形控制,为检索提供多个入口。比如知识图谱这个概念,有的地方也会称其为“认知图谱”,那我就可以为“知识图谱”这篇笔记添加“认知图谱”这一别名,这样日后无论我搜索“知识图谱”还是“认知图谱”都能找到这篇笔记,Obsidian也能更好地帮我发现其他笔记与该笔记间的关联。
另外,记录的时候我们可以在观点后面留下引用标记,比如上图中我就用citekey标明了内容的出处与页码。这样日后我再看这些内容的时候也能清楚的知道每部分的出处。
2. 拆分
随着学习的深入,这篇笔记的篇幅将变得越来越大,笔记中开始出现细分主题:比如讨论知识图谱概念的部分、讨论知识图谱分类的部分等等。此时,我们就需要对笔记进行拆分。
图 11 臃肿的笔记
拆分很简单,把论述细分主题的部分移到新笔记中即可。
图 12 对笔记进行拆分
3. 为新笔记命名
拆分后,我们要给新笔记起一个名字。需要注意的是,命名不能随意命名,随意命名容易造成后期检索上的困难。比如,如果我们将一篇主题为“七七事变的历史意义”的笔记命名为《77事变的历史意义》,那么日后我们使用“七七事变”这个词进行检索时就无法查找到这篇笔记了。这也是很多人在使用笔记软件时都会出现的共性问题。为了解决这个问题,图书馆学家们提出了相应的解决办法。受篇幅所限,此处不过多说明,我们仅需要记住命名时每个概念只使用一个标准名称即可,不要今天用x、明天用y。(图书馆中使用的标准词语可到汉语主题词表服务系统 (istic.ac.cn)中查询。)另一点就是笔记的标题要充分揭示笔记主题,标题中就要包含事物名、关系名等部分,比如主题为“机器学习在管理学中的应用”的笔记就不能命名为“机器学习管理学”,否则日后我们就无法通过“机器学习”、“应用”等直接相关的关键词查找到这篇笔记。
图 13 对新笔记尽可能规范的命名
4. 链接
然后,我们应该在原笔记中链接这篇新创建的笔记。由于新笔记和原笔记是部分和整体的关系,因此其和原笔记间的链接无需详细说明,直接在原笔记中链接新笔记即可。
图 14 在原笔记中链接新笔记
5. 归档
完成后将笔记归入相关分类中。具体归类方法见先前文章。
注意事项
这种情景需要注意的是不要矫枉过正,不要看到新名词出现就拆分笔记。我们关注的应该是主题,只有当某部分内容足够多的时候,其才能成为新主题,才需要我们拆分。
情况2:发现笔记间的联系
做笔记时另一个常见的情景就是发现笔记间存在关系,需要链接。这可以分成以下两种情况。
-
两篇笔记间存在无需说明的关系。这种情况非常常见,比如“a是一种b”、“参见笔记xxx”等。由于关系无需详细说明,因此我们在笔记中直接链接即可,比如“a是一种[[b]]”。
-
两篇笔记间存在需要说明的关系。这常常表现为一篇笔记想要引用另一篇笔记中的内容。比如下图中,我想在“笔记”这篇笔记中引用绿色部分的内容。这实际意味着“笔记”和“知识图谱”这两篇笔记(或者说其对应的概念)间存在关系。
图 15“笔记”想引用“知识图谱”中的内容
为了解决第二种情况,有人提出了块引用这种方式。但我并不推荐使用块引用[5],而是采用如下处理方法。
首先,将需要引用的内容新建为一篇笔记,并对其命名。此处考虑到引用内容主要讲述的是将知识图谱的思想应用于笔记中,因此将新笔记命名为“知识图谱-应用-笔记”。
图 16 将引用内容独立为一篇笔记并命名
然后,在相关笔记中链接新建的笔记。
图 17 在相关笔记中链接新笔记
这样,软件图谱中就会将两个概念(两篇笔记)的联系表示出来了。
图 18 关系图谱中的表现形式
最后再将新笔记归入相关分类中即可。具体归类方法见先前文章。
这里需要注意的是,不要在关系笔记中直接链接实体笔记。因为这可能会造成一些不恰当的链接。仍是刚刚这个例子。假设我已经有一篇名为“知识图谱-应用”的笔记总述知识图谱在其他领域的应用,此时我如果在“知识图谱-应用-笔记”这篇笔记中直接通过反向链接功能链接“知识图谱”这篇笔记,那就会产生以下不恰当的链接(新笔记没有链接到“知识图谱-应用”上,而是直接链接到了“知识图谱”)。
图 19 恰当的链接和不恰当的链接
如果关系涉及两个以上的实体,也是如此操作:将引用部分内容独立,然后在相应的实体笔记中分别链接。
图 20 关系涉及多个实体的情况
如果是一个实体和一个关系间存在关系,则创建新笔记后在实体笔记和关系笔记中链接新的关系笔记即可。
图 21 实体和关系间存在关系的情况
情况3:补充内容
除了开辟全新的领域,我们还经常要为熟知的领域补充新的内容。
补充内容的操作非常简单。首先在软件中进行搜索,看看要补充的内容是否已经存在知识库中(此时就体现了规范命名的好处,可以精准检查内容是否存在于软件中):
- 如果已有论述相应主题的笔记,则对比该笔记中所记录内容和当前内容的相似程度,并再决定是否补充。
- 如果没有论述相应主题的笔记,则新建笔记。
- a) 如果论述的是一个全新的实体(比如具体的事物、概念、理论),创建后直接归档即可;
- b) 如果论述的是某个实体的某个部分,创建新笔记后还应在论述整体的实体笔记中链接该笔记;
- c) 如果笔记论述的是关系,创建新笔记后还应在关系涉及的实体笔记中链接该笔记。
总结
要在笔记软件中构造属于我们自己的知识图谱,我们只需做到以下几点即可:
-
任何内容都应该从其基本概念开始记录,随后再细分。
-
当细分主题出现时,拆分笔记。这主要有两种情况:1)从论述整体变成论述部分;2)当笔记与其他笔记产生联系(具体常表现为两篇笔记都要引用同一段内容)。
-
链接笔记:
-
若两篇实体笔记间存在无需说明的关系,如“a是b”、“参见”等,直接通过方括号链接。
-
关系笔记只能被实体笔记链接,不能直接链接实体笔记。
贡献
本文借助文献主题这一概念,将知识图谱的思路应用到笔记软件图谱中来,从而让用户能通过软件图谱收获更多洞见。
其次,本文为“原子化”提出了一个比较具有实际操作性的定义:即一个主题一篇笔记。这为实际操作提供了更明确的指导。
最后,本文提倡借鉴主题标目作为笔记名称,强调了笔记标题的标准化,这一定程度上能降低后续检索的障碍。
不足
首先,这种使用方式也继承了知识图谱缺点,即对于表述复杂关系知识的表示能力较差。虽然上文所述方法已尽可能解决这个问题,但实际操作中仍可能存在一定的困难。
另外,知识图谱是基于大量数据通过自动或半自动方式构建的,实体间丰富的关系是其应用价值的关键所在。而我们的图谱是阅读之后通过手动记录笔记生成的,记录初期节点少、关系不丰富,难以通过图谱发现深层关系也是必然的。我们只有在阅读了一定量的文章、往笔记软件中输入一定量的信息后,我们才能借助图谱来产生新的观点。否则,创新就是无米之炊了。
Q&A
1. 为什么要把相同主题的内容都集中到一篇笔记上,而不按作者拆分,或者是“一段内容一篇笔记”?
这主要有两点原因。首先是“一段内容一篇笔记”会带来很大的管理成本——每条笔记都要完成分类或主题标引等操作,这样才能保证日后的复用。所以直接插入已有笔记中可以大幅降低管理成本。
另外,传统的信息组织方式就是按先作者再主题的方式进行组织的——世界上不同的人可能就同一个主题写了不同文献。图书馆管理员为了方便我们查找,会将不同作者写的但主题相同的文章通过相关方法(分类法、主题法)聚集起来。但即便这样,相同的信息还是分散在不同作者的文章中的。(想想我们写论文时做文献综述有多痛苦。)因此,我们要反过来,先主题后作者,把相同的内容放到一篇笔记中,慢慢形成对该主题的综述,这样我们日后就容易查找了。为什么我们会觉得Citavi好用,很容易产出文章的综述,正是如此。
2. 实体笔记怎么分类?
实体笔记很好分类,由于其往往对应一个概念,因此直接去汉表看该概念所属的范畴即可。关系笔记则按分类法相关规定处理。