第十一章 如何度量网页和查询的相关性

TF-IDF(Term Frequency – Inverse Document Frequency)算法用来度量网页和查询的相关性。

下面简述算法的演变过程:

假设本次搜索的关键词是“原子能”、“的”、“应用”:

首先,根据直觉,包含这三个词较多的网页应该与搜索结果更加相关。但是很容易看出来内容长的网页比内容短的网页更占便宜;所以提出了根据网页长度用关键词的频率进行归一化的改进策略,得到”单文本词频“(Term Frequency),令 为某网页的词汇总数, 为某一个关键词出现的次数,则该关键词的TF为为 。到目前为止,本次查询与该网页的相关性即用各关键词的TF进行求和来表征,即:

其次,我们发现”的“这个词对确定网页主题没有作用,却被考虑在内。我们把这种词称为停止词,计算TF和的时候不将他们考虑在内。

最后我们注意到,”应用“这个词很普通,”原子能“这个词很专业,在确定相关性的时候前者没有后者重要;所以我们对每一个关键词需要确定一个权重,该权重需要满足两个条件:一个词预测主题的能力越强权重越大;停止词的权重为零。为了解决这个问题,我们认为假定一个关键词 个网页中出现过,那么 越大, 的权重越小。在信息检索中使用最多的权重为”逆文本频率指数“(Inverse Document Frequency),其公式为 。从而网页和查询的相关性计算公式由词频的简单求和变成了加权求和,即:

TF-IDF的概念被公认为信息检索中最重要的发明,其概念最早是剑桥大学的斯巴克·琼斯提出来的。

斯巴克·琼斯是剑桥大学计算机女科学家,最著名的言论是:”计算机是如此重要,因此不能只留给男人去做!“