另一方面,idf 试的重要性。
为此,它基于该短语在一组文档中重复的总次数。
将 idf 添加到等式中有几个优点,例如,避免为“the”、“of”、“that”等术语分配高分,因为这些术语肯定具有非常高的 tf,但 idf 却相当低。
我们来看一个简单的例子:
我们有两个相似的关键词“汽车保险”和“汽车保险”,在同一篇 1,500 字的文档中重 巴林 WhatsApp 数据 复出现。第一个短语重复了 7 次,第二个短语重复了 4 次。
使用其中一个公式来计算 tf,我们得到:
考虑 500,000 份不同的文档,其中 75,000 份包含关键词“汽车保险”,30,000 份包含“汽车保险”。
因此 idf 将是:
我们到达了:
tf*idf 1 = 2.0542
tf*idf2 = 2.5928
因此,我们可以看到,最终,文本中“汽车保险”的重要性大于“汽车保险”,尽管后者重复的次数更多。
在这种情况下,我们希望多包含几次“汽车保险”,而不是“汽车保险”。