向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi
(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即 。 
<http://by1.storage.msn.com/y1pAYqIa_c_X5J6aAH09CluB7fK7XTvl_03jnaLrybzNcnSOqBshEE93JOE4ISTi_3zHQU5qG34ufmtd5rE1QBq-dNumF4HH-jQ?PARTNER=WRITER>

<http://by1.storage.msn.com/y1pAYqIa_c_X5J6aAH09CluB7fK7XTvl_03jnaLrybzNcnSOqBshEE93JOE4ISTi_3zHQU5qG34ufmtd5rE1QBq-dNumF4HH-jQ?PARTNER=WRITER>

在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti
的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式: 
<http://by1.storage.msn.com/y1pAYqIa_c_X5IiSxyMqKLReTmax3hNaxyaWQNTtF0OQU6UHLqdlj7rRztfv1NFcU-f4Xx2hstQ3qz8A0-6Aek-FTL6vFeKboLC?PARTNER=WRITER>

<http://by1.storage.msn.com/y1pAYqIa_c_X5IiSxyMqKLReTmax3hNaxyaWQNTtF0OQU6UHLqdlj7rRztfv1NFcU-f4Xx2hstQ3qz8A0-6Aek-FTL6vFeKboLC?PARTNER=WRITER>


<http://by1.storage.msn.com/y1pAYqIa_c_X5L3VOBiGaUM4Ff6p8pg8hDODTPborobd9wqHzviAwyoyuJORMgG_0noCzaTLLUvcGH57flJrAFxpszf-DGXAftH?PARTNER=WRITER>

<http://by1.storage.msn.com/y1pAYqIa_c_X5L3VOBiGaUM4Ff6p8pg8hDODTPborobd9wqHzviAwyoyuJORMgG_0noCzaTLLUvcGH57flJrAFxpszf-DGXAftH?PARTNER=WRITER>


根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。

两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档di,dj的相似度可以表示为


<http://by1.storage.msn.com/y1pAYqIa_c_X5LmTo2BJKRg1JeUNSwJoYO_A7FvzNpwaAZI9pStFXzdM5nusgE2queiRAupkiToKOOe7q5Yvq9X2wPZZxM8QiB7?PARTNER=WRITER>

<http://by1.storage.msn.com/y1pAYqIa_c_X5LmTo2BJKRg1JeUNSwJoYO_A7FvzNpwaAZI9pStFXzdM5nusgE2queiRAupkiToKOOe7q5Yvq9X2wPZZxM8QiB7?PARTNER=WRITER>

进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:

当ti在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即


<http://by1.storage.msn.com/y1pAYqIa_c_X5Ixolzj1vScgbyYIGBjzSvd_I-cpqO579WWQ__IHAG3Ec3ibcCjflciQaxhWSVW5y-b0YqeTH0vvSCX-kbKau9m?PARTNER=WRITER>

从而文档d与查询Q的相似度为


<http://by1.storage.msn.com/y1pAYqIa_c_X5KQTdbY7T_3yPqzLWJCUbZLD8oXImgeWwdTr8427tXEFLf0D4KBpoJh4ygWTv5tpFHv7OYj6s15X3YttXbsLnHY?PARTNER=WRITER>

根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档子集。

在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。

向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:[email protected]
QQ群:637538335
关注微信