October 20, 2004

网页自动分类引擎::[Search Engine]


Liang

对于搜索引擎来说,能够自动的识别网页的类别还不够,因为一个网页的类别往往不是单独的,而是在不同的分类基础上有不同的分类结果,本文在这里再次给出信噪比这个概念:

信噪比是一个用来衡量网页里关键词的信息是否超过一定的阈值的关键:


网页信噪比(Significant)

一个网页针对不懂的搜索词有一个信噪比的概念,信噪比Significant的定义如下:
Sig=(Sqrt(Ns)/(Sqrt(Nb)))*Log(Nb)
Ns为被搜索词出现的次数,Nb是背景项,是指总共这个网页里包含的词汇量。

这是针对单个搜索词语而言的, 如果针对多个词语,通常是采用
Sig=Sigma(Sig_i),这个Sig_i是第i个词汇的信噪比。

通常的情况下如果一个网页的Nb背景项将相对稳定,可以采用Nb+Ns来代替。

博索的网页自动分类引擎是第一个在线计算网页信噪比的在线搜索引擎,可以根据booso的结果进行整理分类,可以知道为什么在搜索引擎里那些拍名最靠前的网页能够上榜的原因了。

上图的绿色表示权重,粉红表示信噪比。

Posted at October 20, 2004 04:56 PM by Liang at 04:56 PM | Comments (3) | TrackBack(0) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/617

Comments

第 1 楼:

不错,但这只是理论,实际是否有其他因素修正呢

Posted by: 文学 at October 30, 2004 02:17 PM from 218.83.183.44

第 2 楼:

but i want to know what's the meaning of the 权重

[url=http://www.yeedo.net]made in china[/url]

Posted by: sean at May 1, 2005 12:54 AM from 60.182.79.200

第 3 楼:

没搞明白,信噪比和分类有啥关系

Posted by: LL at September 9, 2005 12:03 AM from 202.106.180.62

Post a comment

请注意,为了防止spam,您的留言必需含有中文字符!









Remember personal info?




所有发表