October 27, 2004

分词词典字典下载和词组字典下载::[Misc]


Liang

对于中文搜索引擎,切词和分词相当的关键,而对于分词和切词,最重要的莫过于一个好的分词词典了。从原始的电子字典,经过筛选,剔出调单字和极高频字。然后将词频的权重进行换算就得到了这个词典。

感觉还不错,例如中文里最高频的5个词依次是:

词根 权重

中国 152
经济 128
企业 123
国家 119
记者 118

想不到记者也能排到前列。

针对分词的另外一个常用的字典就是中国人的姓名的构成分配表,这个我会在近期发布。

词组字典下载「从ccdos的拼音表里制作」
分词及权重字典「从电子字典统计制作」

Posted at October 27, 2004 02:40 PM by Liang at 02:40 PM | Comments (27) | TrackBack(0) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/634

Comments

第 1 楼:

请教一个问题:关键词相关是怎么实现的?

Posted by: luwei at November 7, 2004 08:20 PM from 218.108.41.230

第 2 楼:

我想请教一下搜索引擎的数据库是构建的
具体来说就是如何一步步的实现关键词的提取,录入,索引,排序?
热盼您的回音

Posted by: gelifeisi at December 7, 2004 06:42 AM from 210.83.210.9

第 3 楼:

我想请教一下搜索引擎的数据库是构建的
具体来说就是如何一步步的实现关键词的提取,录入,索引,排序?
热盼您的回音

Posted by: gelifeisi at December 7, 2004 06:42 AM from 210.83.210.9

第 4 楼:

文中说的“例如中文里最高频的5个词依次是:”值得商榷。根据素材库的不同,这个统计结果会有很大的差别。我看了供下载的那两个词典。里面几万的词,感觉少了些。

另外,我留言,怎么有错:Your comment could not be submitted due to questionable content:

Posted by: jo-hnway at March 29, 2005 10:28 AM from 202.120.30.249

第 5 楼:

测试一下,看看是不是j-o-h-n这个词被过滤了,果然是被过滤了,这是为什么?我没有发表什么不实的言论吧。

Posted by: jo-hn-way at March 29, 2005 10:32 AM from 202.120.30.249

第 6 楼:

使用开源形式构建分词词典如何? 可以用Wiki

Posted by: hh at April 5, 2005 01:00 AM from 219.239.27.194

第 7 楼:

我用一个词典软件的数据,里面有二十多万条词条,觉得那样速度太慢,我觉得这个词典正适合,把它整合一下就行了,但词条太多,手工整合真的好麻烦,谁有兴趣的可以联系我QQ: 2500875,我们一起弄.

Posted by: dbboy at May 31, 2005 08:51 PM from 219.128.17.156

第 8 楼:

好奇,也想来一个,可是总下不下来!能想想办法么?

Posted by: wgt at July 2, 2005 06:20 AM from 82.239.137.46

第 9 楼:

我记得99年北大icl就有成熟的东西了吧。

Posted by: tantr_um at October 28, 2005 12:36 AM from 24.110.198.217

第 10 楼:

无法下载阿

Posted by: as at November 15, 2005 09:46 PM from 218.249.26.11

第 11 楼:

怎么不能下载,能谈谈具体实现过程吗?

Posted by: 马志强 at November 22, 2005 10:15 PM from 218.249.146.16

第 12 楼:

ICL的词典太特殊,不是很适合

Posted by: ddboy at January 5, 2006 05:22 PM from 219.128.10.122

第 13 楼:

不能下载啊

Posted by: mzq_bim at May 30, 2006 09:39 PM from 218.249.146.16

第 14 楼:

能否发给我一份,我不能下载,谢谢!

Posted by: url at June 29, 2006 11:28 AM from 211.94.150.25

第 15 楼:

不能下载

Posted by: FD at July 7, 2006 11:50 PM from 219.82.212.150

第 16 楼:

能否给我发一份中文词典,我现在正在做一个BLOG中的搜索引擎,尚未找到合适的中文电脑词典,多谢了

Posted by: 葛森 at July 10, 2006 10:55 PM from 222.85.70.246

第 17 楼:

下不了哦,能否发一个给我?
我的QQ是:568477247
谢谢了

Posted by: 梦博吧 at July 17, 2006 10:19 PM from 219.128.169.212

第 18 楼:

您好,搜到您的帖子后我心里万分激动.现在我正准备动手写一个perl的分词系统,非常期待您的指导.如果能获得您的词库的话万分感激.
此致
敬礼


Posted by: 戴文军 at July 28, 2006 03:34 PM from 218.249.179.67

第 19 楼:

能否给我一个,谢谢!
woker7970@tom.com

Posted by: ouyangfen at December 25, 2006 06:22 PM from 203.212.11.19

第 20 楼:

不能下载阿
能发我一份么?
linz.cn@gmail.com

Posted by: leen at April 5, 2007 03:10 PM from 210.14.76.201

第 21 楼:

能给我发一份这个字典么?
can you send me a copy of the dictionaries? many many thanks.

Posted by: zding at April 21, 2007 05:10 AM from 209.237.236.227

第 22 楼:

这个下不了,能给我发一份么?多谢多谢阿。

Posted by: zlding at April 21, 2007 05:14 AM from 209.237.236.227

第 23 楼:

词典下不来呀!
能不能发给我一个呀!yuhong_112@hotmail.com
谢谢了!

Posted by: 于红 at May 3, 2007 10:27 AM from 221.201.27.214

第 24 楼:

下载不下来 不能能给你一个
谢谢

Posted by: 木龙云子 at May 10, 2007 02:47 PM from 60.213.161.139

第 25 楼:

不能下载,能否发一个?
谢谢!

Posted by: lich at May 31, 2007 11:12 AM from 61.132.253.74

第 26 楼:

给我发一份吧,hanying@hc360.com

Posted by: 陶伊妮 at June 1, 2007 10:20 AM from 203.134.244.24

第 27 楼:

能发我一份吗?ljuan_cai@hotmail.com
谢谢!

Posted by: yaya at September 24, 2007 03:17 PM from 202.100.200.62

Post a comment

请注意,为了防止spam,您的留言必需含有中文字符!









Remember personal info?




所有发表