October 27, 2004
分词词典字典下载和词组字典下载::[Misc]

对于中文搜索引擎,切词和分词相当的关键,而对于分词和切词,最重要的莫过于一个好的分词词典了。从原始的电子字典,经过筛选,剔出调单字和极高频字。然后将词频的权重进行换算就得到了这个词典。
感觉还不错,例如中文里最高频的5个词依次是:
词根 权重
中国 152
经济 128
企业 123
国家 119
记者 118
想不到记者也能排到前列。
针对分词的另外一个常用的字典就是中国人的姓名的构成分配表,这个我会在近期发布。
词组字典下载「从ccdos的拼音表里制作」
分词及权重字典「从电子字典统计制作」
Posted at October 27, 2004 02:40 PM by Liang at 02:40 PM
| Comments
(27)
| TrackBack(0)
| Booso!| Niu.la收藏!
Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/634
Comments
第 1 楼:
请教一个问题:关键词相关是怎么实现的?
Posted by: luwei at
November 7, 2004 08:20 PM from 218.108.41.230
第 2 楼:
我想请教一下搜索引擎的数据库是构建的
具体来说就是如何一步步的实现关键词的提取,录入,索引,排序?
热盼您的回音
Posted by: gelifeisi at
December 7, 2004 06:42 AM from 210.83.210.9
第 3 楼:
我想请教一下搜索引擎的数据库是构建的
具体来说就是如何一步步的实现关键词的提取,录入,索引,排序?
热盼您的回音
Posted by: gelifeisi at
December 7, 2004 06:42 AM from 210.83.210.9
第 4 楼:
文中说的“例如中文里最高频的5个词依次是:”值得商榷。根据素材库的不同,这个统计结果会有很大的差别。我看了供下载的那两个词典。里面几万的词,感觉少了些。
另外,我留言,怎么有错:Your comment could not be submitted due to questionable content:
Posted by: jo-hnway at
March 29, 2005 10:28 AM from 202.120.30.249
第 5 楼:
测试一下,看看是不是j-o-h-n这个词被过滤了,果然是被过滤了,这是为什么?我没有发表什么不实的言论吧。
Posted by: jo-hn-way at
March 29, 2005 10:32 AM from 202.120.30.249
第 6 楼:
使用开源形式构建分词词典如何? 可以用Wiki
Posted by: hh at
April 5, 2005 01:00 AM from 219.239.27.194
第 7 楼:
我用一个词典软件的数据,里面有二十多万条词条,觉得那样速度太慢,我觉得这个词典正适合,把它整合一下就行了,但词条太多,手工整合真的好麻烦,谁有兴趣的可以联系我QQ: 2500875,我们一起弄.
Posted by: dbboy at
May 31, 2005 08:51 PM from 219.128.17.156
第 8 楼:
好奇,也想来一个,可是总下不下来!能想想办法么?
Posted by: wgt at
July 2, 2005 06:20 AM from 82.239.137.46
第 9 楼:
我记得99年北大icl就有成熟的东西了吧。
Posted by: tantr_um at
October 28, 2005 12:36 AM from 24.110.198.217
第 10 楼:
无法下载阿
Posted by: as at
November 15, 2005 09:46 PM from 218.249.26.11
第 11 楼:
怎么不能下载,能谈谈具体实现过程吗?
Posted by: 马志强 at
November 22, 2005 10:15 PM from 218.249.146.16
第 12 楼:
ICL的词典太特殊,不是很适合
Posted by: ddboy at
January 5, 2006 05:22 PM from 219.128.10.122
第 13 楼:
不能下载啊
Posted by: mzq_bim at
May 30, 2006 09:39 PM from 218.249.146.16
第 14 楼:
能否发给我一份,我不能下载,谢谢!
Posted by: url at
June 29, 2006 11:28 AM from 211.94.150.25
第 15 楼:
不能下载
Posted by: FD at
July 7, 2006 11:50 PM from 219.82.212.150
第 16 楼:
能否给我发一份中文词典,我现在正在做一个BLOG中的搜索引擎,尚未找到合适的中文电脑词典,多谢了
Posted by: 葛森 at
July 10, 2006 10:55 PM from 222.85.70.246
第 17 楼:
下不了哦,能否发一个给我?
我的QQ是:568477247
谢谢了
Posted by: 梦博吧 at
July 17, 2006 10:19 PM from 219.128.169.212
第 18 楼:
您好,搜到您的帖子后我心里万分激动.现在我正准备动手写一个perl的分词系统,非常期待您的指导.如果能获得您的词库的话万分感激.
此致
敬礼
Posted by: 戴文军 at
July 28, 2006 03:34 PM from 218.249.179.67
第 19 楼:
能否给我一个,谢谢!
woker7970@tom.com
Posted by: ouyangfen at
December 25, 2006 06:22 PM from 203.212.11.19
第 20 楼:
不能下载阿
能发我一份么?
linz.cn@gmail.com
Posted by: leen at
April 5, 2007 03:10 PM from 210.14.76.201
第 21 楼:
能给我发一份这个字典么?
can you send me a copy of the dictionaries? many many thanks.
Posted by: zding at
April 21, 2007 05:10 AM from 209.237.236.227
第 22 楼:
这个下不了,能给我发一份么?多谢多谢阿。
Posted by: zlding at
April 21, 2007 05:14 AM from 209.237.236.227
第 23 楼:
词典下不来呀!
能不能发给我一个呀!yuhong_112@hotmail.com
谢谢了!
Posted by: 于红 at
May 3, 2007 10:27 AM from 221.201.27.214
第 24 楼:
下载不下来 不能能给你一个
谢谢
Posted by: 木龙云子 at
May 10, 2007 02:47 PM from 60.213.161.139
第 25 楼:
不能下载,能否发一个?
谢谢!
Posted by: lich at
May 31, 2007 11:12 AM from 61.132.253.74
第 26 楼:
给我发一份吧,hanying@hc360.com
Posted by: 陶伊妮 at
June 1, 2007 10:20 AM from 203.134.244.24
第 27 楼:
能发我一份吗?ljuan_cai@hotmail.com
谢谢!
Posted by: yaya at
September 24, 2007 03:17 PM from 202.100.200.62
Post a comment
请注意,为了防止spam,您的留言必需含有中文字符!