January 25, 2005
对搜索引擎中文分词改进的测试::[Search Engine]

基于我以前制作的分词词典和词组字典 对现有的分词手段进行了简单的改造,主要是针对常用的人名和姓名的判断,并利用我制作的字典,能够进行相对科学的分词分析。我一直说要发布中国人名的词典,这个将会显著改善分词的不确定性,无奈实在精力有限,一直无暇制作,不果定下最后期限,春节前中国人名排序词典一定ready。
在下面的文本框里输入一段文字,就可以进行分词的分析:
例如对上文的文字进行分词,其结果如下:
基于#我#以前#制作#的#分#词#词典#字典#和#词组#字典#对#现有#的#分#词#手段#进行#了#简单#的#改造#,#主要#是#针对#常用#的#人名#和#姓名#的#判断#,#并#利用#我#制作#的#字典#,#能够#进行#相对#科学#的#分#词#分析#。#我#一直#说#要#发布#中国#人名#的#词典#,#这个#将#会#显著#改善#分#词#的#不#确定#性#,#无奈#实在#精力#有限#,#一直#无暇#制作#,#不#果#定下#最后#期限#,#春节#前#中国#人名#排序#词典#一定#ready#。
#在#下面#的#文本#框#里#输入#一#段文字#,#就#可以#进行#分#词#的#分析#
其中空格用“#”替代,基本上结果满意。
分词测试续: 需要一个专业术语词典和一个人命/公司/机构名称词典。
Posted at January 25, 2005 06:05 PM by Liang at 06:05 PM | Comments (48) | TrackBack(4) | Booso!| Niu.la收藏!Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/703
想知道全全中国有多少人的名字和你一模一样么? 最近在整理中文分词的时候特意整理了一个中国人姓名的词典,做了相当量的统计,基本上可以计算全中国有多少人的名字和你完全一模一...
Trackbacked from http://blog.wespoke.com/archives/000907.html with 查查全中国有多少人的名字和你一模一样 on 六翼的天使.
想知道全全中国有多少人的名字和你一模一样么? 最近在整理中文分词的时候特意整理了一个中国人姓名的词典,做了相当量的统计,基本上可以计算全中国有多少人的名字和你完全一模一...
Trackbacked from http://www.wespoke.com/archives/000906.html with 查查全中国有多少人的名字和你一模一样 on 搜索引擎研究.
五笔词库·中文分词·一种研究作家作品的方法 事情不少,自己却没有状态去作,随便看了看网上昨天发的帖子,再在自己电脑上看到几个文件,不禁想起自己去年投入在五笔词库制作中的一...
Trackbacked from http://wozy.blogs.com/blog/2005/03/post_2.html with 你知道王小波《黄金时代》中用得最多的词组是啥? on 窝子的世外桃源.
输入法词库·中文分词·一种研究作家作品的方法 事情不少,自己却没有状态去作,随便看了看网上昨天发的帖子,再在自己电脑上看到几个文件,不禁想起自己去年投入在五笔输入法词库制...
Trackbacked from http://wozy.blogs.com/blog/2005/03/post_2.html with 你知道王小波《黄金时代》中用得最多的词组是啥? on 窝子的世外桃源.
Comments
“研究生命起源”,分的不对,不知道6e都应用了什么消歧规则
Posted by: Jia Mi at January 25, 2005 08:29 PM from 202.108.130.138“#研究生#命#起源#”#,#分#的#不对#,#不知#道 6e 都#应用#了#什么#消#歧#
研究生 和 生命/起源 看来还是没有做好权重分析。
Posted by: 6e at January 25, 2005 08:32 PM from 67.166.162.163还不错,不过,还不够理想,看:
1 、#贺卡#类型#是 Flash 贺卡
2 、#稿费#将#视#贺卡#作品#的#水平#而#定#,#一旦#采用#,#贺卡#稿酬#为#一#次#付清#,#稿费#金额#为#: 50-300 元#。
3 、#稿费#将#按照#作者#提供#的#银行#帐#号#及#作者#姓名#,#每月 10 日#结算#(#遇#周末#或#假日#顺延#)#,#并#在 8 日内#汇#出#。#由于#银行#的#操作#流程#,#可能#会#有#几#天时#间#上#的#误差#;#原来#还#没#提供#银行#帐#号#的#用户#请#把#开户行 ( 必须#是#工商#银行 ) 、#帐#号#和#姓名#通过 email 发#到 hht@silversand.net 。#请#注意#, 你#发信#的 email 必须#是#你#注册#时#所#填写#的 email ,#同时#注明#你#的#笔名#和#注册 ID 。#身份#无法#确认#者#,#不予#修改#。#对于#用户#提供#不#正确#的#资料#而#导致#稿费#收#不#到#的#,#本站#不#负#相关#责任#。
4 、#碧海#银#沙#心意#坊#保留#根据#需要#调整#稿费#的#权利#。#如#调整#稿费#,#将#会#提起 10 天公#布#。
5 、#对于#采用#程序#或#其他#不#正当#方法#恶意#增加#发#卡#量#来#获取#稿费#的#行为#,#本站#保留#按照#相关#规定#追究#责任#的#权利#。
6 、#本次#征稿#活动#的#解释#权#归#碧海#银#沙#网站#所有#。
国际图联大会上3M公司展示其RFID系统,分成: "2001 年 67 届#国际#图#联大#会上 3M 公司#展示#其 RFID 系统#"。应该是"国际#图联#大会"。看来辞典中除了需要增加人名外,还有有团体名称缩略形式。
Posted by: cat wizard at January 26, 2005 07:21 AM from 220.234.84.172速度一般,Perl 写的,200K的文档要5秒 @ 1G/512M PIII Linux
6e:
我试了一下你这个分词大法,真是聪明:)
不过有一个小地方建议修改一下:“金庸”被分成两个字了。
信 子 的 人 有 永 生 . 不 信 子 的 人 得 不 著 永 生 、 〔 原 文 作 不 得 見 永 生 〕 神 的 震 怒 常 在 他 身 上 。
若 有 人 名 字 沒 記 在 生 命 冊 上 、 他 就 被 扔 在 火 湖 裡 。
Christ died for our sins -
Believe on the Lord Jesus Christ, and thou shalt be saved
太好了,期待能够再完善一下。支持,你太伟大了。不知道能不能提供啊?
Posted by: atao at February 1, 2005 01:59 AM from 218.28.14.139真佩服6e的分词,居然把“配上水果”分为:
#再#配#上水#果#。
上水?香港地名啊?
Posted by: =^_^= at February 6, 2005 02:54 AM from 218.19.40.74如果加上人名词典的话,错误率估计会很高,很多次会被误认为是人名。
"研究生命起源"这具有问题,建议采用正向和逆向同时扫描,对得到的结果再做对比
例如对上文的文字进行分词,
例如#对#上文#的#文字#进行#分#词#
错误在于 分词
我个人理解是 你的词典中没有收集到 分词
个人觉得 你所使用的词典不足,我是做大词库输入法的,搜集到的词有几十万.其中包含大量的新词.并带有出现的词频.
觉得 在处理的时候如果加上 词频 和词的属性分析(动词\名词\...)估计会更准确些.资料我比较全
很有意思,有论文或者论文草稿吗?可不可以发给我看一看?如果是还没有发表的论文的话,我保证不外传,仅是私人兴趣。另外我特别好奇那个估算不常用名同名人数上限的统计分析是怎么做的。
在处理名人的姓名时,分词就有问题了。分词词典和词组字典还有待完善!继续努力啊。
Posted by: asddsa at February 17, 2005 12:51 PM from 61.160.76.70这个分词系统对下面的句子没招:)
张华平和曹勇刚才出来啊
应该是: 张华平#和#曹勇刚#才#出来#啊
本系统分错了50%,不信大家试试:p
"企业信息和服务"被切为"企业#信息#和服#"
//嘿嘿,和GOOGLE以前的算法有相同的毛病,非要切出来个“和服”(现在GOOGLE算法改进了,已不再切出“和服”了!)。
//搞笑,看来算法还是不够符合中文。
Posted by: ssss at February 23, 2005 12:25 AM from 210.73.83.154搜索引擎技术交流,QQ群:9489544
欢迎加入。
自己作过输入法词库,对中文分词也有点兴趣。前几天在自己博客上写了篇有关这方面的文章,本是Trackback Ping到这里来的,但好像无效,所以在这留个言,有兴趣的不妨一看,并欢迎指导意见:)
文章链接:http://wozy.blogs.com/blog/2005/03/post_2.html
分词和标注现在最流行的算法还是HMM(隐马模型)吧?
这种算法对于组合歧义和交集型歧义的处理要比一般的正逆向匹配好。
下面这个网址是一个二元HMM分词的演示程序
http://mtgroup.ict.ac.cn/~zhp/ICTCLAS.htm
您做的工作很有意思
我试了一段比较专业的文字
人工#游泳池#水#消毒#效果#鉴定#试验#显示#,#该#消毒#剂#按 5g/m3 ( 2mg/L 有效#氯#)#的#投#加#量#,#每天#一#次#,#经#处理#的#池水#,#在#游泳#人员#高峰#时#,#细菌#菌#落#总数#、#大肠菌#群#、#游离#余#氯#、 pH 值 符合 GB16153-1996 (#公共#场所#卫生#标准#要求#)#要求#
菌落、菌群、余氯当一个词比较好 不过我是外行 乱说说
Posted by: 刀刃有蜜 at March 19, 2005 09:13 PM from 218.108.12.42
形#意#巨擘#宋#世#荣#先生#师从#于#李#洛#能#,#宋#先生#内功#精湛#,#独#步#海内#,#形成#有#独特#演练#风格#和#特#击#风格#的#形#意#拳 法#一#宋#氏#形#意#拳#。#宋#氏#形#意#素以#“#养#练#并重#,#技#击#性#强#”#而#称#著#武术界#。#下面#就#其#基础#功法#介绍#如下#。#宋#氏#形#意#拳#的#基本功#,#在于#锻炼#人体#之#本能#,#克服#后天#之#僵#劲#、#拙#劲#,#进而#转#成#通体#活泼#。#为#技#击打#下#良好#的#素质#基础#。#主要#体现#在心#理#素质#和#身体#素质#两#个#方面#。#整套#基础#功法#包括#:#摇#体式#、#揉#球#式#户#龙#回首#、#三#体式#。#浑圆#桩#、#内功#盘#根#。#既#有#定式#又#有#动#式#,#其#目的#是#为#技#击#服务#
Posted by: Orca at May 4, 2005 06:20 AM from 222.242.10.20关于形意拳的错误,我的看法是该算法不应该把不识别的单字全切开,这样无法作新词的识别了.
Posted by: binbin at May 23, 2005 03:26 AM from 159.226.100.234也来试试我的分词程序吧,带人名识别.
http://www.flashman.com.cn/blog/showlog.asp?cat_id=36&log_id=694
Posted by: Jeff at May 29, 2005 08:03 AM from 218.64.56.10形意巨擘宋世荣先生师从于李洛能,宋先生内功精湛,独步海内,形成有独特演练风格和特击风格的形意拳 法-宋氏形意拳。宋氏形意素以“养练并重,技击性强”而称著武术界。下面就其基础功法介绍如下。宋氏形意拳的基本功,在于锻炼人体之本能,克服后天之僵劲、拙劲,进而转成通体活泼。为技击打下良好的素质基础。主要体现在心理素质和身体素质两个方面。整套基础功法包括:摇体式、揉球式户龙回首、三体式。浑圆桩、内功盘根。既有定式又有动式,其目的是为技击服务
形意/n 巨擘/n 宋世荣先生/nr 师从于/v 李洛能/nr ,/g 宋先生/nr 内功/n 精湛/a ,/g 独/Vg 步/v 海内/s ,/g 形成/v 有/v 独特/a 演练/v 风格/n 和/v 特/j 击/Vg 风格/n 的/nrg 形意拳/n 法/n -/g 宋氏/nrg 形意拳/n 。/w 宋氏/nrg 形意/n 素以/d “/w 养/v 练/v 并重/v ,/g 技击/vn 性强”/nz 而/c 称著/v 武术界/n 。/w 下面/f 就/v 其/nrg 基础/n 功法/n 介绍/v 如下/v 。/w 宋氏/nrg 形意拳/n 的/nrg 基本功/n ,/g 在于/v 锻炼/v 人体/n 之/nrg 本能/n ,/g 克服/v 后天/t 之/Vg 僵/a 劲/n 、/w 拙劲/nr ,/g 进而/c 转/j 成/a 通体/n 活泼/a 。/w 为/nrg 技击/vn 打下/v 良好/a 的/nrg 素质/n 基础/n 。/w 主要/d 体/Ng 现在/t 心理/n 素质/n 和/nrf 身体/n 素质/n 两/m 个/Ng 方面/n 。/w 整套/b 基础/n 功法/n 包括/v :/g 摇/v 体式/n 、/w 揉球/nr 式/k 户龙/nr 回首/v 、/w 三/m 体式/n 。/w 浑圆/z 桩/n 、/w 内功/n 盘根/nrg 。/w 既/d 有/v 定式/n 又/v 有/v 动式/nr ,/g 其/u 目的/n 是/v 为/p 技击/vn 服务/v /br
/sp
http://www.hylanda.com/segmentdemo.asp
请去这个网址试一下
大致看了一下,作者对一些技术问题说得不对,比如说词典的作用,这些可能会影响学弟学妹。
尤其是那个“找同名人”东西,作者不会不知道词频词典是怎么来的吧,张三的词频是1000,难道是有1000个叫张三的人?
Posted by: hello at October 7, 2005 06:42 AM from 202.118.250.16你好,发现人名检索有比较大的问题,测试方式和结果如下:
小李飞刀 ,全中国与您姓名相同的人数为:8772
雪山飞狐 ,全中国与您姓名相同的人数为:2924
笑傲江湖 ,全中国与您姓名相同的人数为:10234
韦小宝 , 全中国与您姓名相同的人数为:8772
呵呵,还需要努力调整。
Posted by: sinak at October 7, 2005 10:13 AM from 194.80.66.62我贴的是主席的那句名言, 分词结果如下:
中#华人#民#共和国#中央#人民#政府#已#于#本#日#成立#
应该是中华 人民吧? 而且结尾的"了"没了
Posted by: jason at October 10, 2005 06:35 PM from 86.135.178.185简单来讲,搜索引擎要满足用户对信息查询的需求,提高用户的搜索体验。
Posted by: moncat at January 19, 2006 03:21 PM from 59.41.36.62分词我想应该采取baidu的方法,http://www.cnblogs.com/pwqzc/archive/2006/04/17/376832.html
这里有骗文章,原理就是在索引入库的时候不分词,只分析用户输入的关键字,这样能够最大限度的消除歧义且词典的维护量相当少
呵呵,光开分词结果就知道是最大正向匹配。。
现在早就不用这个了 ,rmm还是精确点。起码可以消除
企业和服务 的歧义。
一不留神碰上了roy老大
很荣幸
可以加你的QQ或者MSN吗?
现在早就不用这个了是什么意思呢?
这个指什么啊?
推荐您采用第三代智能分词系统3GWS(the 3rd Generation Word Segmenter)。据说是ICTCLAS3.0的商用版本。参见:http://www.fajava.cn/products_01.asp 提供Linux/Windows下的API,可以在线测试并试用API。
Posted by: Fajava at May 12, 2006 11:28 PM from 210.77.15.73急!你好,请问一下你知道哪里可以找到hits算法的可运行程序吗,我想做算法测试效果。谢谢!
Posted by: candy at June 26, 2006 09:09 AM from 218.94.92.163http://www.ey99.com/segwordstest.aspx
我也写个玩玩。
简单的"逆向最大匹配",没有进行歧义识别及处理!
兄弟,你这个功能我正需要,可以提供吗?
我想在我的视频搜索引擎中使用,有兴趣,可作也可以。
http://www.qiuhao.net
我也做了中文分词程序,不过特失败!
希望有兴趣的朋友加我QQ:54289300
