基于我以前制作的分词词典和词组字典 对现有的分词手段进行了简单的改造,主要是针对常用的人名和姓名的判断,并利用我制作的字典,能够进行相对科学的分词分析。我一直说要发布中国人名的词典,这个将会显著改善分词的不确定性,无奈实在精力有限,一直无暇制作,不果定下最后期限,春节前中国人名排序词典一定ready。 在下面的文本框里输入一段文字,就可以进行分词的分析: 例如对上文的文字进行分词,其结果如下: 基于#我#以前#制作#的#分#词#词典#字典#和#词组#字典#对#现有#的#分#词#手段#进行#了#简单#的#改造#,#主要#是#针对#常用#的#人名#和#姓名#的#判断#,#并#利用#我#制作#的#字典#,#能够#进行#相对#科学#的#分#词#分析#。#我#一直#说#要#发布#中国#人名#的#词典#,#这个#将#会#显著#改善#分#词#的#不#确定#性#,#无奈#实在#精力#有限#,#一直#无暇#制作#,#不#果#定下#最后#期限#,#春节#前#中国#人名#排序#词典#一定#ready#。 #在#下面#的#文本#框#里#输入#一#段文字#,#就#可以#进行#分#词#的#分析# 其中空格用“#”替代,基本上结果满意。 分词测试续: 需要一个专业术语词典和一个人命/公司/机构名称词典。...
1。 google TV 和录像搜索 Google Video search Beta 版暗中发布。 2。 Mozilla 的首席工程师由 google 来付工资: Mozilla's Lead Engineer Now Being Paid By Google Some very interesting news for those of you who like to talk about what Google is up to on the web browser front. Ben Goodger, the lead engineer for Mozilla Firefox, posts on his blog that his new "source of income" is coming from Google. So, has Google hired Goodger to lead a browser development program? The answer is no. Goodger goes on to say that his work with "Firefox and the Mozilla project will remain largely unchanged" and that he "remain[s] devoted full-time to the advancement of Firefox, the Mozilla platform and web browsing in general." In other words, Google now has what you might call an "inside" interest in Mozilla since it's paying the salary of Mozilla's lead engineer. 具体参考 http://blog.outer-court.com google 看来mozilla 成为google webos 的计划为时不远了。 3。 博索 booso.com 打算下周移居国内,如今booso 被百度收录为1篇,看来是被当作spam来处理了,被google 收录1万多条记录。下周准备调整战略,重整山河。...
中国有句古话,叫“道高一尺,魔高一丈。”当然,也有人这么说“魔高一尺,道高一丈。”这话的对错不管,总归说明了只要有“道”就有“魔”。 先从 spam comment 说起: 我写过若干篇关于blog 里留言里 spam 的解决方法:Mt 系统如何防止垃圾留言以及如何通过 .htaccess 禁止垃圾 refer,Ban IP/Spam in refer via .htaccess or httpd.conf,MT 防止垃圾留言的新方法,以上方法已经采用在自己的blog系统里,虽然垃圾留言全部封死,这一个月来大约有3篇漏网,但是同时很多人反映留言被过滤,trackback被 过滤。 垃圾留言的目的很简单: 1]留下联结,让不知情者访问。 2] 有连接,搜索引擎顺藤摸瓜,将垃圾网站的Page rank提高,从而达到 SEO的效果。 凡以上做法,现在已经为无数人痛斥,但是由于有搜索引擎的暴利可图,基本上是愈演愈烈了。 车东在他的日志里写道使用 nofollow 的teg (+1 rel="nofollow" = 为超链戴上的安全套 ),从而从搜索引擎端直接解决这个问题。这不单单是一个技术问题,而这个反映出搜索引擎公司已经注意到事态的严重,开始介入用户的行为,调整用户的行为,教育用户的行为。 搜索引擎终于妥协了。一直以来以机器进行分析,一直以来人们自豪的搜索引擎,终于发话了,意思仿佛说“小样的,你来骗我,小心!” comment spam 一个小小的魔,已经迫使机器改变了行进的路线。 再说Wiki ,wiki 仿佛是共产主义的一股清风,我使用Wiki的时候立即感觉到自己升华了许多。 好事不久,我开始发现有人肆意破坏了。并且留言“这东西真好玩,竟然可以随意改网页”。再后来我发现成了垃圾场所,再后来我关闭了 Wiki。我们自己启动project的时候,我开始对wiki进行加密,“小样的,想进来,没门!” 到了去年到处是 wiki spam,我已经不用wiki 好久了,想来想去最后还是得出结论,机器跟人斗,机器一定吃亏。 我的email 里每天有无数的垃圾邮件,我总惊讶于发垃圾邮件人的智商之高,甚至他们洞悉了最前沿的信息,例如有一天我的gmail收到一封“Google alert:XXX” 的邮件,实在是佩服垃圾邮件创造者的良苦用心和高屋建瓴的科技视野。 机器,一直陪伴我十多年了,我渐渐发现机器在变,变得务实,但是机器的理想一直都没有变,而变的是我们。...
好久不写了,一个原因是出于忙,另外一个原因是在看。 开放式搜索引擎就是我们通常我们所说的 google , baidu , alltheweb 等,其索引内容完全是由其联结分析进行自动的添加,人工参与排序非常少的一类搜索引擎(人工参与是一个相对概念,因为算法也是人设计的,因此不可能做到无人工参与)。 这类搜索引擎在搜索引擎的发展的历史上起到过举足轻重的作用,不过现在却面临诸多的麻烦,甚至是致命的敌人,这些因素极有可能导致在一段时间内搜索引擎的质量和信誉度下降,这些下降也是致命的,会终结这些搜索引擎的盈利模式,加速开放式搜索引擎的死亡。 哪些因素呢? 1] 过渡的SEO SEO 现在已经不是一个褒义词了,很大程度上SEO已经成为Link farm和comment spam的忠诚用户。另外一方面,过度的SEO已经使得大家对搜索引擎的公正性产生了怀疑。 当有很多的人想破坏一个体系的时候,当然比建立这个体系要快的多。pagerank和hilltop都已经成了瘸子。 2] spam 网页 这类网页是由程序对不同的搜索引擎的搜索结果进行整理,然后做成一个以假乱真的网页,而搜索引擎却又无法分辨真伪。这些网页有的没有内容,有的有内容,而且联结系统复杂,部分是 link farm的改版。 例如: 在google 里搜索年终总结,可以看出排名第一第二的都是spam网页,打开后网页内容是从搜索引擎搜索到的内容,然后再进行了网页优化。 现在这样的程序已经产品化了,能够完整的按照自己的想法产生一个完整的spam网站,而且这样的软件也不少。特别是中文网站,排名10000以内的这类网站大约有近千个了。 3] 版权 也许从来没有人注意到搜索引擎的版权,可是这个问题我先提示以下。 搜索引擎通过搜索显示出来的[截断文档]其实很大部分应该说是一种特殊的[转载],至于这种转载虽然加了联结,但是能否真正避开某些法律壁垒也未知。 4] 技术 搜索引擎的技术3到5年内平民化,也是开放式搜索引擎面临的一个非常大的压力。 我一直期待有一天,每一个公司的IT部门都能在1/2周的时间内利用现有的工具,制作符合公司需求的搜索引擎,开放的也好,封闭的也好,我想这个时间并不遥远。...
前几天为张琳捐款后就一直在思考一个问题,如何才能方便的将爱心和捐款方便的结合起来,如何才能利用现在的网络资源包括论坛/Blog的资源进行捐助? 我如果不是这次刚好回国问起小覃这件事情,恐怕我是无暇捐助的。那么我相信和我怀有同样想法的人一定不少,不是不愿意捐助,而是手续麻烦,无从下手。 那么我设想现在大家(相当多的人)都有了blog,也在上面启动了google提供的google adsense 的服务,每天都有一点点地小笔收入,而google的账户管理系统却只和网页上嵌入的google adsense的 javascript的代码里面的 google_ad_client 有关,因此可以这么做: 1] 由一定的组织,机构为被捐助人设立一个 google adsense 的账户,就是申请一个google adsense。 2] 公布这个google adsense 的 google_ad_client的号码 3] 任何个人有意进行捐助/协助的话就可以将这个 google_ad_client号码替换自己叶面上原有的google_ad_client。 4] 这个替换的时间长短依据你大约打算捐助的额度来计算,例如我的全部网页都更换了被捐助者的google_ad_client,那么一个星期大约捐助20-40美元。 5] 被捐助者的google adsense账户可以通过渠道/Url来跟踪各个捐助者捐款的数额,以便及时更新、通知。 至此,能够利用自己的 google 广告进行小笔的捐助,即奉献了爱心,又很容易方便,何乐而不为呢?...