原文刊登在Interviews with Googlebot 觉得这样的对话很有趣,实际上并不能帮助我们理解网络爬虫,不过简单的开心阅读也不错。我将之翻译如下: Q: 你刚才完成了一个深入的爬行,你感觉怎么样? A: 给我来杯猛烈的饮料,或者双倍! Q: 你发现了任何有意思的东西么? A: 现在还不清楚。 Q: 你爬了多少网页? A: 像McDonald's(麦当劳)说的,成千上万。或者像Carl Sagan(美国著名的物理学家)说的,无所谓。 Q: 喝了几杯啤酒后,在你完成了一个深爬(deep crawl)后第一件事情是什么? A: 我要洗个澡,我感觉很..很污秽。 Q: 什么是你工作最糟糕的部分? A: Blogs,这点毫无疑问。那些糟糕的 blogrolls 进入你的脑袋直到你晕倒。那些糟糕的东西还试图幽默,天啊,想想这到底是怎么回事。 Q: 你怎么看待你被叫做网络蜘蛛 (spider )? A: 这世界上没有什么蜘蛛能够向我跑的这么快。 Q: 你在爬行中间做什么呢? A: 密谋Tim Berners-Lee(WWW的创始人)的死亡。 Q: 谢谢你接受这次采访。 A: 你只吸引了我1% 的注意力,不客气。...
离开dallas已经整整十天了,基本上除了到处见见人之外基本上没有其它的时间来学习新知识,也没有空将要完成的工作收尾。 Niu.la ,Booso,luliang.dhs.org 和 wespoke 相继宕机,看来年底各个地方的维护都不力。 itseek的开发者多次问起 larbin 的事情,我就在这里对larbin做一个简单的介绍。因为相对于复杂的系统来讲,larbin具有高度的可配置性,和良好的工作效率。 1]larbin的简介 larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。 latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网页,实在是非常高效。 2] Larbin的性能特征 高效是我对 larbin 的评价。 今年四月份的时候我对larbin的性能做过一个测试,luliang.dhs.org是我自己常用的服务器,CPU 为1G,内存512,其它的性能一般,因为是三年前购置的。 我将我自己的网页 六翼作为入口,运行larbin进行5层内的url的抓取。 当时纪录的一些数据: Internet IO: 500-700k/per second (我想大约我的网络下载的瓶颈了吧) CPU top: 5%-15% disk consume: 1M/s ,基本上一个小时爬 3个G 的网页。差不多20万的页面 url 解析: 200万-300万每小时 3] larbin 的作用 很多人初见 larbin 不知道从哪里下手,那么我来简单介绍一下 larbin 的功能和实际应用。 1. larbin 获取单个、确定网站的所有联结,甚至可以镜像一个网站。 2. larbin建立 url 列表群,例如针对所有的网页进行 url retrive后,进行xml的联结的获取。或者是 mp3 。 3. larbin 定制后可以作为搜索引擎的信息的来源(例如可以将抓取下来的网页每2000一组存放在一系列的目录结构里面)。 总归,larbin应当是一个被广大搜索引擎爱好者应当引起注意的一个产品,虽然其功能逐渐被 Nutch 所接受和替代,但是其在爬虫上的优美设计的确值得称道。...
将下面的连接用鼠标拖到Firefox的工具条上,就可以在firefox浏览任何叶面的情况下直接点击 Niu La It!来进行收录。 Niu La It! 正在开发firefox的插件,最后会类似blog it的mozilla/firefox的插件。 看下图的说明: 下面是博采的代码,加入博采: 博采!...
估计大多数人都认为 Niu.la 书签系统 没有多少技术含量,其实我想大约是每个人设计产品的时候想到的做法不一样吧,你可以将一个产品设计的完美无缺,也可以将一个产品设计的充满灵气。而观众看到的只是最外面的一层东西,至于如何这样,没有人回去关心。 隐马尔可夫链(Hidden Markov) 模型是一种来尝试对随机现象进行描述的模型。 niu.la 的设计里需要体现最热门的书签,以往的几乎所有的门户网络系统,都是简单的根据点击的次数来进行判断哪些东西属于“热门”,哪些属于“冷门”。这种简单的运算可以说是非常没有道理也很笨的。因为热门的东西并非是发展的趋势,反而是相当多的人已经浏览过了的东西。 那么怎么办? 采用预测模型,预测哪些信息将是在未来的一段时间最流行,最热门,这样将这些预测公布出去,将收到无以伦比的效果。 架设点击和收藏是随机序列 C(i, t), S(i, t),其中i 是收藏的书签,t 是时间序列。进行合理的模型设计,可以将C(i, t+x) , S(i, t+x) 进行预测出来,其中x 是从现在往后的时间。 隐马尔可夫链(Hidden Markov)模型在牛啦的设计中起到了非常好的预测功能,基本上将将要流行都能准确的分析出来。...
又名“牛啦!”,英文域名 "niu.la"是一个集成书签,Rss,媒体收藏多功能的一个收藏夹系统。 注册后下载插件(IE),重新启动IE 就可以采用右键收藏了。 可以收藏rss并且直接浏览,注意请enable 安全级别的 activeX。 更多的说明在niu.la 帮助说明 我自己的书签:niu.la 里 6e的书签 欢迎大家注册使用。...
上一篇Google adsense 支票和网站广告赢利分析收到了不少留言,也有email,关于google的相关广告,因此我想澄清以下的观点: 1] 关于网站的导向 不要因为某些关键词点击付费钱比较多而去写与之相关的内容,毕竟,钱不是一切。 加 adsense 完全是一个兴趣行为,千万别把这个看的太重。 顺便说一句了,个别词汇,都在1~5美元一次点击(CTR ~ $5/click),你在我的网页里找不到他们,我也尽量避免这些错误诱导。 2] 关于 google adsense 的 fraud click (欺骗点击) 只要 google 做的不够好,就有被人恶意利用的可能,就需要改善。至于有人用我提出的方法是 hack 了google的adsense,只能说明 google 的adsense 还不够好,对商家还不够负责任。 因此,我会在适当的时候公布更多的关于如何防止欺骗点击的一些做法。 3] 公布收入的那部分我已经删除了,毕竟收了人家钱就要按照人家的协议做事情。 在此我向 google 表示道歉。(估计google的人也看不到。)...
google adsense的支票我收到有快两周了,是11/22日邮出的那一批了。比我最初预计的好,但是仍然比我期望的低。 我一共有两个网站放了Google adsense 的广告,wespoke 和 booso.com 。 重要,删除 假设一个网站完全采用google adsense 进行广告赢利,按照我的数据换算成 Alexa排名/天IP访问量/天流量/月收益 应当有下面的表: 10/7500000/5千万 /150000美元 100/750000/5百万/15000美元 1000/120000/一百万/3000美元 10000/15000/十五万/400美元 看来做相关广告应当对于一中型网站来说是可以有些收益的,当然对于最高端的网站将没有什么吸引了。全球排名100才能得到1万多美元的月收入,简直是太少了点。 当然对于我自己来说,每月有1/2百美元的收益也不错,至少可以请请朋友吃饭或者看上几场电影。 对于如何提高google adsense的收益,我还是推荐您阅读 Google Adsense 如何增加点击率/Google adsense 广告功略及〖google 广告三定理〗,因为你要尽量少的公益广告才好。...
Accoona 以前比较知名的行动就是举办过一次美发女子象棋赛和国际女子象棋赛。那个时候大约是夏天,然后就再也没有声音了。 几天突然暴出冷门消息,说Accoona跟中国ChinaDaily.com.cn 「中国日报」合作,一下子有了进百万的商业信息,能够深层搜索,而且拥有非常高的人工智能等,听起来很是了得。 Compaq Computer的前CEO Eckhard Pfeiffer被提名为Accoona的董事长,不知道会不会再走compaq的老路。 顺便说一下,booso 也已经抓取了 blog 的 rss 开始提供博客/blog 搜索了。现在有1000多个来源,没有时间找 rss 源,回头用 larbin 爬个几天将中文的 rss 收集个几万才好。 博索博客/blog搜索搜索 博客...
朋友私下里将他们完成的第一个商品搜索引擎给我试用了一下,真得感觉非常不错。 其实商品搜索引擎去年的时候他们就开始设计开发了,一直以来没有动向,我都忘记这这件事情了,知道今天收到email才知道原来已经做好了。 记得去年Google 的 froogle.com刚出来的时候,甚是惊讶,觉得google怎么会往买卖商品上走,当然今天google做什么我都不会惊讶了,当初不是。 商品搜索引擎的根据地当然是网络销售商了,将物品作为主要的搜索对象而且对于每种物品的通用情况建立如下的一些参数: 商品名称/别名等|商品来源(网站)|商品的联接|商品的描述|商品的照片|商品的价格|商品的运输/投递|商品的评价|商品的过期时间|购买的付款方式|商品的销售情况/销售量 1] 以上的参数如果盲目的采用爬虫的技术去进行抓取,将会非常困难,需要非常强的人工智能。2] 如果有人工参与的情况下,可以逐个网站建立parse的方案,有一些则需人工收集,也比较可行。 朋友的商品搜索引擎有几十个网上商场的信息,不算太大,完全可以采取以上的方法2。 3] 网上商家按照商品搜索引擎要求提供XML输出,通过加密渠道给搜索引擎作为来源,省去了爬虫的烦恼。 4] 更新性的商品增加通过独立协议发送给搜索引擎。 3] + 4] 将会将商品搜索引擎的开发难度降低许多,也是部分商品搜索采取的模式。无论如何,多元化的搜索引擎已经越来越丰富我们的生活了。...
在开发Booso新闻搜索引擎的时候,出现一个问题就是有很多的新闻属于转载的形式,要判断新闻是否转载,经过实验,我发现可以用“平移”算法来实现。 "平移算法"非常简单易用,就是比较两个文章/字串中最高的重叠率和平均重叠的长度。 例如我们有两个文章的标题: "报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网" http://tech.sina.com.cn/t/2004-12-01/1231468255.shtml "权威机构调查显示中国ip视频通信应用早于西方_搜狐it" http://it.sohu.com/20041201/n223268718.shtml 以上两个新闻是转载同一来源,但是略做了更动,根据平移算法,我们固定一个字串,然后将另外一个字串从末尾对应第一字串的开头进行平移,然后计算两个字串之间的交集。如果字符完全一样则为1,不一样为0,将所有的值加起来。 "________报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网" "权威机构调查显示中国ip视频通信应用早于西方_搜狐it" 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0" 可以看到当B和A平移到一定的位置的时候能够找到最大的重叠度。上例是14个连续字符。 相识性:AB重叠部分/(A的长度 + B的长度 - AB重叠的长度) 14/ (33+25-14) = 31% 一般超过20%即可判断为相同主题或者是转载同一来源。 平移算法的功能: 1] 实现对高度相识性的文章进行识别。转载,来源的识别。 2] 可以发现主题,发现核心内容。 例如实现匹配的部分,上例是 A&B = “中国ip视频通信应用早于西方” 是完全匹配的部分,就是相识文章的最核心的内容。...