第三百九十六章网络爬虫(2/2)
网络上百分之八十的流量都是爬虫,这是一个流传很广的话,虽然有一点夸张成分,但是让爬虫行业的相关人员估算的话,爬虫制造的流量也至少在百分之五十以上。
有很多验证码之类的东西,除了防黑客之外,主要也是为了防爬虫的,虽然实际上除了麻烦到真正的网民之外,并没有什么卵用。
不过这么做的目的也是为了提高爬虫的成本,而不是为了防止他。
什么是网络爬虫,网络搜索引擎其实就是一种爬虫,但是这是一种良性的爬虫,并不会对网站的服务器造成太大的负担。
而数量最多的其实是商业爬虫。比如有三家卖一模一样商品的网站,如果网站的后台检测到了曾经有一个ip访问了网站,对于网站上的商品很感兴趣,但是并没有购买。
这个时候网站的负责人就会觉得是不是因为价格的原因导致了这个客户的流失,所以他就会雇人,或者成立专门的部门,从另外两家的网页上爬取商品价格进行对比,
当爬虫获取到了资料返回之后,另外两家的网站负责人就会发现,有一个ip访问了他们的网页,但是并没有购买他们的商品,他们就会觉得是其他的什么因素,比如他们的价格比不上其他两家的,他们的介绍写的不华丽,于是他们也会使用爬虫去爬取其他两家的商品资料,然后其他两家自然也发现了又有客户造访,但是没有购买商品,于是就这么无限循环了下去。
把这个例子扩展到全华夏,一件商品最起码有上千家,上万家的店铺在出售,这些商铺都会使用爬虫爬取其他各家的资料来进行对比,这就导致了,网络爬虫的数量越来越多,队伍越来越庞大,对于服务器造成的压力也越来越大。
而现在,这个新生的高阶人工智能,爬取的可不仅仅是商业资料,他正在试图爬取所有的一切资料,搜索引擎搜得到的,他要爬取,搜不到的,他也要爬取。
甚至,这个高阶人工智能利用关键词,开始入侵各个论坛,社交软件里面,开始爬取他能获得的所有有用的身份,而这一切行动掩藏在庞大的网络爬虫的之下,所以没有任何人察觉到这个高阶人工智能的行动,而只是奇怪最近流量有点大,但是收入却并没有增加。
真正的网络监察时代来临了,只要这个高阶人工智能想,他可以将一个网民从刚开始上网,在网络上发出的第一个字到最后一次离开网络时浏览了什么网页全部查出来。
只要你在网络上留下痕迹,这个高阶人工智能就能凭借着自己强大的网络爬取能力,想法设法的获得。
这不禁让方泽想到,有一次他看见了电信公司的后天监视程序,上面密密麻麻的记载着所有的移动网络这个时候正在浏览什么网页。
方泽看到这种情况之后,问向了辉夜,“你能阻止这个高阶人工智能的行动吗”
“可以。”辉夜点头回答道,“高阶人工智能也是可以成长的,我在启动之后,已经进化了不少,而这个高阶人工智能是用我的模板建造的,这样的话我就始终走在他前面,我可以中断他的行动,但是却没有办法将他从网络上排挤出去。”
“那也可以。”方泽对着辉夜说道,“你现在立刻阻止这个新生的人工智能对于个人信息的爬取。”
“好的主人,还有什么吩咐吗”
“对了,你阻止了这个人工智能的爬取之后,你自己对所有的网络个人信息进行爬取,然后建立一个数据库。”
“那样的话,我需要一个庞大的存储空间。”