网络爬虫介绍

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

技术应用


用爬虫算法解决数据获取和分析

基于互联网的数据挖掘

从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

第三方数据的获取和二次处理

针对数据源进行算法的开发、测试和自动抓取,将位于其它位置的数据在自身服务器进行存储并进行数据结构的统一。