互联网爬虫系统-时代华奥一切以客户价值为依归

互联网爬虫系统

项目时间：2011年5月

服务项目：系统开发界面设计

一、爬虫(Crawer)工作流程说明

爬虫采用管理服务端(Manager)和下载端(Downloader)两部分组成，可以扩展到分布式爬虫方式，一台管理服务器对应多台下载服务器方式，到时可以启动多个Downloader去下载。

首先由Manager 读取数据库里的站点入口地址(种子)或者数据库里的URL队列表，然后把URL分配给downloader ，downloader 去抓取网页内容，把网页内容交给解析的线程，解析线程把内容和URL解析出来发给Manager ，Manager 根据相关的规则提取有效URL并且写到数据库里去，另外对比关健词库，此篇内容是否含有关健词，如果有就写入数据库标注含有什么关健词。
将所有的url按站点分到各个站点的先进先出队列里，然后将所有的站点的url平均的分给所有的downloader爬取。Downloader的URL队列为空的时候自动向Manager发出请求申请一定数量的URL队列。
爬虫不存储网页内容，只对涉密内容存储。

二、爬虫管理服务端(Manager)

爬虫管理器用于对爬虫下载器的管理，URL分配，涉密内容比较等。
1、站点URL列队管理
1、种子读取
2、优先级处理
3、更新爬取URL处理
4、网站链接
5、 URL去重
6、多站点队列
2、关健词库
3、内容匹配模块,也许会放在下载器端
1、内容去噪，把不需要检查的内容丢弃，提高效率
2、内容去重，已经分析过的内容不再分析
3、涉密内容比较，并记录该内容所在位置
4、涉密内容存储

三、下载器(downloader)

下载器采用多线程方式，每个线程单独完成一系列的动作后把结果返回给Manager 或者直接写入数据库。

一)、多线程并发

二)、URL管理

1、 URL申请，向Manager申请URL
2、 URL队列管理，采用先进先出方式排序

三)、下载

1、根据站点设置最大的并发数
2、爬取间隔时间
3、下载网页或相关文档

四、页面解析

1、对于word ，HTML，PPT，XLS，PDF(待验证)内容提取
2、对于HTML网页里的URL提取
3、分析提取出的URL，去重，去噪，按照规则提取URL等处理
4、把提出的URL存储到数据库或返回给Manager
5、或者调用内容匹配模块对于涉密内容处理

五、登陆认证模块

六、后台管理

一)、站点设置

1、入口地址添加
2、站点爬取间隔，并发数量
3、优先级设置，采用子链接继承
4、更新页面设置
5、网站登陆用户密码设置

二)、提取URL规则设置

三)、过滤URL规则设置

四)、关健词管理

1、关健词分类
2、关健词增加修改

五)、泄密链接查看，相关的查询条件

六)、登陆用户管理

QQ空间新浪微博腾讯微博人人网更多

为什么选择我们Why choose us: 时代华奥是一家专业从事网站建设、手机网站制作、微博营销、集设计、开发于一身的深圳互联网公司。
我们的专业可使您的产品或者服务区别于同类品牌，具备内在的灵魂，进而打动消费者，提升产品的文化与营销力。
我们坚持高标准高水准的服务，致力成为您的事业伙伴；
我们珍重并以真诚回报您给予的信任和期待，我们的价值就在于为您提供有价值的服务。

时代华奥资讯中心Information