互联网爬虫系统 |
项目时间:2011年5月 |
服务项目:系统开发 界面设计 |
一、爬虫(Crawer)工作流程说明爬虫采用管理服务端(Manager)和下载端(Downloader)两部分组成,可以扩展到分布式爬虫方式,一台管理服务器对应多台下载服务器方式,到时可以启动多个Downloader去下载。 首先由Manager 读取数据库里的站点入口地址(种子)或者数据库里的URL队列表,然后把URL分配给downloader ,downloader 去抓取网页内容,把网页内容交给解析的线程,解析线程把内容和URL解析出来发给Manager ,Manager 根据相关的规则提取有效URL并且写到数据库里去,另外对比关健词库,此篇内容是否含有关健词,如果有就写入数据库标注含有什么关健词。
二、爬虫管理服务端(Manager)爬虫管理器用于对爬虫下载器的管理,URL分配,涉密内容比较等。
三、下载器(downloader)下载器采用多线程方式,每个线程单独完成一系列的动作后把结果返回给Manager 或者直接写入数据库。
一)、多线程并发二)、URL管理1、 URL申请,向Manager申请URL2、 URL队列管理,采用先进先出方式排序 三)、下载1、 根据站点设置最大的并发数 四、页面解析1、 对于word ,HTML,PPT,XLS,PDF(待验证)内容提取
五、登陆认证模块
六、后台管理一)、站点设置1、入口地址添加2、站点爬取间隔,并发数量 3、优先级设置,采用子链接继承 4、更新页面设置 5、网站登陆用户密码设置 二)、提取URL规则设置三)、过滤URL规则设置四)、关健词管理1、关健词分类2、关健词增加修改 五)、泄密链接查看,相关的查询条件六)、登陆用户管理 |