目 录
1 绪论
1.1 研究背景
1.1.1 SourceForge.net
1.1.2 需求复用
1.1.3 实验项目
1.1.4 爬虫简介
1.2 国内外研究现状
1.2.1 java爬虫框架
1.2.2 python爬虫框架
1.3 本文的主要研究内容
2 分布式爬虫综述
2.1 分布式爬虫类型
2.1.1 应用于搜索引擎
2.2.2 基于主题的爬虫
2.2.3 用户个性化爬虫
2.2 MapReduce
2.3 分布式爬虫系统的架构
2.3.1 主从式
2.3.2 自治式
2.3.3 混合式
2.4 爬取策略
2.5 部署网络
3.功能需求描述
3.1系统的划分
3.2 数据爬取子系统的功能
3.2.1 数据爬取的用例图
3.2.2 数据爬取用例的描述
3.3 数据可视化子系统的功能
3.3.1 数据可视化子系统的用例图
3.3.2 数据可视化子系统的用例描述 其一
3.3.3 数据可视化子系统的用例描述 其二
3.4 数据库系统的功能
3.4.1 数据库系统的用例图
3.4.2 数据库系统用例的描述
4. 详细设计
4.1 分布式爬虫架构
4.2 CenterNode模块
4.3 TaskNode模块
5. 软件原型
参考文献
1 绪论
1.1 研究背景
1.1.1 SourceForge.net
SourceForge.net是一个开源软件平台,用户不仅可以在网站上搜索到很多实用的软件,还能够给软件评分,向软件的开发者提需求建议等等。这些项目都有各自的适用领域、特征以及优缺点,用户可以通过搜索关键词,查看分类目录或者根据网站的推荐来找到自己的目标软件。
1.1.2 需求复用
对于一款产品,明确其需求是最关键的一步,可是客户的需求往往空乏而且充满不确定性,这给需求分析带来的巨大的挑战。不仅如此,客户与开发人员之间的沟通也存在隔阂。对于一项新的需求,开发人员需要从头开始调研、分析、建模,这会耗费很多精力。如果能够复用其他类似项目的需求,以他们开发人员的需求分析作为参考,就能在减少需求分析所需时间的同时还提高精确度。
常见的需求复用的原型有以下三种[1]:
1. 旧的经验,没有任何文字记录,采用口耳相传的方法。
2. 已有的需求规格书,重用已经有的文档和规格。
3. 领域模型。
1.1.3 实验项目
本合作实验就是在对SourceForge.net做需求复用的基础上展开的,现阶段有两个目标:
1. 根据网站上开源项目的描述、特征、所在目录和用户需求对项目精准定位。
2. 采用领域工程的方法,对各个类别下的开源软件进行领域分析,建立特征模型。最终实现让软件开发人员直接根据需求和特征模型就能找到合适的开源软件进行需求复用。
我个人的项目是这个实验整体的第一步:获取数据。