一、设计目的

1. 巩固和加深我们对python知识，以及对爬虫技术进一步加深认识。

2. 提高我们编程的能力以及思考能力

二、设计任务完成

1. 网络爬虫是从web中发现，下载以及存储其中的内容。并且从首页URL爬取，然后不断从当前网页获取URL加入，来不断深入获取各个URL的内容。

2. 抓取小说网站，抓取一系列小说的篇名、作者、出版单位（或首发网站）、出版时间（或网上发布时间）、内容简介、小说封面图画、价格、读者评论或评分等多项信息，并将上述信息组织成表格形式（可以是csv、json、excel等）加以保存。另外，还可以深度抓取某部小说的多个章节或全部章节进行分词和词频统计。

3. 抓取的是网站不是网站的首页。抓取的内容一定要分布在整个网站的多个页面和多个链接中。

4. 程序中加入了反爬技术（包含模拟人加入了时间间隔访问，以及隐藏爬虫身份）

5. 程序使用了正则表达式（通过正则来匹配标签）

全套毕业设计论文现成成品资料请咨询微信号：biyezuopinvvp QQ：1015083682 返回首页如转载请注明来源于www.biyezuopin.vip

打印本页 \| 关闭窗口
上一篇文章：基于数据报表处理系统的研究与实现开题报告	下一篇文章：Mini-C编译器设计与实现任务书

本类最新文章

基于MatlabSimulink …	35kV输电线路继电保护的设计 …	分布式风电场低电压穿越故障建模与 …
大学生内容分享和社交平台的设计与 …	基于SSM框架的企业人事薪酬管理 …	基于大模型的代码注释自动生成与维 …

| 关于我们 | 友情链接 | 毕业设计招聘 |

Email：biyeshejiba@163.com 微信号：biyezuopinvvp QQ：1015083682
本站毕业设计和毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!