一、本课题研究的意义、内容、思路、方法及参考文献等:
(1) 研究意义
互联网是一个超级庞大的数据库,有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼睛,不可能一个网页、一个网页地去点去看,所以将数据有效地检索并组织呈现出来有着巨大的应用前景。
爬虫作为搜索引擎的重要组成部分,而搜索引擎作为一个辅助人们检索信息的工具,成为了用户访问万维网的入口和指南。但是,这些通用性的搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通过搜索引擎返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。
(2) 工作内容
爬虫实际上就是采集网络上数据的一段程序。这段程序的功能就是从网络上采集需要的数据。目前来说,大多数爬虫是用后台脚本类语言写的,其中Python无疑是用的最多最广的,而且相对于其他语言来说,python相对简单一点,并且页诞生了很多优秀的库和框架。本课题将采用Python作为web爬虫系统实现语言对爬虫进行编写。
一个爬虫的工作流程如下:(1)发起请求;(2)获取响应内容;(3)解析内容;(4)保存数据;所以,爬虫就是从请求内容到获取响应,接着解析内容,最后显示相应或者保存内容的过程。内容需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;如果有网站不愿本站数据流出,则会针对爬虫特性进行识别,将爬虫拒之门外;所以一个完整的爬虫一般会包含如下几个模块:网络请求模块、主机过滤模块、反爬虫对策模块(如果需要)。
(3) 参考文献
[1]潘晓英, 陈柳, 余慧敏,等. 主题爬虫技术研究综述[J]. 计算机应用研究, 2020, 037(004):961-965,972.
[2]刘爱琴, 王友林, 尚珊. 基于爬虫技术的关键词关联推荐算法优化与实现[J]. 情报理论与实践, 2018, 041(004):134-138.
[3]丁晓东. 数据到底属于谁?——从网络爬虫看平台数据权属与数据保护[J]. 华东政法大学学报, 2019, v.22;No.126(05):70-84.
[4]张海涛, 张枭慧, 魏萍,等. 网络用户信息检索行为研究进展[J]. 情报科学, 2020, v.38;No.345(05):171-178.
[5]钟机灵. 基于Python网络爬虫技术的数据采集系统研究[J]. 信息通信, 2020, No.208(04):101-103.
[6] 朱震. 利用Python设计网络爬虫系统[J]. 数字化用户, 2019, 25(014):83,216.
[7]孙冰. 基于Python的多线程网络爬虫的设计与实现[J]. 网络安全技术与应用, 2018, 000(004):38-39.
[8]张元. 基于Python网络爬虫的设计研究——K12教育教学网数据获取[C]// 教育部, 2017.
[9]戚利娜, 刘建东. 基于Python的简单网络爬虫的实现[J]. 电脑编程技巧与维护, 2017(8).
[10]巫宇超, 鲍正德, 唐娅雯. 基于Python的网络爬虫[J]. 计算机系统网络和电信, 2019, 001(002):P.277-281.
[11]郭锋锋. 基于python的网络爬虫研究[J]. 佳木斯大学学报(自然科学版), 2020, 038(002):62-65.
[12]李培. 基于Python的网络爬虫与反爬虫技术研究[J]. 计算机与数字工程, 2019, 47(6).
[13]朱震. 利用Python设计网络爬虫系统[J]. 数字化用户, 2019, 25(014):83,216.
[14] 孔洁,刘杨. 数据挖掘技术分析[J].电脑知识与技术.2017(32)
[15] 涂小琴. 基于Python爬虫的电影评论情感倾向性分析[J]..现代计算机(专业版).2017(35)
[16] 曲伟峰. 浅析Python网络爬虫[J]. 计算机产品与流通, 2019(9).
|