基于JavaWeb的网站图片爬虫设计与实现开题报告-毕业作品网站

设计任务书文档开题答辩说明书格式模板外文翻译范文资料作品文献课程实习指导调研下载网络教育 计算机 网站网页 小程序 商城购物订餐电影安卓 Android Html Html5 SSM SSH Python 爬虫大数据 管理系统 图书校园网考试选题网络安全推荐系统机械模具夹具自动化数控车床汽车故障诊断电机建模 机械手 去壳机千斤顶变速器减速器图纸电气变电站电子 Stm32 单片机 物联网 监控密码锁 Plc 组态控制智能 Matlab 土木建筑结构框架教学楼住宅楼造价施工办公楼给水排水桥梁刚构桥水利重力坝水库采矿环境化工固废工厂 视觉传达 室内设计产品设计 电子商务 物流盈利案例分析评估报告营销报销会计

首　页

机械毕业设计

电子电气毕业设计

计算机毕业设计

土木工程毕业设计

视觉传达毕业设计

理工论文

文科论文

毕设资料

帮助中心

设计流程

您现在所在的位置：首页 >>毕设资料 >> 文章内容

我们提供全套毕业设计和毕业论文服务，联系微信号：biyezuopinvvp QQ：1015083682

基于JavaWeb的网站图片爬虫设计与实现开题报告

文章来源：www.biyezuopin.vip 发布者：毕业作品网站

基于JavaWeb的网站图片爬虫设计与实现

1. 国内外研究现状

随着近年来互联技术发展，各种互联网公司兴起。尽管，在搜索引擎方面，谷歌和百度等公司在这块领域又无可撼动的地位。但是针对自身企业的对信息需求，个性化爬虫技术越来越受互联网公司的喜爱。在开源领域，很多爬虫框架，搜索框架都在不断的实践而走向成熟。例如，python实现的爬虫框架Scrapy，一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。JAVA实现的爬虫框架nutch，能够完美与solr和hadoop集成，实现个性化的检索系统。

同时，在向数据时代转型的这个时间点，互联网企业对爬虫抓取数据要的能力也越来越高。分布式爬虫和并行爬虫技术也正在应用于各个互联网企业。

2 研究目的、意义

基于java技术爬虫爬取网站图片设计和实现这个课主要为了研究提高爬虫抓取数据的效率，抓取网站图片和存储图片数据等问题，提高综合解决方案。同时根据Tobie排行榜，Java成为2015年最流行的编程语言。实践Java编程语言，研究其如何使用这门语言，感受JAVA语言的特性，感受其为何流行于当前互联网的环境。通过基于JAVA技术爬虫爬网站图片设计和实现研究，认识到爬虫的实现原理和实际的应用场景。

3 研究内容

基于java技术爬虫爬取网站图片设计和实现，主要用到了用java实现的crawler4j框架和用于存储图片数据的mongodb和mysql，以及图片展示平台的实现。

3.1 crawler4j

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。主要通过对Crawler4j设计和实现研究，来实践如何提高爬取图片数据的效率。

3.2 mongdb和mysql

mysql是目前最流行的开源的关系数据之一，它功能强大，能够存储多种数据类型。例如blob数据类型，char数据类型等等。图片做为非文本文件，可以以二进制流的形式存储在mysql的。

mongodb是开源的文档非关系型数据库。mongdb的数据主要以key－value的形式来存储。通过比较图片存储在mongodb和mysql的图片的存储性能比较。从而来评估基于java技术爬虫爬取网站图片设计和实现的系统的性能。

4 课题研究创新点

Crawler，使用了轻量级的多线程爬虫框架，来实现对网站图片数据爬取。积累爬取网站图片信息，可以应用图片信息的大数据处理。例如将图片信息应用机器学习领域。图片数据存储方案的设计，利用了当前比较流行nosql数据库。通过科学的测试方法，来合理的选择对新技术和流行技术的选择。

5 课题研究拟解决问题

在研究基于java技术爬虫爬取网站图片设计和实现中，我们将解决如何使用Crawler框架，如何爬取网站的图片，网站内容抓取图片重复问题和如何将图片存入数据库等问题。

6.引用

http://scrapy.org/

https://github.com/scrapy/scrapy

http://nutch.apache.org/

https://github.com/apache/nutch

https://github.com/yasserg/crawler4j

GB/T 7714罗刚. 解密搜索引擎技术实战--LUCENE & JAVA精华版(第2版)(附光[M]. 电子工业, 2014.

http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html

http://www.mysql.com/

https://www.mongodb.org/

全套毕业设计论文现成成品资料请咨询微信号：biyezuopinvvp QQ：1015083682 返回首页如转载请注明来源于www.biyezuopin.vip

打印本页 \| 关闭窗口
上一篇文章：JDBC与JSP研究	下一篇文章：基于JavaWeb的网站图片爬虫设计与实现毕业论文+开题报告+答辩PPT+项目源码及数据库文件+运行教程及演示视频

本类最新文章

手部康复指板屈伸按摩装置的机构设 …	智能电表控制电路设计论文指导记 …	家用光伏发电系统逆变电源设计开 …
家用光伏发电系统逆变电源设计任 …	家用光伏发电系统逆变电源设计选 …	钢筋调直机机械结构设计开题报告 …

| 关于我们 | 友情链接 | 毕业设计招聘 |

Email：biyeshejiba@163.com 微信号：biyezuopinvvp QQ：1015083682
本站毕业设计和毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!