摘 要
随着互联网的日益壮大,搜索引擎技术飞速发展。搜索引擎已成为人们在浩瀚的网络世界中获取信息必不可少的工具,利用何种策略有效访问网络资源成为专业搜索引擎中网络爬虫研究的主要问题。文章介绍了搜索引擎的分类及其工作原理.阐述了网络爬虫技术的搜索策略,对新一代搜索引擎的发展趋势进行了展望。
本文通过主题爬虫实现对与图片相关信息的搜集,存储在数据库中,并将这些信息在web端分类显示,同时在web端提供信息检索功能,登录注册功能,信息评论功能。主题爬虫的实现采用向量空间模型进行主题判别,增强型PangRank算法(EPR算法)进行URL筛选。
关键词: 图片,爬虫,检索
Abstract
With the Internet growing rapid development, search engine technology. Search engine has become people to obtain information essential in the vast network in the world of tools, use what kind of strategy of effective access cyber source has become the main problem of professional web crawler in search engine. This paper introduces the classification and search engine working principle was described. Technology of web crawler search strategy, the development trend of the new generation of search engine is prospected.
This thesis realizes the collection of relevant information of the picture through the theme crawler, storage in the database and the information in the web client classification, and at the end of the web provides information retrieval function, the login function information comment function. The realization of the theme crawler uses vector space model to carry on the subject discrimination, enhanced PangRank algorithm (EPR algorithm) for URL screening.
Key words: image, crawler, search
目 录
1 前 言 1
2 系统概述 2
2.1 课题背景与意义 2
2.1.1 课题开发背景 2
2.1.2 课题开发意义 2
2.2 课题开发工具 3
2.2.1 JAVA和JSP技术简介 3
2.2.2 Tomcat 6.0服务器架构 4
2.2.3 MyEclipse介绍 5
2.2.4总体开发 6
2.3 开发及运行环境 6
3 系统分析 8
3.1 系统概述 8
3.2 系统功能分析 8
3.2.1 可行性分析 8
3.2.2 具体功能分析 8
3.3搜索引擎的分类 9
l、全文索引式搜索引擎 9
2、垂直搜索引擎 9
3、元搜索引擎 9
4、目录索引式搜索引擎 9
5、其他非主流搜索引擎形式: 10
4 系统设计 10
4.1 数据库设计 10
4.1.1 数据库总体设计 10
4.1.2 数据库逻辑设计 11
4.2 系统总体设计 14
4.2.1 总体设计 14
4.2.2 系统逻辑处理 14
4.3 功能设计 15
4.3.1 网站登录页 15
4.3.2 系统界面 16
4.3.3 系统配置 17
5 系统实现与调试 18
5.1 系统实现概论 18
5.2 系统功能实现 18
5.2.1 文件结构图 18
5.2.2 文件详细结构图 20
5.3 关键技术实现 20
5.3.1 web.xml 20
5.3.2 数据库db_shopSystem连接部分 22
5.3.3 定时任务扫秒xml文件获取爬虫接口数据 23
5.4 调试过程中的常见错误 24
5.4.1 JDK配置错误 24
5.4.2 SQL空指针异常 25
5.4.3 数据库连接错误 25
6 结 论 26
致 谢 27
参 考 文 献 28