摘 要
当前,面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以借助于搜索引擎到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外人们使用最多的网上服务。随着Internet的快速发展,海量信息和人们获取所需信息能力之间的矛盾日益明显,在信息海洋里查找信息,如同大海捞针一样,搜索引擎恰好解决了这一难题。
Web音乐搜索软件是采用Java语言开发的简易的互联网音乐搜索引擎,它是集网络爬虫(采用java内置的多线程及Socket技术)和基于B/S结构的Web查询(Struts框架)为一体的搜索软件。该系统能完成对互联网的音乐信息的采集、分析、分类、保存和查询等功能;经过测试与分析,说明本系统运行稳定、可靠,具有一定的实用价值。
关键字:音乐;搜索软件;网络爬虫;Socket技术;Struts框架;多线程
Design and Implementation of Web Music Search Software
Abstract
At present, in the vast network resource, search engine for all Internet surfing users provides the one entrance. No exaggeration to say that all users can be reached any one place on the Internet by the aid of search engines. So it has become the most using online services for people except E-mail. However, with the rapid development of the Internet, the contradictions between massive information and obtaining the capacity of required information is obvious day by day. Searching for information in vast network resources is like looking for needles in a haystack, but search engine just solves this problem. http://www.16sheji8.cn/
The software is about web music search. It uses java to develop a simple Internet music search engine, and also gathers the net-reptile (intra-builder java multi-thread and socket technology) and web search based on B/S construction (struts framework) as a whole search software. It can achieve the collection, analysis, classification, storage and search of Internet music information. Through the test and analysis, it shows this system is stable, reliable, and has some practical values.
Key words: Music; Search Software; Crawl; Socket Technology; Struts Structure; Multi-thread
目 录
论文总页数:21页
1 引 言 1
1.1 课题背景 1
1.2 国内外研究现状 1
1.3 本课题研究的意义 2
1.4 本文的主要工作 2
2 Web音乐搜索软件的需求分析 2
2.1 搜集信息 2
2.2 整理信息 2
2.3 接受查询 3http://www.16sheji8.cn/
3 Web音乐搜索软件的设计 3
3.1 系统总体流程 3
3.2 系统部件介绍 4
4 Web音乐搜索软件的具体实现 5
4.1 数据设计 5
4.2 网络爬虫设计 5
4.2.1 遍历算法 6
4.2.2 模拟浏览器 8
4.2.3 正则表达式 9
4.2.4 数据分析 12
4.3 采用java多线程技术 13
4.4 web查询端 14
4.4.1 Struts框架 14
4.4.2 Struts包内容 14
4.4.3 Struts体系结构 15
5 运行测试与分析 17
5.1 软件试运行 17
5.2 软件分析 19
结 论 19http://www.16sheji8.cn/
参考文献 19
致 谢 20
声 明 21
1 引 言
1.1 课题背景
面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就如同大海捞针一样,搜索引擎恰好解决了这一难题(它可以为用户提供信息检索服务)。但是随着Internet的发展,搜索引擎也面临着海量信息和人们获取所需信息能力的矛盾。
因此,信息的高效搜索显得格外重要。http://www.16sheji8.cn/
1.2 国内外研究现状
搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:
第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。
大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。http://www.16sheji8.cn/
2000年搜索引擎2000年大会上,按照Google公司总裁Larry Page的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,平均速度是每秒48.5个网页,一天可以搜集超过4,000,000网页。
搜索引擎一词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序收集上千万到几亿个网页,并且每一个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括First Search、Google、HotBot等。在中国,搜索引擎通常指基于网站目录的搜索服务或是特定网站的搜索服务,本人这里研究的是基于因特网的搜索技术。