基于权重均值的不良网页过滤算法研究开题报告_毕业设计论文

中北大学

毕业论文开题报告

学生姓名：		学号：
学院、系：
专业：
论文题目：	基于权重均值的不良网页过滤算法研究

指导教师:

2012年3 月 20日

毕业论文开题报告

1．结合毕业论文情况，根据所查阅的文献资料，撰写2000字左右的文献综述：

文献综述

一．研究背景

随着互联网技术出现至今不过短短几十年的时间,但是正是在这并不算太长的时间里经历的不断发展,使得互联网技术对每个人的生活都产生了极其深远的影响。相对于传统意义上的网站而言,在二十世纪末二十一世纪初所兴起的Web 2.0技术不仅带来了最新的技术,也致力于将提升用户使用体验作为目标。在这样的动力之下,也带动了各种提升用户的网站使用体验和优化网站结构以及个性化用户访问等等方面的研究。

自1995年以来，互联网在我国得到迅速普及，它不仅推动了社会经济的发展，也给我们的学习、工作和生活带来了极大的便利。与此同时，我们也看到，互联网上信息庞杂多样，既有大量进步、有益的信息，也有不少反动、迷信、黄色等不健康的内容。网络不良信息的泛滥给社会发展造成了精神污染，它的出现主要有两个原因：其一是出于政治目的，国内外敌对势力在互联网上发布的旨在颠覆国家政权的信息，以达到不可告人的政治目的；其二是出于经济目的，许多网站提供色情等不良信息链接以引起网民的好奇，从而吸引更多的人登录自己的网站，这样做能够提高点击率，最终赢得更多的经济利益。

二．国内外研究现状

目前比较通用的网页排序算法是PageRank算法．用PageRank算法的网页排序反映的是网页被链接的次数．即一个网页的重要程度取决于其它网页(或网站)对它的评价，因此不能满足每个查询者个人对查询主题的具体要求．对网上广告等链接信息也不能轻易予以剔除。

网页排序应该考虑web数据挖掘所得到的全面信息．主要包括内容信息、结构信息、应用信息。网页内容信息主要是指网页文本的类型和网页相关性网页结构信息是指网络的拓扑信息，即网页之间的链接信息。传统的网页排序只考虑了以上2种因素，即只考虑网页的具体内容和网页的超链接信息．并没有考虑网页的客户应用信息。这就使得大量的广告网页和陈旧网页在排序时排名非常靠前，影响了用户的需求。因此，网页排序还应当考虑网页更新时间和用户行为.

网络不良信息是指互联网上出现的违背社会主义精神文明建设要求，违背中华民族优良文化传统与习惯，以及其他违背社会公德等的各类信息，包括文字、图片、音频和视频等。网络不良信息具有广泛性、快捷性、多渠道性、隐秘性和社会危害性等特点，对其进行过滤也不同于一般信息的过滤。不良信息过滤与一般信息过滤相比，有其自身的特点：首先，文本倾向性判断比较困难，一般信息过滤中比较容易得到用户感兴趣和不感兴趣两方面的样本，而在不良信息过滤中，正面样本通常较容易获取，负面样本则较难获取，致使负面样本数目较少，负面样本难以判断。其次，一般信息过滤所过滤的信息表达形式稳定，易于利用关键词和词频统计方法进行文本表示，而不良信息制造者往往采取更换表达形式来逃避过滤，增加了过滤难度。

三．网络不良信息过滤方法

3．1 网络内容分级

当前，就网络内容规范途径而言，除了以计算机软件作为规范网络内容的手段之外，内容分级是一个备受关注的焦点。网页内容分级就是对网络信息分等级、分类别地进行过滤的方法，它预先按照一定的分级标准对网页或网站进行分级，当用户访问时根据分级标记决定能否访问。分级可以由自我分级和第三方分级两种方式完成。自我分级是由网页作者针对自己网站的内容，在不同的向度下给予适当的标记，并将等级标签嵌入网页原始码或表头中。第三方分级是由第三方组织机构针对网站内容给予各向度之分级，分级标签则是透过标签机构(Label Bureau)分发。用户在使用时可通过下载过滤系统分级档案，并在浏

览器中设置不同的向度，在浏览网站时，浏览器会依据用户设定的向度级别，筛选出合适的网站信息。

3．2 URL过滤

据Gartner统计，2005年全球URL (Uniform ResourceLocation)信息过滤市场增长23．6％，达到3亿美元。URL过滤是目前阶段及今后一段时间中可以实际采用的技术。在因特网上，使用统一资源定位符URL来标志互联网上的各种文档，可使每个文档在整个因特网范围内具有唯一的标识符以便用户选择使用。正是由于URL的唯一性，可以利用URL过滤互联网上的信息。

3．3 文本内容过滤技术

上述方法实现简单，但其最大的缺陷就是过滤过于规则化，无法动态地辨别文档的实际含义，只要满足过滤规则就会被过滤掉，文本内容过滤技术能较好地克服这一缺点。基于内容的文本过滤相似于信息检索，往往采用与信息检索类似的技术，已有一些算法用来分析文档的内容，主要有关键词匹配法、潜在语义索引法和神经网络法。

3．4 多媒体信息过滤技术

现代网络不良信息不仅仅是以文本的形式出现，还包括大量的多媒体信息。多媒体信息不仅包括文本信息，还包括图像信息、音频信息和视频信息，因此多媒体信息的过滤要比文本信息过滤困难得多。目前对多媒体信息过滤主要有两种方法，第一种是基于文本的多媒体信息过滤，第二种是基于内容的多媒体信息过滤。

四．参考文献

[1] 林阳，祝智庭．网络教育内容分级标准研究[J]．现代教育技术，2005 (5)：3843

[2] 黄晓斌，邱明辉．网络信息过滤方法的比较研究[J]．大学图书馆，2005 (1)：4248

[3] 符敏慧．基于文本的信息过滤模型[J]．图书馆理论与实践，2006 (2)：4345

[4] 张选芳．Intemet网络安全的信息过滤模型分析[J]．电子科技大学学报，2004 (6)：

270-272

[5] [2006-10-23]．http：//www.icra.org/label/generator/

[6] 中文反黄软件大比拼[EB/OL].[2006—10-23].http://www.fslan. Com/pmlnfo.asp? Id=15

[7] 三大法宝让孩子网上“ 绿色行”[EB/OL]．[2006-10-23]．http://it. hangzhou. con. Cn/2004 0101/ca823497. Htm

[8] Gordon S．Linof Michael J．A．Berry Mining the Web：Tranformmg CustomcrData int Customer Value

[9]Jiawei Hart，Mi cheline Kamber．Data Muung—Concept and Tachnique~Academic Press，2000

[10]Mi~of I I，Pearson C M．Crisis management： a diagnosticguide for improving your organ ization'S crisis—preparedness[M].San Francisco：Jossey-Bass,1993:21

[11] 任正非华为的冬天[EB/OL].[2006-03-28]．http://ech.qq.com/a/20050416/000051/.htm

[12] 零点公司.调查显示京沪半数企业危机管理[N]．经济参考报，2004-07-29

[13] 郑德俊.企业危机信息预警机制研究[D]．南京：南京大学，2006：27

[14] 李春森.对企业责任追究制度的探讨[J]．交通企业管理，2002 (8)：27-28

毕业论文开题报告

２．本课题要研究或解决的问题和拟采用的研究手段（途径）：

本课题将结合学到的及检索到的知识，以浏览器打开的网页为研究对象，研究能够过滤不良信息的屏蔽软件。具体内容：对网页信息内容（主要为文字）分析；设计网页数据包过滤算法；算法设计与实现；

1 、PageRank算法

PageRank算法的基本思想是：页面的重要程度用PageRank值来衡量，PageRank值主要体现在两个方面：引用该页面的页面个数和引用该页面的页面重要程度。一个页面P（A）被另一个页面P（B）引用，可看成P（B）推荐P（A），P（B）将其重要程度（PageRank值）平均的分配 P（B）所引用的所有页面，所以越多页面引用P（A），则越多的页面分配PageRank值给P（A），PageRank值也就越高，P（A）越重要。另外，P(B)越重要，它所引用的页面能分配到的PageRank值就越多，P（A）的PageRank值也就越高，也就越重要。

其计算公式为：

PR（A）：页面A的PageRank值；

d：阻尼系数，由于某些页面没有入链接或者出链接，无法计算PageRank值，为避免这个问题（即LinkSink问题），而提出的。阻尼系数常指定为0.85。

R（Pi）：页面Pi的PageRank值；

C（Pi）：页面链出的链接数量；

PageRank值的计算初始值相同，为了不忽视被重要网页链接的网页也是重要的这一重要因素，需要反复迭代运算，据张映海撰文的计算结果，需要进行10次以上的迭代后链接评价值趋于稳定，如此经过多次迭代，系统的PR值达到收敛。

2 、Topic-Sensitive PageRank算法

由于最初PageRank算法中是没有考虑主题相关因素的，斯坦福大学计算机科学系Taher Haveli-wala提出了一种主题敏感（Topic-Sensitive）的PageRank算法解决了“主题漂流”问题。该算法考虑到有些页面在某些领域被认为是重要的，但并不表示它在其它领域也是重要的。

网页A链接网页B，可以看作网页A对网页B的评分，如果网页A与网页B属于相同主题，则可认为A对B的评分更可靠。因为A与B可形象的看作是同行，同行对同行的了解往往比不是同行的要多，所以同行的评分往往比不是同行的评分可靠。遗憾的是TSPR并没有利用主题的相关性来提高链接得分的准确性。

3、 HillTop算法

HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法，避免了许多想通过增加许多无效链接来提高网页PageRank值的作弊方法。HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性，通过不同位置的评分确保了主题（行业）的相关性，通过可区分短语数防止了关键词的堆砌。

但是，专家页面的搜索和确定对算法起关键作用，专家页面的质量对算法的准确性起着决定性作用，也就忽略了大多数非专家页面的影响。专家页面在互联网中占的比例非常低（1.79%），无法代表互联网全部网页，所以HillTop存在一定的局限性。同时，不同于PageRank算法，HillTop算法的运算是在线运行的，对系统的响应时间产生极大的压力。

4 、HITS

HITS基本思想是：算法根据一个网页的入度（指向此网页的超链接）和出度（从此网页指向别的网页）来衡量网页的重要性。在限定范围之后根据网页的出度和入度建立一个矩阵，通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。

实验数据表明，HITS的排名准确性要比PageRank高，HITS算法的设计符合网络用户评价网络资源质量的普遍标准，因此能够为用户更好的利用网络信息检索工具访问互联网资源带来便利。

毕业论文开题报告

指导教师意见：

指导教师：

年月日

所在系审查意见：

系主任：

年月日