文 献 综 述
一.研究背景
随着互联网技术出现至今不过短短几十年的时间,但是正是在这并不算太长的时间里经历的不断发展,使得互联网技术对每个人的生活都产生了极其深远的影响。相对于传统意义上的网站而言,在二十世纪末二十一世纪初所兴起的Web 2.0技术不仅带来了最新的技术,也致力于将提升用户使用体验作为目标。在这样的动力之下,也带动了各种提升用户的网站使用体验和优化网站结构以及个性化用户访问等等方面的研究。
自1995年以来,互联网在我国得到迅速普及,它不仅推动了社会经济的发展,也给我们的学习、工作和生活带来了极大的便利。与此同时,我们也看到,互联网上信息庞杂多样,既有大量进步、有益的信息,也有不少反动、迷信、黄色等不健康的内容。网络不良信息的泛滥给社会发展造成了精神污染,它的出现主要有两个原因:其一是出于政治目的,国内外敌对势力在互联网上发布的旨在颠覆国家政权的信息,以达到不可告人的政治目的;其二是出于经济目的,许多网站提供色情等不良信息链接以引起网民的好奇,从而吸引更多的人登录自己的网站,这样做能够提高点击率,最终赢得更多的经济利益。
二.国内外研究现状
目前比较通用的网页排序算法是PageRank算法.用PageRank算法的网页排序反映的是网页被链接的次数.即一个网页的重要程度取决于其它网页(或网站)对它的评价,因此不能满足每个查询者个人对查询主题的具体要求.对网上广告等链接信息也不能轻易予以剔除。
网页排序应该考虑web数据挖掘所得到的全面信息.主要包括内容信息、结构信息、应用信息。网页内容信息主要是指网页文本的类型和网页相关性 网页结构信息是指网络的拓扑信息,即网页之间的链接信息。传统的网页排序只考虑了以上2种因素,即只考虑网页的具体内容和网页的超链接信息.并没有考虑网页的客户应用信息。这就使得大量的广告网页和陈旧网页在排序时排名非常靠前,影响了用户的需求。因此,网页排序还应当考虑网页更新时间和用户行为.
网络不良信息是指互联网上出现的违背社会主义精神文明建设要求,违背中华民族优良文化传统与习惯,以及其他违背社会公德等的各类信息,包括文字、图片、音频和视频等。网络不良信息具有广泛性、快捷性、多渠道性、隐秘性和社会危害性等特点,对其进行过滤也不同于一般信息的过滤。不良信息过滤与一般信息过滤相比,有其自身的特点:首先,文本倾向性判断比较困难,一般信息过滤中比较容易得到用户感兴趣和不感兴趣两方面的样本,而在不良信息过滤中,正面样本通常较容易获取,负面样本则较难获取,致使负面样本数目较少,负面样本难以判断。其次,一般信息过滤所过滤的信息表达形式稳定,易于利用关键词和词频统计方法进行文本表示,而不良信息制造者往往采取更换表达形式来逃避过滤,增加了过滤难度。
三.网络不良信息过滤方法
3.1 网络内容分级
当前,就网络内容规范途径而言,除了以计算机软件作为规范网络内容的手段之外,内容分级是一个备受关注的焦点。网页内容分级就是对网络信息分等级、分类别地进行过滤的方法,它预先按照一定的分级标准对网页或网站进行分级,当用户访问时根据分级标记决定能否访问。分级可以由自我分级和第三方分级两种方式完成。自我分级是由网页作者针对自己网站的内容,在不同的向度下给予适当的标记,并将等级标签嵌入网页原始码或表头中。第三方分级是由第三方组织机构针对网站内容给予各向度之分级,分级标签则是透过标签机构(Label Bureau)分发。用户在使用时可通过下载过滤系统分级档案,并在浏
览器中设置不同的向度,在浏览网站时,浏览器会依据用户设定的向度级别,筛选出合适的网站信息。
3.2 URL过滤
据Gartner统计,2005年全球URL (Uniform ResourceLocation)信息过滤市场增长23.6% ,达到3亿美元。URL过滤是目前阶段及今后一段时间中可以实际采用的技术。在因特网上,使用统一资源定位符URL来标志互联网上的各种文档,可使每个文档在整个因特网范围内具有唯一的标识符以便用户选择使用。正是由于URL的唯一性,可以利用URL过滤互联网上的信息。
3.3 文本内容过滤技术
上述方法实现简单,但其最大的缺陷就是过滤过于规则化,无法动态地辨别文档的实际含义,只要满足过滤规则就会被过滤掉,文本内容过滤技术能较好地克服这一缺点。基于内容的文本过滤相似于信息检索,往往采用与信息检索类似的技术,已有一些算法用来分析文档的内容,主要有关键词匹配法、潜在语义索引法和神经网络法。
3.4 多媒体信息过滤技术
现代网络不良信息不仅仅是以文本的形式出现,还包括大量的多媒体信息。多媒体信息不仅包括文本信息,还包括图像信息、音频信息和视频信息,因此多媒体信息的过滤要比文本信息过滤困难得多。目前对多媒体信息过滤主要有两种方法,第一种是基于文本的多媒体信息过滤,第二种是基于内容的多媒体信息过滤。
四.参考文献
[1] 林阳,祝智庭. 网络教育内容分级标准研究[J].现代教育技术,2005 (5):3843
[2] 黄晓斌,邱明辉.网络信息过滤方法的比较研究[J].大学图书馆,2005 (1):4248
[3] 符敏慧.基于文本的信息过滤模型[J].图书馆理论与实践,2006 (2):4345
[4] 张选芳.Intemet网络安全的信息过滤模型分析[J].电子科技大学学报,2004 (6):
270-272
[5] [2006-10-23].http://www.icra.org/label/generator/
[6] 中文反黄软件大比拼[EB/OL].[2006—10-23].http://www.fslan. Com/pmlnfo.asp? Id=15
[7] 三大法宝让孩子网上“ 绿色行”[EB/OL].[2006-10-23].http://it. hangzhou. con. Cn/2004 0101/ca823497. Htm
[8] Gordon S.Linof Michael J.A.Berry Mining the Web:Tranformmg CustomcrData int Customer Value
[9]Jiawei Hart,Mi cheline Kamber.Data Muung—Concept and Tachnique~Academic Press,2000
[10]Mi~of I I,Pearson C M.Crisis management: a diagnosticguide for improving your organ ization'S crisis—preparedness[M].San Francisco:Jossey-Bass,1993:21
[11] 任正非华为的冬天[EB/OL].[2006-03-28].http://ech.qq.com/a/20050416/000051/.htm
[12] 零点公司.调查显示京沪半数企业危机管理[N].经济参考报,2004-07-29
[13] 郑德俊.企业危机信息预警机制研究[D].南京:南京大学,2006:27
[14] 李春森.对企业责任追究制度的探讨[J].交通企业管理,2002 (8):27-28
|