齐鲁工业大学
毕业设计(论文)开题报告
课题名称 微博信息传播路径模式研究与分析
课题类型 导师姓名
学生姓名 学 号 专业班级
选题目的及意义:
“微博”是一种新型的交流方式,虽然没有包含太多新的技术,但全新的表达个人思想的方式让所有刚接触微博的人耳目一新,它改变了人们写博客的方式,它也让写博客又进一步地平民化了。在“微博”时代,微小的个人事件都可能会进入网络。博客说“大事”,微博讲“小事”,已成为当下不少年轻人的网络生活新方式。 微时代,即以微博作为传播媒介代表,以短小精炼作为文化传播特征的时代。 ,微时代信息的传播速度更快、传播的内容更具冲击力和震撼力。人们恍然发现,原来传播交流信息乃至进行情感沟通,仅仅通过百余字就完全可以实现。对于接受者而言,消化信息的时间非常有限,而信息内容与数量却异常丰富,这就要求信息生产者提供具有高黏度、冲击力巨大、可以在极短时间内吸引受众并提高受众的阅读兴趣的内容 在我们的微博的理解之中和我们日常体验中使用最多的就是文章、心情的发博(就是我们通常说的“发微博”)和对他人发布微博内容的评论。所以这二个环节是微博的核心内容。
微博客是比博客更轻便的一种信息发布形式,也是一种新的网络公共空间,个体可以通过电脑和手机等终端在微博上发布信息,并获得自己关注的对象发布的信息。在美国的微博博客Twitter推出3年之后,2009年下半年,微博客在中国网络中兴起,对论坛、博客等网络应用形成了强大的冲击,也给网络信息传播方式带来影响。微博客之所以能迅速普及并在社会生活中扮演重要角色,与它在传播模式与机制方面的特性相关。深入分析其传播模式与机制,才能真正认识到微博客对于未来网络信息传播的影响。
国内外研究现状:
信息传播Dissemination of Information也可以称为信息扩散Information Diffusion、信息流动(Information Flow)等。在早期,研究信息传播的人员大部分是市场学家、流行病学家和社会学家,他们的主要研究工作是分析产品(Innovation)、流行病(Epidemic)和创新(Product)在真实的社会网络中的传播情况,但是由于在真实社会网络中大规模数据的获取非常困难,所以这些研究人员的研究通常问卷调查方式获取数据,所以他们采用的数据集都很小,并且多是一些定性的研究。
但是,近几年随着社会媒体的发展,大量的在线数据可以通过各网站提供的API非常方便而且快速的获取,这些在线数据不仅包括大规模的社会网络的结构信息,还有信息在社会网络中传播的真实数据,通过这些数据可以得出信息的传播轨迹,信息传播网络等许多非常有用数据信息,通过这些数据信息,可以非常方便的研究在社会媒体中信息传播的规律。由于信息传播的数据不仅包括文本数据,更重要的是还包括传播网络的结构数据,并且数据规模非常巨大,所以,目前该研究吸引了很多的过去研究复杂网络、自然语言处理、信息检索、大规模数据挖掘等计算机领域的研究者。
近年来,国际学术界关于在线社会网络中的信息传播的论文,大量出现在计算机领域的数据挖掘、互联网技术的顶级会议(KDD, WWW, WSDM, ICDM,SIGIR, CIKM等),世界高影响因子期刊PNAS连续刊载了数篇信息传播的论文。目前在线社会网络中信息传播的主要研究单位及人员有:国外的斯坦福大学(Jure Leskovec, Eldar Sadikov)、哈佛大学(Dashun Wang、密歇根大学(LadaA. Adamic, Eytan Bakshy、康奈儿大学(Jon Kleinberg、南加州大学(RumiGhosh, Krishna Lerman、卡内基梅隆大学(Brendan Meeder, Mary McGlohon ) ,微软研究院Scott Counts;国内的清华大学、北京大学、中科院计算所、大连理工大学、哈尔滨工业大学的研究者。
社会媒体中信息传播的研究并没有一个统一的研究框架,目前研究者们一般是从自身的角度和领域出发,因此各类研究成果层出不穷。目前,对社会网络中信息传播的主流研究大致可以划分为如下两大类:基于理论扩散模型的研究和基于信息扩散树的研究,每类研究下又有相应的子方向。
基于理论扩散模型的研究和基于信息扩散树的研究最主要的区别在于是否直接研究真实的信息扩散数据(信息扩散树)。基于理论扩散模型的研究不直接将信息扩散树作为研究对象,此类研究通常先提出一个理论扩散模型,然后结合理论模型和社会网络进行一系列的研究。传统社会学家、流行病学家和市场学家提出了创新(Innovation)扩散模型、流行病(Epidemic)扩散模型、产品(Product)扩散模型等,这些模型虽然是针对真实的社会网络中提出的,但是创新和流行病等在真实世界的扩散同信息在在线社会网络中的扩散是有很大相似性的,所以这些模型在在线社会网络中也有一定的适用性。目前主要的基于理论模型的研究大都使用的是过去各领域学者提出的一些经典模型或者经典模型的变种,这些经典扩散模型包括:独立瀑布模型(Independent cascade model)、线性闽值模型Linear threshold model)、流行病模型Epidemics model)和博弈论模型Game-Theoretic Model)。基于理论扩散模型的研究的主要方向包括:信息扩散最大化问题、竞争性的信息扩散最大化问题、信息扩散研究基于信息扩散树的研究对象不再是理论扩散模型在社会网络上的虚拟扩散路径,而是真实信息在真实在线社会网络的真实扩散路径,由于信息的扩散路径的形状特征,,信息扩散的路径通常称为信息扩散树(Information Diffusion Tree)或者信息瀑布(Information Cascade)。信息扩散可研究的数据多种多样,从早期的文献引用、Email到近来流行的微博等。
文献引用:论文之间的文献引用的内在结构其实是一种信息流动。对于此类数据,根据文献之间的引用关系构造一个网络,节点是文献,边是引用关系。对于每篇论文,从构造的网络中论文对应的节点出发进行一次广度或者广度优先搜索,就可以获得该论文的传播树。
Email: Email用户之间也构成了一个网络,节点是用户,边是如果两个用户之间有Email往来,这两个用户之间就形成一条边。另外,Email中存在邮件转发机制,某一邮件的转发就可以形成该邮件的扩散路径。
微博:微博目前是国内最火热的社会媒体,也是研究信息扩散的最主要的媒体。微博媒体本身具有很强的用户参与性和信息扩散性,用户之间的关注关系构建了在线社会网络,用户之间微博信息的转发就构成了信息传播树。
参考文献
[1] 王雨竹, 高飞. MySQL入门经典 [M]. 北京:机械工业出版社,2013
[2] (挪) Magnus Lie Hetland. Python基础教程[M]. 司维,曾军崴,谭颖华,译. 北京:人民邮电出版社,2014
[3] (美) James Payne. Python编程入门经典[M]. 张春晖,译. 北京:清华大学出版社,2011
[4] 周中华,张惠然,谢江. 基于Python的新浪微博数据爬虫[J] . 计算机应用,2014,34(11):3131-3134
[5] 王晶,朱珂,汪斌强.基于信息数据分析的微博研究综述[J].计算机应用,2012, 32(7):2027-2029,2037.
[6] 周立柱, 林玲. 聚焦爬虫技术研究综述[J] .计算机应用,2005,25(9):1965-1969.
[7] 刘晶晶.面向微博的网络爬虫研究与实现[D] .上海:复旦大学,2012
[8] 曾小虎.基于主题的微博网页爬虫研究[D] .武汉:武汉理工大学,2014
[9] Ali Mesbah,Arie van Deursen,Stefan Lenselink.Crawling Ajax-Based Web Applications through Dynamic Analysis of User Interface State Changes. ACM Transactions on the Web (TWEB) , 2012, 6 (1) :1-30
[10] Narashima S. Purohit, Meghana Bhat, Akshata B. Angadi, Karuna C. Gull.Crawling through Web to Extract the Data from Social Networking Site – Twitter. Parallel Computing Technologies (PARCOMPTECH) , 2015:1 - 6
[11] 齐鹏,李隐峰,宋玉伟. 基于Python的Web数据采集技术 [J]. 电子科技. 2012(11)
[12] 李鑫. 基于Python的软件测试自动化平台 [D]. 太原科技大学 2014
[13] 郭涛,黄铭钧. 社区网络爬虫的设计与实现 [J]. 智能计算机与应用. 2012(04)
研究内容:
本毕业设计主要针对当前微博中用户身份定位、热点信息挖掘以及负面信息的发现与及时处理等机制进行设计与实现,主要分为数据采集、数据挖掘分析和结果呈现三个部分。主要的工作分工如下:
1. 数据采集(微博爬虫程序)功能的实现,抓取微博文本信息。
2. 对收集到的文本信息进行数据分析,确定舆情热点关键词、分析 用户身份关系。
3. 将分析结果进行数据呈现。微博舆情管理平台预期实现对主流微博平台(新浪微博,腾讯微博等)消息的自动采集分析,得出最近热点词,关键词;输入关键词后可对与此关键词有关的微博消息进行评估预警,提醒使用者及时作出应对措施。
研究方法及技术路线:
初步拟定本课题爬虫程序包括5个重要模块:模拟登录,页面抓取,内容抓取,数据库设计、数据存储模块。对于这5个模块,我给出了我初步理解实现过程:
1.模拟登录流程图:
时间安排:
2016年10月15日~11月15日:调研、文献检索、开题报告
2016年11月 15日~11月30日:开题报告座谈会
2017年3月1日~3月31日:外文资料翻译、系统设计
2017年3月31日~5月15日:系统设计、编码
2017年5月15日~5月20日:测试、验收 2017年5月15日~5月20日:撰写毕业设计文档
2017年5月20日~5月21日:上交论文、系统源代码 2017年5月22日~5月23日:论文答辩
预期结果:
完成爬虫代码设计一份;
完成毕业设计论文一份。
年 月 日