基于Lucene+Java+Python实现的校园搜索引擎系统课程论文+项目源码-毕业作品网站

设计任务书文档开题答辩说明书格式模板外文翻译范文资料作品文献课程实习指导调研下载网络教育 计算机 网站网页 小程序 商城购物订餐电影安卓 Android Html Html5 SSM SSH Python 爬虫大数据 管理系统 图书校园网考试选题网络安全推荐系统机械模具夹具自动化数控车床汽车故障诊断电机建模 机械手 去壳机千斤顶变速器减速器图纸电气变电站电子 Stm32 单片机 物联网 监控密码锁 Plc 组态控制智能 Matlab 土木建筑结构框架教学楼住宅楼造价施工办公楼给水排水桥梁刚构桥水利重力坝水库采矿环境化工固废工厂 视觉传达 室内设计产品设计 电子商务 物流盈利案例分析评估报告营销报销会计

首　页

机械毕业设计

电子电气毕业设计

计算机毕业设计

土木工程毕业设计

视觉传达毕业设计

理工论文

文科论文

毕设资料

帮助中心

设计流程

购买资料

您现在所在的位置：首页 >>计算机毕业设计 >> 文章内容

我们提供全套毕业设计和毕业论文服务，联系微信号：biyezuopinvvp QQ：1015083682

基于Lucene+Java+Python实现的校园搜索引擎系统课程论文+项目源码

立即下载此资料（付费）

文章来源：www.biyezuopin.vip 发布者：毕业作品网站

校园搜索引擎实验报告
目录
实验环境 1
实验内容 1
实现过程 2
抓取校园网资源并处理 2
分词处理 3
词表建立 4
结果排序 4
查询提示 5
查询纠错 5
关键词高亮 5
语音输入 5
快速预览 5
相关推荐 5
使用说明 7
主页 7
查询推荐 7
查询提示 8
查询结果纠错 9
页面预览 9
性能评价 9
概述 9
查询样例 10
构建相关性标注集合 10
性能分析 11
总结 11
实验环境
apache-tomcat-7.0.86 paoding-analysis-2.0.4-beta IDEA ULTIMATE
win10
实验内容
综合运用搜索引擎体系结构和核心算法方面的知识，基于开源资源搭建搜索引擎，具体包括如下几点：
1.抓取清华校园网内绝大部分资源，并且进行预处理；
2.基于Lucene实现校园搜索引擎——太强搜索；
3.加入关键词纠错、查询提示、语音搜索、相关推荐功能，以提高太强搜索的体验；
4.美化Web界面，实现关键词高亮、快速预览等功能；
5.完成对于太强搜索的性能评价。
实现过程
抓取校园网资源并处理
使用 Heritrix 抓取工具，抓取 HTML，PDF，M.S.Word 格式的文件28万份，共计31GB。编写 Python 脚本处理抓取到的数据，解析成 json 文件: 首先遍历所有抓取到的文件，为每一个文件分配一个 ID，文件与 ID 一一对应，ID 用于之后PageRank的计算。获取文件的标题、文本 (docContent)、标签(h1~h6)、加粗(strong)信息等。使用
BeatifulSoup 库解析 HTML 文件内容，获取其中的超链接，为抓取到的整个数据包构建图结构，根据图结构计算网页的 PageRank，使用pdfminer库解析pdf文件，使用docx2txt库解析word文件。我们发现实际抓到的html文件给出的charset有时是错误的，因此使用了chardet自动判断网页的编码，这样我们便可以处理几乎所有的编码。

全套毕业设计论文现成成品资料请咨询微信号：biyezuopinvvp QQ：1015083682 返回首页立即下载此资料（付费）如转载请注明来源于www.biyezuopin.vip

打印本页 \| 关闭窗口
上一篇文章：基于C++的微流控生物芯片模拟程序设计课程论文+项目源码	下一篇文章：基于Python的发票OCR-数字识别的简单实现课程论文+项目源码

本类最新文章

基于MatlabSimulink …	35kV输电线路继电保护的设计 …	分布式风电场低电压穿越故障建模与 …
大学生内容分享和社交平台的设计与 …	基于SSM框架的企业人事薪酬管理 …	基于大模型的代码注释自动生成与维 …

| 关于我们 | 友情链接 | 毕业设计招聘 |

Email：biyeshejiba@163.com 微信号：biyezuopinvvp QQ：1015083682
本站毕业设计和毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!