摘 要
人类社会在迎来21 世纪之际, 也迎来了信息革命的挑战。随着信息新时代的到来, 计算机技术广泛应用, 特别是互联网的“光速”发展, 真正产生了信息爆炸。传统的文献处理和检索显然难以适应新时代的发展要求, 因而涌现出了大量的以印刷型检索工具为基础、运用先进的电子计算机技术处理信息的电子、网络版的现代化检索系统。文档检索系统即是一种信息检索系统。用户以输入关键字的形式提出查询,通过计算机检索系统返回的可能相关的文档,获得所要检索的信息。所谓文档检索就是用户提出一个查询,通常以关键字的形式输入,计算机通过关键字匹配,返回可能有关的文档。用户通过查看文档,获取所需要的信息。这类信息检索,不限任何领域,可以快速地返回相关的文档。
企业文档检索系统作为一个完整并且独立的自动化系统, 应具有的主要功能为: 收集、整编、检索、利用等。在这几种功能中, 应以检索、利用功能为主, 系统设计以方便、实用为目标。采用现代化手段收集文档数据, 并能运用计算机技术对所收集的数据进行分类、统计、存储、检索。本论文是利用数据库和程序开发及信息检索理论,针对文档检索的要求,对文档检索系统的功能和结构进行分析与设计,并且依据设计,建立数据库并编写程序,完成在python平台上的系统实现。
关键词:企业文档;文档检索;python;tesseract
Abstract
The human society welcomes the 21 st century, also ushered in the information revolution challenge.With the arrival of the new information age, computer technology is widely used, especially the development of the "speed of light" of the Internet, which really produces the information explosion.Traditional document processing and retrieval are obviously difficult to meet the requirements of the development of the new era, so a large number of electronic information processing based on printing retrieval tools have emerged, using advanced electronic computer technology to process information.Network version of the modern retrieval system.Document retrieval system is an information retrieval system.The user makes a query in the form of input key, and retrieves the Documents that may be relevant to obtain the information to retrieve.The so-called document retrieval is a query which is usually entered in the form of keywords, and the computer returns the relevant documents by keyword matching.The user gets the information he needs by viewing the document.This type of information retrieval, regardless of any domain, can quickly return relevant documents.
As a complete and independent automatic system, enterprise document retrieval system should have the following main functions: collection, reorganization, retrieval, utilization and so on.In these functions, retrieval and utilization should be the main function, and the system should be designed to be convenient and practical.Document data is collected by modern means, and can be classified, counted, stored and retrieved by computer technology.Based on the theory of database and program development and information retrieval, this paper analyzes and designs the function and structure of document retrieval system according to the requirements of document retrieval, and establishes the database and program according to the design. Order, complete the implementation of the system on the python platform.
Keywords: enterprise document; document Retrieval
目 录
摘 要 1
Abstract 2
第1章 绪论 4
1.1选题背景及意义 4
1.2企业文档搜索方案功能特性 5
1.2.1 语义搜索 5
1.2.2 关联发现 8
1.2.3 智能推荐 9
1.2.4 自然语言交互 10
1.2.5 结构化查询功能 10
1.2.6 搜索频道分类 11
1.2.7 搜索权限管理 12
1.2.8 敏感词过滤 12
1.3 技术解决方案 13
1.3.1 搜索引擎服务流程 13
1.3.2 基于语义标注的数据加工 14
1.3.3平台产品技术支撑 15
第2章 企业文档检索系统的设计 16
2.1系统目标 16
2.2应用需求分析 16
2.3功能设计 18
2.3.1用户管理 18
2.3.2辅助表管理 19
2.3.3文档编辑功能 19
2.3.4检索功能 20
2.3.5打印功能 20
2.3.6用户手册 20
2.4 系统功能模块设计 20
2.5 数据表设计 21
2.6系统结构图 22
第3章 企业文档检索系统的实现 23
3.1 非关键部分的设计 23
3.2文档检索与文档信息编辑的实现 23
3.2.1 main窗体 23
3.2.2 Searchform窗体 24
3.2.3 searchform1窗体 25
3.2.4 searchform2窗体 26
3.2.5 editform窗体 26
3.2.6 editform1窗体 27
3.2.7 editform2窗体 28
总 结 29
参考文献 30
附 录 31