目录
题目 2:例句搜索
1.主要数据结构
2.主要算法设计
3.测试过程
4.其它说明
三、课程总结
2. 关于《数据结构(2)》
题目 2:例句搜索
本题使用 Python 语言实现,开发环境为 Mac OS 下的 JetBrains Pycharm IDE。最终成品为 Python 命令行
版本以及 Web 版(Django + Vue.js)。
1.主要数据结构
(1) 语料库
a. 数据文件格式
所有的语料均以 txt 格式存储,文件首行为语料出处(如资讯标题等),对文件标题并无要求。本次课程考核所收集的语料均为 Info 网站上近日的计算机前沿进展与新闻。
图 2-1-1(1) 语料库数据文件格式-1 图 2-1-1(2) 语料库数据文件格式-2
b. 数据结构设计
txt 文件使用 Python 中的 open()函数以及 read()函数打开并读入为 Python 字符串类型。
(2) 例句库
a. 数据文件格式
经过语料处理后,所有被筛选的例句均被存入一 Python 列表(List)类型中,后存入 txt 文件备份。
b. 数据结构设计
图 2-1-2(1) 例句库数据文件格式
在命令行版本中,列表中的每一项为一个 Python 字符串类型,字符串为例句本身及其出处的结合;而Web 版本中,列表中的每一项为一个 Python 列表类型,包含两个字符串,分别为例句本身及其出处,在 Web 请求过程中,列表会转化为 Json 数据格式中的 Array,如图 2-1-2(2)所示,此为“blockchain”一词在语料库中的例句库。