毕业设计(论文)
译文及原稿
译文题目:
|
通过评估上下文的词频对文本进行分类
|
原稿题目:
|
Context-BasedTermFrequencyAssessmentforText
|
|
Classification
|
原稿出处:
|
Rey-LongLiu
|
|
DepartmentofMedicalInformatics,TzuChiUniversity,
|
|
Hualien,Taiwan,R.O.C.
|
通过评估上下文的词频对文本进行分类
摘要
自动文本分类(TC)对于信息管理至关重要。为了正确地对文档d进行分类,必须识别d中每个术语t的语义,而语义在很大程度上取决于d中t的上下文(相邻术语)。因此,我们提出了一种技术CTFA(基于上下文的术语频率评估),该技术通过考虑测试文档中的术语上下文来改进文本分类器。术语上下文识别的结果用于评估术语的术语频率,因此CTFA可以轻松地与将其TC决策基于术语频率的各种文本分类器配合使用,而无需修改分类器。而且,CTFA是高效的,不需要大量的内存或特定领域的知识。实验结果表明,CTFA成功地提高了几种文本分类器在不同实验数据上的性能。
1. 介绍
自动文本分类(TC)对于索引,归档和推荐信息至关重要。对于每个类别c,文本分类器旨在接受所有属于c的文档,同时拒绝所有不属于c的文档。为了做出接受和拒绝决定,分类器需要估计每个文档d相对于c的接受程度(DOA)(例如d与c之间的相似性,或d属于c的概率)。但是,不能期望完美的DOA估计(Liu,2008;Zhang和Callan,2001;Arampatzis,Beney,Koster和Weide,2000),这主要是因为难以识别和正确编码所有有用的TC证据且计算资源有限(例如记忆和培训文件)。
在本文中,我们探讨了如何使用术语上下文识别来改善DOA估计。目的是提高各种文本分类器的性能,无需修改分类器,使用大量内存或进行昂贵的计算。该想法是受以下事实启发的:对文档d的DOA估计应基于d中各项的语义,而一项可能具有多种语义,甚至可以从许多不同的角度进行讨论。例如,医疗保健信息提供者MedlinePlus1中的“女性激素”一词可能出现在来自数十个不同健康主题的数百份文档中,包括糖尿病,唾液腺疾病,子宫癌,甚至男性健康。为了解决各种语义问题,术语上下文信息很有用,因为文档d中术语t的语义通常取决于d中t的上下文
(相邻)术语。通过识别术语上下文,DOA估计可能更合适。在下一节中,我们通确定要解决的几个挑战进一步阐明研究的目标。因此,我们提出了一种新颖的技术CTFA(基于上下文的术语频率评估),该技术通过对术语上下文进行编码以评估术语的语频率来改进分类器(请参阅下面的CTFA)。CTFA是高效的,并且可以与各种文本分类器一起使用,而无需任何特定领域的知识和对分类器的修改。进行了经验评估,以评估不同环境设置下的CTFA(请参见下面的实验)。CTFA被证明可以增强各种分类器,以获得更好的性能。
2. 相关工作