毕业设计(论文)
译文及原稿
译文题目:
|
基于改进的可变染色体长度遗传算法(CQGA)在大规模
|
|
联邦云QoS时间序列数据中的聚类
|
原稿题目:
|
Clustering of large scale QoS time series data in federated
|
|
clouds using improved variable Chromosome Length Genetic
|
|
Algorithm(CQGA)
|
原稿处出:
|
Expert Systems with Applications Volume 164, February 2021,
|
|
113840
|
基于改进的可变染色体长度遗传算法(CQGA)在
大规模联邦云QoS时间序列数据中的聚类
Amin Keshavarzi, Abolfazl Toroghi Haghighat, Mahdi Bohlouli
基础科学高级研究所计算机科学和信息技术系,伊朗赞詹
摘要
联邦云中的服务监控生成的各种未知、频繁和异常模式的大规模QoS时间序列数据。这可能与资源供应不准确有关,应通过预测性和预防性措施来避免违规行为。在这种情况下,需要以专家、系统的形式来提供足够智能的决策。因此,如何从联邦云的QoS时间序列数据中有效地发现未知的、频繁的异常模式是本文的主要挑战。另一方面,联合云中的QoS时间序列是未标记的,由频繁的异常结构组成。研究表明,聚类是从未标记的数据中发现特殊模式和结构的最常用和有效的方法。但是聚类通常与需要优化的时间开销以及精度问题相关,且主要是与收敛和找到最佳集群数有关。这项工作提出了一个新的基于遗传的聚类算法,相比于传统聚类算法显示出更好的准确性和速度,更为先进。此外,该算法可以在聚类的同时找到最佳的聚类数目。实验结果表明,该方法的准确性和收敛性保证了它在专家系统中的应用,主要用于联邦云中的资源供应和进一步的自主决策。除了科学研究外,本文提出的方法也可供联邦云服务提供商在实践中使用。
目录
译文及原稿
大规模联邦云QoS时间序列数据中的聚类
摘要
1.介绍
2. 相关工作
2.1 聚类算法
2.2 讨论
3. QoS时间序列聚类
3.1 问题定义
(9)M=(qti,j)m×n
3.2 .相似度/距离量度
3.3 拟议的基于遗传的聚类方法
3.3.1 染色体代表
3.3.2 人口初始化
3.3.3. 适应功能
3.3.4 建立交叉算子
3.3.5 建立变异算子
3.3.6 选择
3.3.7 终止标准
3.3.8 算法说明
4 实验结果
5 .结论
1.介绍
聚类是一种描述性的数据挖掘任务,主要用于未标记的数据,其中相似的结构归类为聚类,而无需事先了解组的定义(Han,Pei和&Kamber,2011年)。同一群集中的对象彼此之间具有最小距离,而与其他群集中的对象之间具有最大距离。从信息检索(Hasanzadeh和Keshavarzi,2009年)到生物信息学和计算(Kiani,Mahdavi和Keshavarzi,2015年),聚类在许多领域用于许多不同的目标和应用。它是用于数据探索和汇总的有用技术,可以单独使用或与其他数据挖掘任务结合使用。也可以对静态或动态数据项进行聚类。静态数据项的功能不会随时间变化。但是,今天,在许多实际应用中,数据以某种时间序列长时间存储。时间序列聚类作为一个热门研究课题,旨在揭示隐藏的数据模式(Zhang,Liu,Du和Lv,2011年)。大部分文献研究都是基于静态数据进行的(Agustı等人,2012;Bandyopadhyay和Maulik,2001;Chang等人,2009;Tseng和Yang,2000)。在最近的十年中,已经在时间序列的聚类方面做出了大量努力。聚类可以在称为序列聚类的整个时间序列上进行,也可以在时间序列的一个子部分上进行,即子序列聚类(Keogh&Lin,2005)。在本文中,仅考虑对时间序列数据进行序列聚类。
此外,近年来,出现了诸如大数据(Bohlouli等,2013)和云计算(Keshavarzi,Haghighat和Bohlouli,2017)等新技术。这些概念考虑了相关数据集的数量和种类的指数增长。例如,WSDream(Zheng,Zhang,&Lyu,2012)拥有491,460个时间序列和64个时隙。因此,在海量数据的情况下,时间序列聚类不可避免地会有新的改进和发展。还应指出,诸如WSDream的数据集只是现实世界数据集的一小部分,因此实际应用甚至比此类估计要大得多。
联邦云中的主要问题是QoS时间序列数据中存在有价值的频繁和异常模式,这些模式可用于促进进一步的决策动作。发现频繁模式有益于将来更快地做出与这些频繁模式具有相同或相似特征的情况的决策(Keshavarzi等人,2019 ; Kiani等人,2020)。主要在安全问题或攻击等情况下,异常模式可用于避免做出关键决策。此外,该QoS时间序列数据也未标记,并且由各种有趣的模式组成。这种时间序列数据的聚类导致相应地在同一聚类中安排大多数相似的异常和频繁模式,因此,将其用于决策制定中,例如自主资源供应和预防性SLA违反预防。如果决策方法显示出准确而快速的结果,则可以将其作为专家系统集成到联邦云中的资源供应和调度组件中。
时间序列聚类的先前研究涵盖了三个主要问题:(1)定义时间序列的相似性度量;(2)开发聚类算法;(3)确定最佳聚类数。根据文献(Aghabozorgi,Shirkhorshidi和Wah,2015年),时间序列之间存在各种距离度量,例如动态时间规整(DTW)(Wang,Yu,Pedrycz和&Yu,2019年),Pearsons相关系数(PCC) (Lee Rodgers&Nicewander,1988),欧几里得距离(ED)(Faloutsos,Ranganathan,&Manolopoulos,1994),基于互相关的距离(Golay等,1998),和基于概率的距离(Kumar,Patel,& Woo,2002)。进行研究(Aghabozorgi et al。,2015,Liao,2005)揭示了基于动态编程的距离测度(例如DTW)是最有效,最准确和最受欢迎的时间序列相似性测度,即使它们执行时间昂贵。