PDF下载
多区域大规模迭代计算框架应用研究

王晓斌1 卢福军1 殷颖1 闫萌2 马忠义3

1.中国联合网络通信有限公司山西省分公司;2.山西建筑工程(集团)总公司;3.东北大学软件学院

摘要: 大数据环境下迭代计算是近年来的研究热点。文章基于大数据环境中的数据分散性、数据分区存储性、全集-局部数据分析的相对性等特点,提出基于Spark的多区域大规模的迭代计算框架,并给出多区域迭代计算框架和原生Spark框架的性能对比。该框架能够对广分布的大数据分区多级进行迭代分析,优化算法的执行过程,缩短算法的执行时间,可以很好地适用于中国联通多层级组织机构对通信数据分析的需求,对于迭代算法的运行框架优化具有积极的指导和实践意义。
关键词: 迭代计算;多区域;大规模;迭代计算框架;大数据;Spark
DOI:
基金资助:
文章地址: