多区域大规模迭代计算框架应用研究
摘要: 大数据环境下迭代计算是近年来的研究热点。文章基于大数据环境中的数据分散性、数据分区存储性、全集-局部数据分析的相对性等特点,提出基于Spark的多区域大规模的迭代计算框架,并给出多区域迭代计算框架和原生Spark框架的性能对比。该框架能够对广分布的大数据分区多级进行迭代分析,优化算法的执行过程,缩短算法的执行时间,可以很好地适用于中国联通多层级组织机构对通信数据分析的需求,对于迭代算法的运行框架优化具有积极的指导和实践意义。