信息通信
INFORMATION&COMMUNICATIONS
2019
(Sum.No194)
分布式大数据管理系统的设计与实现研究
张圣杰
(温州商学院教务处,浙江温州325035)
摘要:社会高速发展的同时,数据也呈现爆炸式的增长,传统的数据库管理系统已经无法满足海量数据的存储需求。云
存储技术成为一种新的数据存储方案,在Hadoop分布式系统的基础个,提出了一种基于云计算环境下的分布式大数据管理系统,为海量的文件存储与处理提供平台。对云计算大数据存储系统进行功能分析,同时还对大数据管理系统的框架进行设计,最后通过实验的方式验证了分布式大数据管理系统相比于其他方式的管理系统,处理的速度更快,存储时间更短,存储效率更高。关键词:分布式;大数据;管理系统;设计中图分类号:TP311文献标识码:A文章编号:1673-1131(2019)02-0217-02随着互联网+的崛起,大数据与云计算等技术纷纷出台,并在各个领域中得到了广泛的应用,数据的快速增长为数据的存储与处理带来了压力,大数据技术的出现能够满足系统对于性能的要求,从而获取可扩展的功能,降低计算机运行的成本,同时还可以拓展数据分析的领域。云计算作为大数据处理的基础,其技术发展与大数据处理分析的能力密切相关,大数据技术作为云计算的延伸,需要一种合适的解决方案为数据存储提供处理的平台。
集的处理时,会从HDFS作为入口,将数据解析成对应的形式,根据相关需求重写方法,继而对数据进行并行处理。
该模型的优势在于能够自动划分需要处理的数据集,数据传输速度快,因而被广泛的应用在很多的领域中,在本文所介绍的分布式大数据管理系统中就会应用到该编程模型,以便对海量的数据进行高效处理[4]。
3云计算下大数据管理系统的设计
本系统设计了一款基于云计算下的分布式大数据管理系统。分布式的数据存储方式较多,数据量较大,难以达到统一的标准,需要通过分布式的网络结构对云计算下的大数据进行存储管理。分布式大数据中的应用层主要为云计算提供接口;会话层权限较多,具有安全执行的能力;数据层就是对数据进行统一管理;路由层则是保证数据之间能够完成路径计算的功能。
1大数据与云计算之间的关系
大数据技术的意义不在于海量的数据信息,而在于将这些海量的数据进行专业的处理,如果将大数据比作是一种领域,则处理数据的能力则是让这一领域实现盈利的关键,通过“加工”的方式让数据产生价值。大数据无法使用单台计算机进行处理,必须要运用到分布式架构[1],分布式架构的特色在于对海量的数据进行分布式的数据挖掘,但是必须要依托云计算的分布式数据库以及云存储等技术。随着云时代的到来,大数据受到了越来越多的关注,大数据分析经常与云计算联系在一起,因为对大数据集进行分析时,需要使用MapRe-duce框架为多台电脑分配工作,会花费过多的时间和金钱。大数据需要使用特殊的技术进行处理,适用于大数据处理的技术有并行处理、数据挖掘、分布式数据库以及云计算平台等。
3.1云计算下大数据分析
云计算下的分布式大数据分析就是对云计算的客户端与
服务器进行集成,将云计算数据库集成在同一个数据库中,利用云计算下的分布式服务器完成大数据的分析功能。云计算客户端主要是通过组件的方式集成在一起,用户安装软件时也需要安装客户端。云计算环境下,对大数据进行采集是进行数据存储与管理的基础,随着互联网技术的快速发展,分布式的大数据越来越多,数据之间的关联也越来越复杂,因此需要提高大数据管理系统的采集速度与处理精度。对大数据进行处理后,需要对大数据进行分析,通过分析将大数据的价值进行体现,将有价值的数据进行存储。
2Hadoop
Hadoop是一种可兼容且能够进行数据存储的云计算平
台,基于Hadoop大数据平台进行分布式数据处理,能够极大的提高数据集的处理速度,处理的数据更高效。Hadoop云计算平台上有两大核心组建,分别为HDFS和MapReduce[2]。(1)HDFS:分布式文件系统,支持多种数据存储,采用的是主从结构,其中主节点就是分布式文件系统,从节点是Slav-er;HDFS会将数据文件进行划分,每一个数据块都会存储在集群中的DataNode中,这种存储的方式能够提高容错能力,有较高的可用性。
(2)MapReduce:是一个编程的框架,能够对海量的数据进行并行处理,对数据进行自动划分,还可以自动执行计算的任务,不需要开发者自己设计并行计算的策略,只需要根据客户需求编写步骤就可以实现分布式计算的功能。其核心分为两部分,其一为Mapper,将底层文件系统的数据分成片提供给Reducer;其二为Reducer就是将相同的值进行合并[3],将输出的结果反馈到底层的文件系统中。使用MapReduce进行数据
3.2云计算下分布式大数据管理系统框架设计
云计算也称为分布式计算,主要就是将网络中的计算节点作为数据库,对网络中的资源进行整合与管理。Hadoop作
为云计算的核心技术[5],HBase则是Hadoop的重要组成。HBase作为一种分布式的存储系统,为系统进行实时的读写和访问。HBase将海量的数据划分成不同的数据,每一个区域中都包含了一个子集。采用分布式架构中的主从模式,能够保证数据的可扩展性。
3.3算法设计
对云计算大数据存储的结构进行分析时,要根据云计算下的大数据调度模型和存储概念算法设计,得到存储分布规则,针对存储系统的不同类型构建规则调度模型:
(1)217
基于聚类遗传算法的移动基站选址规划
王亚伟,张卢家,王勇智
(同济大学中德学院,上海200092)
摘要:移动通信基站的规划问题是一个拓扑结构多目标优化的问题,寻优过程是一个十分复杂的过程,易陷入局部最优
以及不稳定,尤其是基站和子站的具体选取问题是一个多目标非线性问题,同时涉及到成本以及传输损耗最优的问题,文章提出一种基于聚类遗传算法的基站选取方法。通过使用实际数据获得的仿真结果显示,该方法能兼顾成本和损耗的最优,且该算法运行时间短,能提供一种高效、低廉的最优基站与子站拓扑规划方法。关键词:覆盖率;拓扑规划;聚类;遗传算法;基站分布规划中图分类号:TN915文献标识码:A文章编号:1673-1131(2019)02-0218-04
MobileBaseStationLocationPlanningBasedonClusteringGeneticAlgorithm
WangYawei,ZhangLujia
(Chinese-GermanSchoolforPostgraduateStudies,TongjiUniversity,ShangHai200092,China)
Abstract:Theplanningproblemofmobilecommunicationbasestationisamulti-objectiveoptimizationproblemoftopology.Theoptimizationprocessisaverycomplicatedprocess,whichiseasytofallintolocaloptimumandinstability.Especiallythespecificselectionproblemofbasestationandsubstationisamulti-objectivenonlinearity.Theprobleminvolvesthecostandtheoptimaltransmissionloss.Thispaperproposesamethodbasedonclusteringgeneticalgorithmforbasestationselec-tion.Thesimulationresultsobtainedbyusingactualdatashowthatthemethodcanbalancethecostandlossoptimally,andthealgorithmhasshortrunningtime,whichcanprovideanefficientandlow-costoptimalbasestationandsub-stationtop-ologyplanningmethod.
Keywords:Coverage;topologyplanning;Clustering;Geneticalgorithm;Basestationdistributionplanning
0引言
随着5G时代的到来,移动运营商将部署宏基站(DeNB)、子基站(RN)等多种形态的基站,现实是当选择好基站部署的
t表示数据采集的时间,各个阶段的时间相加为1;c表示用户存储的代价;q表示存储的质量;s表示损耗的空间;w表示节点数量;表示数据包。假设k为大数据的源数量,需要从中收集k+r个数据包,r>0;为了便于计算与描述,可以将数据包比作y,表示为:
(2)
假设p表示生成矩阵的元素值,对p进行简化,得到:
(3)
s表示大数据管理系统中的存储损耗,w表示节点总数,则:
(4)
通过以上算法,可以完成分布式大数据管理与存储的算法设计。
具体地点之后,往往很难抉择具体部署类型,该过程需要寻求
损耗以及成本的最优解决方案。
当前国内外学者对此提出了多种算法优化,文献[1]使用
5结语
随着大数据与云计算的广泛应用,云计算所达到的数据越来越多,对分布式大数据存储管理也越来越重视,传统的云计算大数据文件存储的运行系统较为复杂,成本较高,可以通过Hadoop平台的基础上进行分布式的大数据管理系统的重新设计,提高数据处理的速度与完整,起到较高的应用价值。参考文献:
廖锋,成静静.大数据环境下Hadoop分布式系统的研究
与设计[J].广东通信技术,2013(10):22-27.
[2]付华峥,陈翀,向勇,等.分布式大数据采集关键技术研究
与实现[J].广东通信技术,2015,35(10):7-10.
[3]基于大数据的日志管理系统的设计与实现[D].东北大学,2014.作者简介:张圣杰(1985-),男,助理实验员,主要研究领域为计算机网络、高校信息化建设、实验室建设与管理、大数据与云计算。[1]
4实验结果与分析
为了证明提出的基于云计算下的分布式大数据管理系统的有效性,需要对该系统进行测试,以IntelP42GB作为系统的硬件环境,通过模拟的方式对大数据的存储情况进行仿真。通过对比法的方式验证大数据管理系统的性能,从而完成实验。针对本文提出的云计算下的分布式大数据管理系统与非结构化的大数据存储系统存储的时间进行对比,结构如表1所示。对同样大小的大数据进行存储,本文提出的方法存储时间更短,存储速度更快。
表1两种大数据存储方法的时间对比表218
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- dcrkj.com 版权所有 赣ICP备2024042791号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务