ELECTRONICS WORLD・探索与观察 基于大数据的认识与分析 合fJe,_T_,3k_大学王胜利 【摘要】在前些年里,由于云计算等新型技术的出现,使得人类的生产生活方式发生了根本性转变,同时这些技术的发展使得人们汇聚、存 储和处理数据的能力超过以往,因此提取有价值信 E-的能力也在日益提高,开启了大数据的大门。电子商务、互联网、社交媒体、数码设 备、物联网的快速发展推动了数据的增长,人类已经真正进入到大数据时代,“大数据”概念的出现逐渐成为了一种发展趋势,必将带动人 类朝着一个更加有利的方向发展。 【关键词】SEMANMR架构;代价估计;数据挖掘 0引育 自从出现“云”的概念进入云的时代以来,全世界的各个国家各 个领域保存了大量的数据,这些海量的数据使得三个方面发生了巨大 的变化。其一是大数据的硬件由原来的单机系统变成现在多机系统即 分布式处理系统,所以并行编程及其模型将是研究的重点;其二就是 数据的表示即大数据流处理规则和语义描述;其三,就是大大的促进 数据挖掘技术的改善。因此我将从上述三个方面做出讨论。 1基于大数据的并行编程及其模型 大数据的整个处理过程是基于分析模型SEMANMR而产生的。 一般处理流程为用户提交SEMANMR作业,分配到线程池,通过基 于语义的作业调度完成调度,形成线程池,存放 ̄IJSLAVES里面, 通过SEMANMR控制器实现控制,最后将计算结果放入缓存器,存 入本地文件,返回给用户即可,这个处理流程是大数据处理的核心 过程,具体流程如图l所示。 在整个系统实现过程中,包含了几大关键技术: 1.1 SEMANMR交互方法 该交互方法主要相对于传统交互方法而言具有极大的优越性, 传统交互方法即HADoOP与其框架MAPREDUCE交互规则为每发 送一个信息就产生一个响应应答信息(TRAcKER到T0BTRAcK— ER PING),这样产生的直接后果就是J0BTRACKER一直在处理 发过来的信息且忙于应答,交互效率及其低下。而SEMANMR采用 一种交换角色的方法,将发送更换为JOBTRACKER(只需要发送 一条P G消息),正常的TRAcKER接收者不产生应答消息,只有 当该接收者出现错误时才产生应答消息,具体流程图如图2所示。 图1具体流程图 图2具体流程图 1_2 SEMANMR中基于语义的调度算法 在这个架构实现过程中,作业调度是实现有序操作的关键,主 要将MASTER集群的M台节点里面的很多作业分配到相应的作业缓 存池,现在一般采用二维数组的方式存储,当然也可以采用一维数 组存储,只是访问方式比较繁琐,采用二维数组结构设定如下: 线程池一:{M[1l【1】,Mill[2],M[1][31…………M(1】【n】} 线程池二:{M[2】[1],M[2】[2],M[2】[3]_.………・M[2]【n]} 上述线程池里面的每个任务只要满足优先排序语义规则、负载 均衡、故障调度、语义调度四个规则即可完成SEMANMR调度。 2基于大数据流处理的规则 对于数据流语义规则的描述。在SEMANMR里面一般采用规则 节点图形化模型表示,而描述对于数学而言一般采用计算的方法, ・64・ 电子.I},● 所以计算规则节点相关参数成为了该部分的关键。相对于离散数学 而言,规则节点计算基本保持了离散数学对于笛卡尔积等关系运算 的实用性。主要包括流量计算和代价分析。 流量计算:主要以规则交点集为计算目标,设有N个入度,称 为L1,L2…..LN,同时设出度流量为M,则: Ⅳ ∑厶 j (n厶) ,( e 等一】) n厶 ¨ 其中规则交集流量节点入度一般大于三,即Ll,L2,L3…….., 一股对于最小流量而言,只要其中条件有一个不满足,则M=O;对 于最大流量而言,若均满足条件,则: 对于规则联合节点而言,出度流量的计算一般是入度与联合操 作参数的乘积,设规则联合入度有二个即x1、X2,联合条件一般 为关系运算“或”,根据最小最大流量分析,可得到联合操作参数 的取值集和为: [1 max{Xl,X2}]. 朋+肌所以只要满足上述取值,则可以得到c=(X1+X2) V。 代价分析主要是基于上述规则交点集流量计算而推导的代价 的分析。计算规则节点代价虽然有多种模式,但是其一般模型为 Cost(A)=Cost(B)+cost(c),其中A为各种节点或者节点集,B一般是搜索 手段采用遍历,c一般为比较选择判断,从而计算出各种节点的代价。 其中重要的是规则联合节点计算,仍然设N个入度,称为 Ll,L2…..LN, 节点的可联合性,P设为遍历一次的时间(也可以 设为多次遍历的时间,因为一次时间太小,不利于统计),I为一 次的总时间,则可以得到: Cost(A) (∑‘) q1L。)q ‘ e 代价相对而言还是容易估计的这对于我们选择合适的节点度量 其代价,设计出代价相对较小的数据处理而言具有重要的意义。 3数据挖掘技术的演变 由于数据复杂程度增加,因此必须发现数据之间的相互关系, 使得数据大致满足一定的规律,因此数据分析将变得尤其重要。一 个极好的算法可以大大优化代码,提高数据关联度。目前国际上主 要使用:分类算法、聚类算法、关联算法等等。其中比较有难度的 就是关联规则算法,该算法是用两个概率公式衡量的: S(X->Y)=R(ⅪⅣ)/N C(X_>Y)=R(XUY)瓜(X) 这两个公式目前对于关联规则的数据挖掘具有特别重大的意义。 4结束语 通过对大数据的具体任务的分析,必须了解处理海量数据的方式 方法。大数据云计算目前展现出了计算机前所未有的活力,各个行业 数据云集,促进了计算机产业、数据分析、数据挖掘等技术的出现, 在将来大数据必将以海量化、多样化、速度化、价值化面向世界。 参考文献 【1l毛国君.数据挖掘原理与算法【M】.清华大学出版社,2017. 【2]贾双成,王奇.数据挖掘技术核心揭秘 圳.机械工业大学出版 社.2016.