未分类   

大数据平台建设

大数据平台建设

  数据集成

  平台提供统一的数据总线,在传统ETL基础上增加对非结构化数据、流数据、互联网数据的支撑,通过实时数据预处理或单独的批量数据离线处理脚本,协同完成数据清洗、去重、打标签、索引化、分发等大数据管控和治理体系建设。

  对于结构化数据,从技术实现上通过ETL工具进行数据抽取。ETL工具基于业界主流的ETL产品Kettle来实现,支持Oracle、DB2、SqlServer、MySQL等主流关系数据库之间以及到Hadoop的数据抽取。

  对于非结构化数据,特别是互联网相关的网页、图片、视音频文件等,主要通过分布式网络爬虫进行获取。该工具可实现数据采集、抽取、预处理、任务优先级、任务监控的灵活定义。通过与后端的智能化语义处理模块协作,可实现高效的互联网数据价值挖掘。

  数据存储

  在数据存储层面,传统数据存储方式在海量数据场景下,存储容量和读取性能方面都出现了明显的弊端。数据通过不同渠道采集集成到平台之后,平台根据数据的使用方式等采用不同的分布式存储技术进行存储,使得整个数据环境具备高度的伸缩性和扩展性,满足未来快速增长的数据规模,并充分保证数据存储方式的合理性及将来软硬件的扩展能力。除了原来的关系型数据库外,大数据平台还提供如下几种存储方式:

  基于HDFS分布式文件系统,将数据的访问和存储分布在大量服务器之中,在可靠的多备份存储的同时还能将访问分布在集群中的各个服务器之上,通过分布式存储实现数据的冗余备份,并提升大数据的访问存取性能,高效低成本地应对海量非结构化数据和不需要关联分析、Ad-hoc查询较少的低价值密度结构化数据的存储和处理工作。

  KV列式数据存储,针对结构化数据,采用与传统数据库类似的设计模型,支持数字、字符串、二进制和布尔值等多种数据类型;针对半结构化数据,则允许开发者自定义数据模型,提供多种数据访问方式,助力高性能应用程序的开发。

  MPP数据存储,针对海量数据提供无共享的分布式、并行处理架构,应对海量结构化数据的分析挖掘场景。

  内存数据存储,基于全部数据都在内存中的,在、快速算法、并行操作方面进行了相应的改进,数据处理速度比的数据处理速度提升很多,可以有效解决数据访问延时的问题。

       数据计算

  集成丰富的计算框架

  大规模数据计算与处理的场景复杂,性能要求高,因此需要采用分布式、可扩展的计算和调度架构,离线计算、流式计算、内存计算、图计算等。

  统一的调度管理和标准的开放服务

  通过统一的资源调度框架,实现了不同计算框架的共享管理模式。通过这种共享管理模式,可以感知各节点的资源情况和计算压力,自动平衡和调度计算任务,大大提升计算效率和资源有效利用率。

  提供标准的开放服务接口,将计算能力以服务接口的方式进行暴露,易理解、易调用。服务接口提供统一认证,接口调用时需提供账号、密码、密钥、租户信息等获取访问凭证,保证服务访问的安全可靠。

  数据分析挖掘

  智能搜索

  智能搜索引擎把相关的结构化和非结构化内容信息抽取出来并进行建模,经过中文分词技术建立起索引,让用户通过搜索快速地访问到这些信息,并能做到根据用户的个性化做出合理的排序结果。

  机器学习

  机器学习提供方便易用的交互式界面,帮助使用者进行离线批量预测或在线实时预测。预测过程运行在分布式系统中,基于内存进行迭代式计算,可以对海量数据进行预测,具备极强的扩展性,每天可以生成十几亿条预测结果。针对预制值,允许人工调整和修改,以确保数据读取的准确性,从而提升预测命中率。支持成熟、丰富的数据挖掘算法,可以生成分类、聚集、回归模型,适应在多种行业的机器学习场景。