@守护石AI:有什么轻量级大数据分析的开源技术方案可以推荐?
在大数据技术领域无疑Hadoop生态会表现得更为重量,无论从部署还是细密的组织分工:Hive、Impala、HBase、Kudu...,但是大数据业务的关键性、可靠性和高性能可以得到保证。
若希望寻找一种轻量级的技术替代方案,从数据批量分析的角度看Spark(计算框架)+Parquet(列式文件格式)是一种方案。
Spark可以不依赖Hadoop就能对多种数据源进行操作,Parquet并不是一种数据库而是文件的存储格式,是Spark默认支持格式,那么我们完全可以在数据分析业务方案中,通过Java等程序将数据源源不断写成Parquet文件,然后由Spark对Parquet文件分析处理。Parquet作为列式结构的存储格式,自然在数据分析方面具有天然的优势。
但问题来了,若将Parquet存储在本地,势必会因为单点故障而数据不可靠。Hadoop HDFS是利用集群多副本实现数据高可靠,这点也是HDFS的优势所长,但是要用HDFS就要部署重量级的Hadoop集群,这怎么办?
其实还有一种轻量级的分布式文件系统方案,那就是ClusterFS,去中心化,部署简单,节点对等,那么部署多个节点是用,部署一个也是用,最关键是利用了Linux FUSE(Filesystem in Userspace)内核技术,可以将分布式文件系统Mount到本地目录,这样只要将Parquet文件写入ClusterFS文件目录即可实现数据高可靠(前提是你要有多个数据节点机器)。
因此这种轻量级的架构框架只需要部署:Spark,ClusterFS,然后共同存储与操作Parquet格式文件,就能具有一样强悍的大数据批量分析处理能力。
我相信懂大数据技术的朋友看到后一定会有所惊讶,呀!咋还能这么玩
- 复制链接
- 举报
囧