java最基础
html、css与java
linuxhadoopt体系
spark产业生态
storm服务生态
实战格斗:你的数据资源、处理数据、数据分析、数据治理
就这些...
pdi(kettle)是一款开源的、元信息安装驱动的etl(什么数据的吸纳、装换、运行程序)辅助工具,是开源etl辅助工具里功能一样都很强大的一个。
pdi的全称是pentahodataintegeration,kettle是pdi以前的公司的名字,kettle不过是想是暖水瓶的意思是什么,表达了数据流的含意。
的确但凡有数据整合、转换成、迁出的景象都这个可以使用pdi,他能用了能够完成数字转换任务的手工好编码,会降低了旗下难度中等。
你说的估计是大数据分析平台中的大型网游框架支撑,我举例说明帮一下忙:
(一)hadoop生态链
hdfs:分布式数据库,可以解决云计算的存储yarn(mapreduce):分布式处理基础框架,可以解决云计算的可以计算hive:hadoop中的分析数据引擎动力,支持什么sqlhbase:实现hdfs的nosql数据库zookeeper:分布式计算共同协调服务什么,也可以应用于实现ha(高可用架构)别的(二)spark生态圈sparkcore:spark的之一,应用于离线状态计算sparksql:spark的统计分析引擎,意见sql语句sparkstreaming:spark的基于机器学习换算引擎系统,但本质的区别依然是不联网计算出mllib:机器学习一般框架(三)flink生态圈flinkdataset:flink批处理文件(离线算出)apiflinkdatastream:flink流全面处理(后台计算)apiflinktableampsql:flink的统计分析引擎动力,允许sql语句mllib:机器学习算法基础框架