基于Hadoop&Spark的关联规则算法实践
此次实践主要目的在于,希望通过亲身实践,加深自己对Hadoop、Spark两类大数据工具的理解,熟悉其从集群部署到运作的基本流程,了解FPGrowth算法的基本原理,掌握算法在关联规则中的基本应用,为日后的大数据学习积累经验。
- 搭建Linux系统,部署集群;
- 编写scala代码,使用spark对Groceries购物数据进行关联规则的分析;
- 模拟故障,分析spark运行情况;
- Centos 7(一台master, 6台workers)
- Hadoop 3.1.1
- JDK 1.8.0_191
- Scala 集群 2.12.8;个人笔记本 2.11.12
- Spark 2.4.0