大数据分布式计算与机器学习Workshop：新故相推舒书卷-成人直播-成人直播室商业分析硕士项目

新故相推舒书卷，又踏层峰望眼开。2019年5月11日-12日，“大数据分布式计算与机器学习”Workshop在成人直播-成人直播室 1号楼101教室举办。成人直播商务统计与经济计量系主任王汉生教授出席活动，中央财经大学统计与数学学院副院长李丰教授受邀为到场的200余名同学讲授了大数据分布式计算技术和机器学习等前沿技术和思维。

活动伊始，李丰老师首先提出了大数据带来的两个基础挑战：如何灵活地操作海量数据？如何高效地从海量数据中获取价值？分布式系统（包括分布式存储系统和分布式计算系统）为这两个问题的解决搭建了桥梁。目前广泛使用的分布式系统有Hadoop、Spark等。

李老师向同学们介绍了Hadoop的发展简史，并详细介绍了Hadoop 分布式存储系统(HDFS ) 和分布式计算框架（MapReduce）。Hadoop 解放了数据科学家（程序员）的双手，因为传统的并行计算需要考虑通信、负载、存储、任务切割等多个专业的计算机领域，资深的程序员也不一定能胜任。但有了Hadoop，任何一个数据分析问题只需要定义为一个Mapper函数和一个Reducer 函数即可。

随后，李老师又为同学们介绍了基于Hadoop的数据仓库工具——hive。hive可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能。他还详细介绍了Hive的适用场景及基本操作。理论讲解后，李老师又带领同学们上机实操统计词频。

次日的分享中，李老师向同学们讲解了另一种分布式系统Spark以及介绍了Spark MLlib 内置的机器学习模型。Spark是一个开源集群运算框架，使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍。即便是运行程序于硬盘时，Spark也能快上10倍速度。但是是否Spark更优于Hadoop呢？李老师将Spark形象地比作小轿车，而Hadoop更像是自行车。我们既需要小轿车也需要自行车。随后，李老师带领同学们上机实践了在Spark中实现逻辑回归。

在短短两天的课程中，同学们收获颇丰，并在课后纷纷交流自己的课程心得，李丰老师理论与实践相结合的教学风格深受同学们的好评。希望此次课程能够为同学们打开大数据的大门，未来仍有广阔的数据海洋需要同学们自己去探索。

相关介绍：

李丰，现任中央财经大学统计与数学学院副院长，大数据分析专业硕士导师，中国统计教育学会高等教育分会会副秘书长。博士毕业于瑞典斯德哥尔摩大学，研究领域包括贝叶斯计算，统计预测，多元Copula模型等。曾获瑞典皇家统计学会Cramér 奖，国际贝叶斯学会青年奖励基金，瑞典 Knut & Alice Wallenberg基金奖励，第二届全国高校经管类实验教学案例大赛二等奖。著有《Bayesian Modeling of Conditional Densities》和《大数据分布式计算与案例》，在International Journal of Forecasting，Scandinavian Journal of Statistics，Journal of Statistical Planning and Inference，BMJ Open等期刊发表多篇学术论文。

成人直播

新闻动态

新闻动态

大数据分布式计算与机器学习Workshop：新故相推舒书卷