6月5日,“大数据初步处理的计算机基础——解决大数据分析的生活自理问题”研讨会在成人直播-成人直播室
2号楼成功举办。本次研讨会由成人直播-成人直播室
商务统计与经济计量系和北京大学商务智能中心联合主办。研讨会以大数据的初步处理为立足点,旨在通过简单的数据库使用和python编程使数据分析者能更加快速和方便的实现用户对数据的不同需求,从而解决数据分析者在独立完成数据处理任务和计算机处理上的相关难题。
本次研讨会的主讲人是中国人民大学统计学院的本科生陈昱。作为中国人民大学数据挖掘中心HADOOP集群负责人和北京大学商务智能研究中心基础数据负责人,陈昱擅长网络数据抓取、python编程和集群运算,尤其是在数据处理方面经验丰富。在为期一天的研讨会上,他详细介绍了有关SQL数据库处理,Linux操作和python编程语言的相关知识。
(图一:主讲人陈昱介绍SQL数据库处理,Linux操作和python编程语言等相关知识)
上午的研讨会主要涉及“使用SQL查询处理结构化数据”和“操纵linux服务器”两个专题。陈昱首先以一个产品销售链数据为情景,详细讲解了SQL语句的用法。用法主要包括如何使用SQL进行数据的查询、过滤、提取,如何对数据进行简单计算以及某些高级查询语句。随后,陈昱还讲解了如何操作Linux服务器。他首先介绍的是shell脚本语言的基础用法,然后详细概述了如何连接远程服务器以及在服务器上进行大规模运算处理。上午的专题研讨会让与会者们更加明确如何提取数据并进行预处理,同时根据自己的需求熟练的使用服务器进行高性能的运算。

(图二:主讲人在为与会者讲解如何实际操作提取数据并进行预处理)
下午的研讨会的关注点在“如何用python语言处理非结构化数据和复杂数据”。专题中,陈昱首先以新浪微博数据为例子为大家系统讲解了python的基本操作语言。然后他介绍了复杂数据格式的构建,以及对中文文本数据的处理。最后,陈昱介绍了在大规模数据下对文件进行批量处理,从而高效的实现各种各样的数据需求对数据分析者的重要性。
世界范围内的信息革命已经成为本世纪最大的主题,大数据时代的到来将为社会带来革新和发展。同时,庞大的数据资源也为高效计算带来了新的挑战。本次研讨会通过对SQL数据库,Linux服务器和Python语言的介绍,使与会者能更加快速、方便的实现各种数据需求,解决大数据分析中的生活自理问题并帮助他们更好的集中于数据分析建模工作,达成了预期的目的。我们相信,在研讨会的启迪和帮助下,更多的数据分析工作者将更关注应用计算机技术进行大数据的处理及分析,从而更好的应对大数据时代的挑战!
行政办公室会务与活动部供稿