Route
Contact aitiyu
2024-08-13 19:25:20
爱体育(AITIYU)官方网站
最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。Spark最初的设计目标是使数据分析更快——不仅运行速度快,也要能快速、容易地编写程序。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。
笔者作为“中国高校大数据课程公共服务平台”的建设者和负责人,一直致力于为全国高校教师和学生快速学习大数据知识提供辅助,降低大数据知识学习门槛,大幅节约大数据学习时间,加快推动全国高校大数据课程的大规模普及。“中国高校大数据课程公共服务平台”(平台主页)目前已经成长为国内高校大数据教学知名品牌,年访问量超过100万次,为教师和学生提供了大数据教学资源一站式服务,包括课程教材、讲义PPT、学习指南、备课指南、授课视频、实验指南、技术资料和师资培训等。在2013年5月到2016年9月,平台重点建设了与《大数据技术原理与应用》(教材官网)入门级大数据教材配套的各种教学资源,为高校开设大数据导论课程奠定了较好的基础。
开发Spark应用程序时,可以采用Scala、Python、Java和R等语言,首选语言是Scala,因为Spark这个软件本身就是使用Scala语言开发的,采用Scala语言编写Spark应用程序,可以获得最好的性能。关于采用哪种语言编写Spark应用程序,这里强调两点:(1)Java代码太繁琐。在大数据应用场景中,不太适合使用Java,因为,完成同样的任务,Scala只需要一行代码,而Java则可能需要10行代码;而且,Scala语言可以支持交互式编程,大大提高了程序开发效率,而Java则不支持交互式执行,必须编译以后运行。(2)Python语言并发性能不好。在并发性能方面,Scala要明显优于Python,而且,Scala是静态类型,可以在编译阶段就抛出错误,便于开发大型大数据项目,此外,Scala兼容Java,运行在JVM上,可以直接使用Java中的Hadoop API来和Hadoop进行交互,但是,Python与Hadoop之间的交互非常糟糕,通常都需要第三方库(比如hadoopy)。
大数据课程实验案例:Spark+Kafka构建实时分析Dashboard案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程所涉及的各种典型操作,涵盖Linux、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、sockert.io.js、PyCharm等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。各个高校可以根据自己教学实际需求,对本案例进行补充完善。
搜索您想要找的内容!
地址:广东省广州市 电话:HASHKFK 手机:HASHKFK
Copyright © 2012-2023 爱体育(AITIYU)官方网站户外滑雪培训设备有限公司 版权所有 非商用版本 ICP备案编号: