2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据。因为其高吞吐、高可靠等特点,很多互联网公司都已经使用Hadoop来构建数据仓库,高频使用并促进了Hadoop生态圈的各项技术的发展... 查看全文>>
大数据技术文章2015-12-29 |传智播客云计算学科 |处理数据,Hadoop,Storm
Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中... 查看全文>>
大数据技术文章2015-12-29 |传智播客云计算学科 |JDBC,MySQL,Spark,SQL
Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎... 查看全文>>
大数据技术文章2015-12-29 |传智播客云计算学科 |Spark,SQL
Spark是用Scala语言开发的,目前对Scala语言支持较好的是IDEA的插件,这里我们编写一个Spark入门级程序,然后用Maven编译成jar包,然后提交到集群... 查看全文>>
大数据技术文章2015-12-29 |传智播客云计算学科 |Spark,Spark入门
MapReduce中的GroupingComparator应用案例 在日常的数据统计分析中,常常会有类似如下的求分组最大值统计需求,用到的数据示例如下: itemid amount date … 10001 136.6 2015-1-12 … 10001 165.5 2015-1-12 … 10002 122.5 2015-1-12 … 10002 166.88 2015-1-12 … 10003 189.65 2015-1-12 … 10003 198.62 2015-1-13 … 10001 278.6 2015-1-13 … 10001 143.6 2015-1-13 … 查看全文>>
大数据技术文章2015-12-29 |传智播客云计算学科 |云计算,应用案例