博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark PruneDependency 依赖关系 RangePartitioner
阅读量:6841 次
发布时间:2019-06-26

本文共 891 字,大约阅读时间需要 2 分钟。

Spark PruneDependency 依赖关系 RangePartitioner

  • Represents a dependency between the PartitionPruningRDD and its parent. In this
    case, the child RDD contains a subset of partitions of the parents’.

更多资源

  • github:
  • csdn(汇总视频在线看):

youtub视频演示

  • (youtube视频)
  • (bilibile视频)

输入数据

List(("a",2),("d",1),("b",8),("d",3)

处理程序scala

package com.opensource.bigdata.spark.local.rdd.operation.dependency.narrow.n_03_pruneDependency.n_02_filterByRangeimport com.opensource.bigdata.spark.local.rdd.operation.base.BaseScalaSparkContextobject Run  extends BaseScalaSparkContext{  def main(args: Array[String]): Unit = {    val sc = pre()    val rdd1 = sc.parallelize(List(("a",2),("d",1),("b",8),("d",3)),2)  //ParallelCollectionRDD    val rdd1Sort = rdd1.sortByKey()   //ShuffleRDD    val rdd2 =rdd1Sort.filterByRange("a","b")  //MapParttionsRDD    println("rdd \n" + rdd2.collect().mkString("\n"))    sc.stop()  }}

数据处理图

转载地址:http://sfkul.baihongyu.com/

你可能感兴趣的文章
css渐变
查看>>
安全漏洞影响的电子邮件地址
查看>>
linux超级基础系列——什么是shell? bash和shell有什么关系?
查看>>
硬件发展历史
查看>>
写一个迷你版Smarty模板引擎,对认识模板引擎原理非常好(附代码)
查看>>
OC中归档与解归档
查看>>
配置与管理DNS服务器
查看>>
linux程序包管理之源码编译安装
查看>>
Eureka Server
查看>>
读源码Apache-commons-lang3-3.1(二)
查看>>
浅谈Android五大布局(二)——RelativeLayout和TableLayout
查看>>
BI笔记之---SSAS库Process的几种方案
查看>>
PLSQL用DBLINK连接其他数据库进行数据同步导出
查看>>
kafka 文档 (二)用途和快速启动
查看>>
我的友情链接
查看>>
cygwin 163源获取失败
查看>>
我的友情链接
查看>>
多级列表的实现
查看>>
docker 配置 lnmp 开发环境
查看>>
我的友情链接
查看>>