记录一下今天遇到的Spark中的一个小技术点Value类型--CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

大数据赵轩

5 年前

trueqq_41549462

记录一下今天遇到的Spark中的一个小技术点
Value类型-mapPartitionsWithIndex()带分区号

1、格式：mapPartitionsWithIndex(index:Int,f : Iterator[T] => Iterator[U] , pP : Boolean = false) : RDD[U]

2、功能：最前面多一个参数代表分区号，将原来RDD中的元素以分区为Iterator依次进入f函数，可以操作，使得输出结果加上分区号，方便看RDD内数据元素的分区

2、例子：创建一个RDD，使之带分区号输出
1.   package com.zhaoxuan.scalatest
2.
3.import org.apache.spark.rdd.RDD
4.import org.apache.spark.{SparkConf, SparkContext}
5.
6./**
7.  * 3、例子：创建一个RDD，使之带分区号输出
8.  * */
9.object MapPartitionsWithIndex {
10.  def main(args: Array[String]): Unit = {
11.    val conf :SparkConf = new SparkConf().setAppName("mapPartitionsWithIndex-Test").setMaster("local[*]")
12.    val sc : SparkContext= new SparkContext(conf)
13.    val rdd1 : RDD[Int] = sc.makeRDD(1 to 6,2)
14.    val rdd2 :RDD[(Int,Int)]= rdd1.mapPartitionsWithIndex((index,nums) => (nums.map((n) => (index,n))))
15.    rdd2.collect().foreach(println)
16.  }
17.}

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

源概念:源简单来说就是一个专门储存包的仓库，分门别类的放好，yum命令就是仓库管家，根据配置好的规则，去源堆里找到想要的包顺便找到此包对其他包的依赖关系，根据依赖关系自动安装所有的包。https://zhuanlan.zhihu.com/p/88506418