MongoRDD

Instance Constructors

new MongoRDD(sqlContext: SQLContext, connector: Broadcast[MongoConnector], readConfig: ReadConfig, pipeline: Seq[BsonDocument])(implicit arg0: ClassTag[D])

connector
the com.mongodb.spark.MongoConnector
readConfig
the com.mongodb.spark.config.ReadConfig
pipeline
aggregate pipeline

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
def ++(other: RDD[D]): RDD[D]

Definition Classes
RDD
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def aggregate[U](zeroValue: U)(seqOp: (U, D) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U

Definition Classes
RDD
final def asInstanceOf[T0]: T0

Definition Classes
Any
def cache(): MongoRDD.this.type

Definition Classes
RDD
def cartesian[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(D, U)]

Definition Classes
RDD
def checkpoint(): Unit

Definition Classes
RDD
def clearDependencies(): Unit

Attributes
protected
Definition Classes
RDD
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
def coalesce(numPartitions: Int, shuffle: Boolean)(implicit ord: Ordering[D]): RDD[D]

Definition Classes
RDD
def collect[U](f: PartialFunction[D, U])(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
def collect(): Array[D]

Definition Classes
RDD
def compute(split: Partition, context: TaskContext): Iterator[D]

Definition Classes
MongoRDD → RDD
def context: SparkContext

Definition Classes
RDD
def copy(connector: Broadcast[MongoConnector] = connector, readConfig: ReadConfig = readConfig, pipeline: Seq[Bson] = pipeline): MongoRDD[D]

Allows to copying of this RDD with changing some of the properties
def count(): Long

Definition Classes
RDD
def countApprox(timeout: Long, confidence: Double): PartialResult[BoundedDouble]

Definition Classes
RDD
def countApproxDistinct(relativeSD: Double): Long

Definition Classes
RDD
def countApproxDistinct(p: Int, sp: Int): Long

Definition Classes
RDD
def countByValue()(implicit ord: Ordering[D]): Map[D, Long]

Definition Classes
RDD
def countByValueApprox(timeout: Long, confidence: Double)(implicit ord: Ordering[D]): PartialResult[Map[D, BoundedDouble]]

Definition Classes
RDD
final def dependencies: Seq[Dependency[_]]

Definition Classes
RDD
def distinct(): RDD[D]

Definition Classes
RDD
def distinct(numPartitions: Int)(implicit ord: Ordering[D]): RDD[D]

Definition Classes
RDD
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def equals(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def filter(f: (D) ⇒ Boolean): RDD[D]

Definition Classes
RDD
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
def first(): D

Definition Classes
RDD
def firstParent[U](implicit arg0: ClassTag[U]): RDD[U]

Attributes
protected[org.apache.spark]
Definition Classes
RDD
def flatMap[U](f: (D) ⇒ TraversableOnce[U])(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
def fold(zeroValue: D)(op: (D, D) ⇒ D): D

Definition Classes
RDD
def foreach(f: (D) ⇒ Unit): Unit

Definition Classes
RDD
def foreachPartition(f: (Iterator[D]) ⇒ Unit): Unit

Definition Classes
RDD
def getCheckpointFile: Option[String]

Definition Classes
RDD
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def getDependencies: Seq[Dependency[_]]

Attributes
protected
Definition Classes
RDD
final def getNumPartitions: Int

Definition Classes
RDD
Annotations
@Since( "1.6.0" )
def getPartitions: Array[Partition]

Attributes
protected
Definition Classes
MongoRDD → RDD
def getPreferredLocations(split: Partition): Seq[String]

Definition Classes
MongoRDD → RDD
def getStorageLevel: StorageLevel

Definition Classes
RDD
def glom(): RDD[Array[D]]

Definition Classes
RDD
def groupBy[K](f: (D) ⇒ K, p: Partitioner)(implicit kt: ClassTag[K], ord: Ordering[K]): RDD[(K, Iterable[D])]

Definition Classes
RDD
def groupBy[K](f: (D) ⇒ K, numPartitions: Int)(implicit kt: ClassTag[K]): RDD[(K, Iterable[D])]

Definition Classes
RDD
def groupBy[K](f: (D) ⇒ K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[D])]

Definition Classes
RDD
def hashCode(): Int

Definition Classes
AnyRef → Any
val id: Int

Definition Classes
RDD
def intersection(other: RDD[D], numPartitions: Int): RDD[D]

Definition Classes
RDD
def intersection(other: RDD[D], partitioner: Partitioner)(implicit ord: Ordering[D]): RDD[D]

Definition Classes
RDD
def intersection(other: RDD[D]): RDD[D]

Definition Classes
RDD
def isCheckpointed: Boolean

Definition Classes
RDD
def isEmpty(): Boolean

Definition Classes
RDD
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def isTraceEnabled(): Boolean

Attributes
protected
Definition Classes
Logging
final def iterator(split: Partition, context: TaskContext): Iterator[D]

Definition Classes
RDD
def keyBy[K](f: (D) ⇒ K): RDD[(K, D)]

Definition Classes
RDD
def localCheckpoint(): MongoRDD.this.type

Definition Classes
RDD
def log: Logger

Attributes
protected
Definition Classes
Logging
def logDebug(msg: ⇒ String, throwable: Throwable): Unit

Attributes
protected
Definition Classes
Logging
def logDebug(msg: ⇒ String): Unit

Attributes
protected
Definition Classes
Logging
def logError(msg: ⇒ String, throwable: Throwable): Unit

Attributes
protected
Definition Classes
Logging
def logError(msg: ⇒ String): Unit

Attributes
protected
Definition Classes
Logging
def logInfo(msg: ⇒ String, throwable: Throwable): Unit

Attributes
protected
Definition Classes
Logging
def logInfo(msg: ⇒ String): Unit

Attributes
protected
Definition Classes
Logging
def logName: String

Attributes
protected
Definition Classes
Logging
def logTrace(msg: ⇒ String, throwable: Throwable): Unit

Attributes
protected
Definition Classes
Logging
def logTrace(msg: ⇒ String): Unit

Attributes
protected
Definition Classes
Logging
def logWarning(msg: ⇒ String, throwable: Throwable): Unit

Attributes
protected
Definition Classes
Logging
def logWarning(msg: ⇒ String): Unit

Attributes
protected
Definition Classes
Logging
def map[U](f: (D) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
def mapPartitions[U](f: (Iterator[D]) ⇒ Iterator[U], preservesPartitioning: Boolean)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
def mapPartitionsWithIndex[U](f: (Int, Iterator[D]) ⇒ Iterator[U], preservesPartitioning: Boolean)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
def max()(implicit ord: Ordering[D]): D

Definition Classes
RDD
def min()(implicit ord: Ordering[D]): D

Definition Classes
RDD
var name: String

Definition Classes
RDD
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
def parent[U](j: Int)(implicit arg0: ClassTag[U]): RDD[U]

Attributes
protected[org.apache.spark]
Definition Classes
RDD
val partitioner: Option[Partitioner]

Definition Classes
RDD
final def partitions: Array[Partition]

Definition Classes
RDD
def persist(): MongoRDD.this.type

Definition Classes
RDD
def persist(newLevel: StorageLevel): MongoRDD.this.type

Definition Classes
RDD
def pipe(command: Seq[String], env: Map[String, String], printPipeContext: ((String) ⇒ Unit) ⇒ Unit, printRDDElement: (D, (String) ⇒ Unit) ⇒ Unit, separateWorkingDir: Boolean): RDD[String]

Definition Classes
RDD
def pipe(command: String, env: Map[String, String]): RDD[String]

Definition Classes
RDD
def pipe(command: String): RDD[String]

Definition Classes
RDD
final def preferredLocations(split: Partition): Seq[String]

Definition Classes
RDD
def randomSplit(weights: Array[Double], seed: Long): Array[RDD[D]]

Definition Classes
RDD
def reduce(f: (D, D) ⇒ D): D

Definition Classes
RDD
def repartition(numPartitions: Int)(implicit ord: Ordering[D]): RDD[D]

Definition Classes
RDD
def sample(withReplacement: Boolean, fraction: Double, seed: Long): RDD[D]

Definition Classes
RDD
def saveAsObjectFile(path: String): Unit

Definition Classes
RDD
def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Unit

Definition Classes
RDD
def saveAsTextFile(path: String): Unit

Definition Classes
RDD
val sc: SparkContext
def setName(_name: String): MongoRDD.this.type

Definition Classes
RDD
def sortBy[K](f: (D) ⇒ K, ascending: Boolean, numPartitions: Int)(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[D]

Definition Classes
RDD
def sparkContext: SparkContext

Definition Classes
RDD
val sqlContext: SQLContext
def subtract(other: RDD[D], p: Partitioner)(implicit ord: Ordering[D]): RDD[D]

Definition Classes
RDD
def subtract(other: RDD[D], numPartitions: Int): RDD[D]

Definition Classes
RDD
def subtract(other: RDD[D]): RDD[D]

Definition Classes
RDD
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
def take(num: Int): Array[D]

Definition Classes
RDD
def takeOrdered(num: Int)(implicit ord: Ordering[D]): Array[D]

Definition Classes
RDD
def takeSample(withReplacement: Boolean, num: Int, seed: Long): Array[D]

Definition Classes
RDD
def toDF(schema: StructType): DataFrame

Creates a DataFrame based on the provided schema.
Creates a DataFrame based on the provided schema.
schema
the schema representing the DataFrame.
returns
a DataFrame.
def toDF[T](beanClass: Class[T]): DataFrame

Creates a DataFrame based on the schema derived from the bean class.
Creates a DataFrame based on the schema derived from the bean class.
Note: Prefer toDS[T](beanClass:Class[T])* as computations will be more efficient.
T
The bean class type to shape the data from MongoDB into
beanClass
encapsulating the data from MongoDB
returns
a DataFrame
def toDF[T <: Product]()(implicit arg0: scala.reflect.api.JavaUniverse.TypeTag[T]): DataFrame

Creates a DataFrame based on the schema derived from the optional type.
Creates a DataFrame based on the schema derived from the optional type.
Note: Prefer toDS[T<:Product]()* as computations will be more efficient. The rdd must contain an _id for MongoDB versions < 3.2.
T
The optional type of the data from MongoDB, if not provided the schema will be inferred from the collection
returns
a DataFrame
def toDS[T](beanClass: Class[T]): Dataset[T]

Creates a Dataset from the RDD strongly typed to the provided java bean.
Creates a Dataset from the RDD strongly typed to the provided java bean.
T
The type of the data from MongoDB
def toDS[T <: Product]()(implicit arg0: scala.reflect.api.JavaUniverse.TypeTag[T], arg1: NotNothing[T]): Dataset[T]

Creates a Dataset from the collection strongly typed to the provided case class.
Creates a Dataset from the collection strongly typed to the provided case class.
T
The type of the data from MongoDB
def toDebugString: String

Definition Classes
RDD
def toJavaRDD(): JavaMongoRDD[D]

Definition Classes
MongoRDD → RDD
def toLocalIterator: Iterator[D]

Definition Classes
RDD
def toString(): String

Definition Classes
RDD → AnyRef → Any
def top(num: Int)(implicit ord: Ordering[D]): Array[D]

Definition Classes
RDD
def treeAggregate[U](zeroValue: U)(seqOp: (U, D) ⇒ U, combOp: (U, U) ⇒ U, depth: Int)(implicit arg0: ClassTag[U]): U

Definition Classes
RDD
def treeReduce(f: (D, D) ⇒ D, depth: Int): D

Definition Classes
RDD
def union(other: RDD[D]): RDD[D]

Definition Classes
RDD
def unpersist(blocking: Boolean): MongoRDD.this.type

Definition Classes
RDD
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
def withPipeline[B <: Bson](pipeline: Seq[B]): MongoRDD[D]

Returns a copy with the specified aggregation pipeline
Returns a copy with the specified aggregation pipeline
pipeline
the aggregation pipeline to use
returns
the updated MongoRDD
def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(D, U)]

Definition Classes
RDD
def zipPartitions[B, C, D, V](rdd2: RDD[B], rdd3: RDD[C], rdd4: RDD[D])(f: (Iterator[D], Iterator[B], Iterator[C], Iterator[D]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[C], arg2: ClassTag[D], arg3: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipPartitions[B, C, D, V](rdd2: RDD[B], rdd3: RDD[C], rdd4: RDD[D], preservesPartitioning: Boolean)(f: (Iterator[D], Iterator[B], Iterator[C], Iterator[D]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[C], arg2: ClassTag[D], arg3: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipPartitions[B, C, V](rdd2: RDD[B], rdd3: RDD[C])(f: (Iterator[D], Iterator[B], Iterator[C]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[C], arg2: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipPartitions[B, C, V](rdd2: RDD[B], rdd3: RDD[C], preservesPartitioning: Boolean)(f: (Iterator[D], Iterator[B], Iterator[C]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[C], arg2: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipPartitions[B, V](rdd2: RDD[B])(f: (Iterator[D], Iterator[B]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipPartitions[B, V](rdd2: RDD[B], preservesPartitioning: Boolean)(f: (Iterator[D], Iterator[B]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[V]): RDD[V]

Definition Classes
RDD
def zipWithIndex(): RDD[(D, Long)]

Definition Classes
RDD
def zipWithUniqueId(): RDD[(D, Long)]

Definition Classes
RDD

Deprecated Value Members

def filterWith[A](constructA: (Int) ⇒ A)(p: (D, A) ⇒ Boolean): RDD[D]

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 1.0.0) use mapPartitionsWithIndex and filter
def flatMapWith[A, U](constructA: (Int) ⇒ A, preservesPartitioning: Boolean)(f: (D, A) ⇒ Seq[U])(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 1.0.0) use mapPartitionsWithIndex and flatMap
def foreachWith[A](constructA: (Int) ⇒ A)(f: (D, A) ⇒ Unit): Unit

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 1.0.0) use mapPartitionsWithIndex and foreach
def mapPartitionsWithContext[U](f: (TaskContext, Iterator[D]) ⇒ Iterator[U], preservesPartitioning: Boolean)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
Annotations
@DeveloperApi() @deprecated
Deprecated
(Since version 1.2.0) use TaskContext.get
def mapPartitionsWithSplit[U](f: (Int, Iterator[D]) ⇒ Iterator[U], preservesPartitioning: Boolean)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 0.7.0) use mapPartitionsWithIndex
def mapWith[A, U](constructA: (Int) ⇒ A, preservesPartitioning: Boolean)(f: (D, A) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U]

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 1.0.0) use mapPartitionsWithIndex
def toArray(): Array[D]

Definition Classes
RDD
Annotations
@deprecated
Deprecated
(Since version 1.0.0) use collect

Related Doc: package rdd

class MongoRDD[D] extends RDD[D]

Instance Constructors

new MongoRDD(sqlContext: SQLContext, connector: Broadcast[MongoConnector], readConfig: ReadConfig, pipeline: Seq[BsonDocument])(implicit arg0: ClassTag[D])

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

def ++(other: RDD[D]): RDD[D]

final def ==(arg0: Any): Boolean

def aggregate[U](zeroValue: U)(seqOp: (U, D) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U

final def asInstanceOf[T0]: T0

def cache(): MongoRDD.this.type

def cartesian[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(D, U)]

def checkpoint(): Unit

def clearDependencies(): Unit

def clone(): AnyRef

def coalesce(numPartitions: Int, shuffle: Boolean)(implicit ord: Ordering[D]): RDD[D]

def collect[U](f: PartialFunction[D, U])(implicit arg0: ClassTag[U]): RDD[U]

def collect(): Array[D]

def compute(split: Partition, context: TaskContext): Iterator[D]

def context: SparkContext

def copy(connector: Broadcast[MongoConnector] = connector, readConfig: ReadConfig = readConfig, pipeline: Seq[Bson] = pipeline): MongoRDD[D]

def count(): Long

def countApprox(timeout: Long, confidence: Double): PartialResult[BoundedDouble]

def countApproxDistinct(relativeSD: Double): Long

def countApproxDistinct(p: Int, sp: Int): Long

def countByValue()(implicit ord: Ordering[D]): Map[D, Long]

def countByValueApprox(timeout: Long, confidence: Double)(implicit ord: Ordering[D]): PartialResult[Map[D, BoundedDouble]]

final def dependencies: Seq[Dependency[_]]

def distinct(): RDD[D]

def distinct(numPartitions: Int)(implicit ord: Ordering[D]): RDD[D]

final def eq(arg0: AnyRef): Boolean

def equals(arg0: Any): Boolean

def filter(f: (D) ⇒ Boolean): RDD[D]

def finalize(): Unit

def first(): D

def firstParent[U](implicit arg0: ClassTag[U]): RDD[U]

def flatMap[U](f: (D) ⇒ TraversableOnce[U])(implicit arg0: ClassTag[U]): RDD[U]

def fold(zeroValue: D)(op: (D, D) ⇒ D): D

def foreach(f: (D) ⇒ Unit): Unit

def foreachPartition(f: (Iterator[D]) ⇒ Unit): Unit

def getCheckpointFile: Option[String]

final def getClass(): Class[_]

def getDependencies: Seq[Dependency[_]]

final def getNumPartitions: Int

def getPartitions: Array[Partition]

def getPreferredLocations(split: Partition): Seq[String]

def getStorageLevel: StorageLevel

def glom(): RDD[Array[D]]

def groupBy[K](f: (D) ⇒ K, p: Partitioner)(implicit kt: ClassTag[K], ord: Ordering[K]): RDD[(K, Iterable[D])]

def groupBy[K](f: (D) ⇒ K, numPartitions: Int)(implicit kt: ClassTag[K]): RDD[(K, Iterable[D])]

def groupBy[K](f: (D) ⇒ K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[D])]

def hashCode(): Int

val id: Int

def intersection(other: RDD[D], numPartitions: Int): RDD[D]

def intersection(other: RDD[D], partitioner: Partitioner)(implicit ord: Ordering[D]): RDD[D]

def intersection(other: RDD[D]): RDD[D]

def isCheckpointed: Boolean

def isEmpty(): Boolean

final def isInstanceOf[T0]: Boolean

def isTraceEnabled(): Boolean

final def iterator(split: Partition, context: TaskContext): Iterator[D]

def keyBy[K](f: (D) ⇒ K): RDD[(K, D)]

def localCheckpoint(): MongoRDD.this.type

def log: Logger

def logDebug(msg: ⇒ String, throwable: Throwable): Unit

def logDebug(msg: ⇒ String): Unit

def logError(msg: ⇒ String, throwable: Throwable): Unit

def logError(msg: ⇒ String): Unit

def logInfo(msg: ⇒ String, throwable: Throwable): Unit

def logInfo(msg: ⇒ String): Unit

def logName: String

def logTrace(msg: ⇒ String, throwable: Throwable): Unit

def logTrace(msg: ⇒ String): Unit

def logWarning(msg: ⇒ String, throwable: Throwable): Unit

def logWarning(msg: ⇒ String): Unit

def map[U](f: (D) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U]

def mapPartitions[U](f: (Iterator[D]) ⇒ Iterator[U], preservesPartitioning: Boolean)(implicit arg0: ClassTag[U]): RDD[U]

def mapPartitionsWithIndex[U](f: (Int, Iterator[D]) ⇒ Iterator[U], preservesPartitioning: Boolean)(implicit arg0: ClassTag[U]): RDD[U]