DataStreamPublisher

Instance Constructors

new DataStreamPublisher(schema: StructType)

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
def ++(other: DataStream): DataStream

Joins two streams together, such that the elements of the given datastream are appended to the end of this datastream.
Joins two streams together, such that the elements of the given datastream are appended to the end of this datastream.

Definition Classes
DataStream
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def addField(field: Field, defaultValue: Any, errorIfFieldExists: Boolean): DataStream

Definition Classes
DataStream
def addField(name: Field, defaultValue: Any): DataStream

Returns a new DataStream with the given field added at the end.
Returns a new DataStream with the given field added at the end. The value of this field for each Row is specified by the default value. The value must be compatible with the field definition. Eg, an error will occur if the field has type Int and the default value was 1.3

Definition Classes
DataStream
def addField(field: Field, expression: Expression, errorIfFieldExists: Boolean): DataStream

Definition Classes
DataStream
def addField(field: Field, expression: Expression): DataStream

Definition Classes
DataStream
def addField(name: String, defaultValue: String, errorIfFieldExists: Boolean): DataStream

Definition Classes
DataStream
def addField(name: String, defaultValue: String): DataStream

Returns a new DataStream with the new field of type String added at the end.
Returns a new DataStream with the new field of type String added at the end. The value of this field for each Row is specified by the default value.

Definition Classes
DataStream
def addFieldFn(name: String, fn: (Row) ⇒ Any, errorIfFieldExists: Boolean): DataStream

Definition Classes
DataStream
def addFieldFn(name: String, fn: (Row) ⇒ Any): DataStream

Definition Classes
DataStream
def addFieldFn(field: Field, fn: (Row) ⇒ Any, errorIfFieldExists: Boolean): DataStream

Definition Classes
DataStream
def addFieldFn(field: Field, fn: (Row) ⇒ Any): DataStream

Returns a new DataStream with a new field added at the end.
Returns a new DataStream with a new field added at the end. The value for the field is taken from the function which is invoked for each row.

Definition Classes
DataStream
def aggregated(): GroupedDataStream

Definition Classes
DataStream
final def asInstanceOf[T0]: T0

Definition Classes
Any
def cartesian(other: DataStream): DataStream

Returns a new DataStream which is the result of joining every row in this datastream with every row in the given datastream.
Returns a new DataStream which is the result of joining every row in this datastream with every row in the given datastream.
The given datastream will be materialized before it is used.
For example, if this datastream has rows [a,b], [c,d] and [e,f] and the given datastream has [1,2] and [3,4] then the result will be [a,b,1,2], [a,b,3,4], [c,d,1,2], [c,d,3,4], [e,f,1,2] and [e,f,3,4].

Definition Classes
DataStream
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
def close(): Unit
def collect: Vector[Row]

Action which results in all the rows being returned in memory as a Vector.
Action which results in all the rows being returned in memory as a Vector.

Definition Classes
DataStream
def collectValues: Vector[Seq[Any]]

Definition Classes
DataStream
def concat(other: DataStream): DataStream

Combines two datastreams together such that the fields from this datastream are joined with the fields of the given datastream.
Combines two datastreams together such that the fields from this datastream are joined with the fields of the given datastream. Eg, if this datastream has fields A,B and the given datastream has fields C,D then the result will have fields A,B,C,D
This operation requires an executor, as it must buffer rows to ensure an even distribution.

Definition Classes
DataStream
def count: Long

Definition Classes
DataStream
def drop(n: Int): DataStream

Definition Classes
DataStream
def dropField(fieldName: String, caseSensitive: Boolean = true): DataStream

Definition Classes
DataStream
def dropFieldIfExists(fieldName: String, caseSensitive: Boolean = true): DataStream

Definition Classes
DataStream
def dropFields(regex: Regex): DataStream

Definition Classes
DataStream
def dropNullRows(): DataStream

Definition Classes
DataStream
def dropWhile(fieldName: String, p: (Any) ⇒ Boolean): DataStream

Definition Classes
DataStream
def dropWhile(p: (Row) ⇒ Boolean): DataStream

Definition Classes
DataStream
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def equals(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def error(t: Throwable): Unit
def exists(p: (Row) ⇒ Boolean): Boolean

Definition Classes
DataStream
def explode(fn: (Row) ⇒ Seq[Row]): DataStream

Definition Classes
DataStream
def filter(expression: Equals): DataStream

Definition Classes
DataStream
def filter(fieldName: String, p: (Any) ⇒ Boolean): DataStream

Filters where the given field name matches the given predicate.
Filters where the given field name matches the given predicate.

Definition Classes
DataStream
def filter(f: (Row) ⇒ Boolean): DataStream

Definition Classes
DataStream
def filterNot(p: (Row) ⇒ Boolean): DataStream

Definition Classes
DataStream
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
def find(p: (Row) ⇒ Boolean): Option[Row]

Definition Classes
DataStream
def foreach[U](fn: (Row) ⇒ U): DataStream

Execute a side effecting function for every row in the stream, returning the same row.
Execute a side effecting function for every row in the stream, returning the same row.

Definition Classes
DataStream
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def groupBy(fn: (Row) ⇒ Any): GroupedDataStream

Definition Classes
DataStream
def groupBy(fields: Iterable[String]): GroupedDataStream

Definition Classes
DataStream
def groupBy(first: String, rest: String*): GroupedDataStream

Definition Classes
DataStream
def hashCode(): Int

Definition Classes
AnyRef → Any
def head: Row

Definition Classes
DataStream
def intersection(stream: DataStream): DataStream

Definition Classes
DataStream
def isCancelled: Boolean
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def iterator: Iterator[Row]

Definition Classes
DataStream
def join(key: String, other: DataStream): DataStream

Joins the given datastream to this datastream on the given key column, where the values of the keys are equal as taken by the scala == operator.
Joins the given datastream to this datastream on the given key column, where the values of the keys are equal as taken by the scala == operator. Both datastreams must contain the key column.
The given datastream is fully inflated when this datastream needs to be materialized. For that reason, always use the smallest datastream as the parameter, and the larger datastream as the receiver.

Definition Classes
DataStream
def listener(_listener: Listener): DataStream

Definition Classes
DataStream
val logger: Logger

Attributes
protected
Definition Classes
Logging
def map(f: (Row) ⇒ Row): DataStream

Definition Classes
DataStream
def mapField(fieldName: String, fn: (Any) ⇒ Any): DataStream

Definition Classes
DataStream
def mapFieldIfExists(fieldName: String, fn: (Any) ⇒ Any): DataStream

Definition Classes
DataStream
def maxBy[T](fn: (Row) ⇒ T)(implicit ordering: Ordering[T]): Row

Definition Classes
DataStream
def minBy[T](fn: (Row) ⇒ T)(implicit ordering: Ordering[T]): Row

Definition Classes
DataStream
def multiplex(count: Int): Seq[DataStream]

Definition Classes
DataStream
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
def projection(fields: Seq[String]): DataStream

Returns a new DataStream which contains the given list of fields from the existing stream.
Returns a new DataStream which contains the given list of fields from the existing stream.

Definition Classes
DataStream
def projection(first: String, rest: String*): DataStream

Definition Classes
DataStream
def projectionExpression(expr: String): DataStream

Definition Classes
DataStream
def publish(row: Seq[Row]): Unit
def removeField(fieldName: String, caseSensitive: Boolean = true): DataStream

Definition Classes
DataStream
def removeFieldIfExists(fieldName: String, caseSensitive: Boolean = true): DataStream

Definition Classes
DataStream
def removeFields(regex: Regex): DataStream

Definition Classes
DataStream
def renameField(nameFrom: String, nameTo: String): DataStream

Definition Classes
DataStream
def replace(from: String, target: Any): DataStream

Definition Classes
DataStream
def replace(fieldName: String, from: String, target: Any, errorIfUnknownField: Boolean = true): DataStream

Definition Classes
DataStream
def replace(fieldName: String, from: String, target: Any): DataStream

Definition Classes
DataStream
def replace(fieldName: String, fn: (Any) ⇒ Any, errorIfUnknownField: Boolean): DataStream

Definition Classes
DataStream
def replace(fieldName: String, fn: (Any) ⇒ Any): DataStream

Definition Classes
DataStream
def replaceField(name: String, field: Field): DataStream

Definition Classes
DataStream
def replaceFieldType(regex: Regex, datatype: DataType): DataStream

Definition Classes
DataStream
def replaceFieldType(from: DataType, to: DataType): DataStream

Definition Classes
DataStream
def replaceFieldType(fieldName: String, datatype: DataType): DataStream

Returns the same data but with an updated schema.
Returns the same data but with an updated schema. The field that matches the given name will have its datatype set to the given datatype.

Definition Classes
DataStream
def replaceNullValues(defaultValue: String): DataStream

Definition Classes
DataStream
def sample(k: Int): DataStream

Returns a new DataStream where only each "k" row is retained.
Returns a new DataStream where only each "k" row is retained. Ie, if sample is 2, then on average, every other row will be returned. If sample is 10 then only 10% of rows will be returned. When running concurrently, the rows that are sampled will vary depending on the ordering that the workers pull through the rows. Each partition uses its own couter.

Definition Classes
DataStream
val schema: StructType

Definition Classes
DataStreamPublisher → DataStream
def size: Long

Definition Classes
DataStream
def stripCharsFromFieldNames(chars: Seq[Char]): DataStream

Returns a new DataStream with the same data as this stream, but where the field names have been sanitized by removing any occurances of the given characters.
Returns a new DataStream with the same data as this stream, but where the field names have been sanitized by removing any occurances of the given characters.

Definition Classes
DataStream
def subscribe(subscriber: Subscriber[Seq[Row]]): Unit

Definition Classes
DataStreamPublisher → DataStream
def substract(stream: DataStream): DataStream

Definition Classes
DataStream
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
def take(n: Int): DataStream

Definition Classes
DataStream
def takeWhile(fieldName: String, p: (Any) ⇒ Boolean): DataStream

Definition Classes
DataStream
def takeWhile(p: (Row) ⇒ Boolean): DataStream

Definition Classes
DataStream
def tee(schema: StructType, fn: (Row) ⇒ Seq[Row]): (DataStream, DataStream)

Invoking this method returns two DataStreams.
Invoking this method returns two DataStreams. The first is the original datastream which will continue as is. The second is a DataStream which is fed by rows generated from the given function. The function is invoked for each row that passes through this stream.
Cancellation requests in the tee'd datastream do not propagate back to the original stream.

Definition Classes
DataStream
def to(sink: Sink, parallelism: Int): Long

Definition Classes
DataStream
def to(sink: Sink): Long

Definition Classes
DataStream
def toDataTable: DataTable

Definition Classes
DataStream
def toSet: Set[Row]

Definition Classes
DataStream
def toString(): String

Definition Classes
AnyRef → Any
def toVector: Vector[Row]

Action which results in all the rows being returned in memory as a Vector.
Action which results in all the rows being returned in memory as a Vector. Alias for 'collect()'

Definition Classes
DataStream
def union(other: DataStream): DataStream

Definition Classes
DataStream
def update(from: String, target: Any): DataStream

For each row, any values that match "from" will be replaced with "target".
For each row, any values that match "from" will be replaced with "target". This operation applies to all fields for all rows.

Definition Classes
DataStream
def update(fieldName: String, from: String, target: Any, errorIfUnknownField: Boolean = true): DataStream

Definition Classes
DataStream
def update(fieldName: String, from: String, target: Any): DataStream

Replaces any values that match "form" with the value "target".
Replaces any values that match "form" with the value "target". This operation only applies to the field name specified.

Definition Classes
DataStream
def update(fieldName: String, fn: (Any) ⇒ Any, errorIfUnknownField: Boolean): DataStream

Definition Classes
DataStream
def update(fieldName: String, fn: (Any) ⇒ Any): DataStream

For each row, the value corresponding to the given fieldName is applied to the function.
For each row, the value corresponding to the given fieldName is applied to the function. The result of the function is the new value for that cell.

Definition Classes
DataStream
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
def withLowerCaseSchema(): DataStream

Definition Classes
DataStream

Deprecated Value Members

def addField(name: String, fn: (Row) ⇒ Any, errorIfFieldExists: Boolean): DataStream

Definition Classes
DataStream
Annotations
@deprecated
Deprecated
(Since version 1.3.0) Use addFieldFn for better type inference
def addField(name: String, fn: (Row) ⇒ Any): DataStream

Returns a new DataStream with a new field added at the end.
Returns a new DataStream with a new field added at the end. The datatype for the field is assumed to be String. The value for the field is taken from the function which is invoked for each row.

Definition Classes
DataStream
Annotations
@deprecated
Deprecated
(Since version 1.3.0) Use addFieldFn for better type inference
def addField(field: Field, fn: (Row) ⇒ Any, errorIfFieldExists: Boolean): DataStream

Definition Classes
DataStream
Annotations
@deprecated
Deprecated
(Since version 1.3.0) use addFieldFn
def addField(field: Field, fn: (Row) ⇒ Any): DataStream

Definition Classes
DataStream
Annotations
@deprecated
Deprecated
(Since version 1.3.0) use addFieldFn
def addFieldIfNotExists(field: Field, defaultValue: Any): DataStream

Definition Classes
DataStream
Annotations
@deprecated
Deprecated
(Since version 1.3.0) use addField with errorIfFieldExists = false
def addFieldIfNotExists(name: String, defaultValue: Any): DataStream

Definition Classes
DataStream
Annotations
@deprecated
Deprecated
(Since version 1.3.0) use addField with errorIfFieldExists = false

Related Doc: package datastream

class DataStreamPublisher extends DataStream

Instance Constructors

new DataStreamPublisher(schema: StructType)

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

def ++(other: DataStream): DataStream

final def ==(arg0: Any): Boolean

def addField(field: Field, defaultValue: Any, errorIfFieldExists: Boolean): DataStream

def addField(name: Field, defaultValue: Any): DataStream

def addField(field: Field, expression: Expression, errorIfFieldExists: Boolean): DataStream

def addField(field: Field, expression: Expression): DataStream

def addField(name: String, defaultValue: String, errorIfFieldExists: Boolean): DataStream

def addField(name: String, defaultValue: String): DataStream

def addFieldFn(name: String, fn: (Row) ⇒ Any, errorIfFieldExists: Boolean): DataStream

def addFieldFn(name: String, fn: (Row) ⇒ Any): DataStream

def addFieldFn(field: Field, fn: (Row) ⇒ Any, errorIfFieldExists: Boolean): DataStream

def addFieldFn(field: Field, fn: (Row) ⇒ Any): DataStream

def aggregated(): GroupedDataStream

final def asInstanceOf[T0]: T0

def cartesian(other: DataStream): DataStream

def clone(): AnyRef

def close(): Unit

def collect: Vector[Row]

def collectValues: Vector[Seq[Any]]

def concat(other: DataStream): DataStream

def count: Long

def drop(n: Int): DataStream

def dropField(fieldName: String, caseSensitive: Boolean = true): DataStream

def dropFieldIfExists(fieldName: String, caseSensitive: Boolean = true): DataStream

def dropFields(regex: Regex): DataStream

def dropNullRows(): DataStream

def dropWhile(fieldName: String, p: (Any) ⇒ Boolean): DataStream

def dropWhile(p: (Row) ⇒ Boolean): DataStream

final def eq(arg0: AnyRef): Boolean

def equals(arg0: Any): Boolean

def error(t: Throwable): Unit

def exists(p: (Row) ⇒ Boolean): Boolean

def explode(fn: (Row) ⇒ Seq[Row]): DataStream

def filter(expression: Equals): DataStream

def filter(fieldName: String, p: (Any) ⇒ Boolean): DataStream

def filter(f: (Row) ⇒ Boolean): DataStream

def filterNot(p: (Row) ⇒ Boolean): DataStream

def finalize(): Unit

def find(p: (Row) ⇒ Boolean): Option[Row]

def foreach[U](fn: (Row) ⇒ U): DataStream

final def getClass(): Class[_]

def groupBy(fn: (Row) ⇒ Any): GroupedDataStream

def groupBy(fields: Iterable[String]): GroupedDataStream

def groupBy(first: String, rest: String*): GroupedDataStream

def hashCode(): Int

def head: Row

def intersection(stream: DataStream): DataStream

def isCancelled: Boolean

final def isInstanceOf[T0]: Boolean

def iterator: Iterator[Row]

def join(key: String, other: DataStream): DataStream

def listener(_listener: Listener): DataStream

val logger: Logger

def map(f: (Row) ⇒ Row): DataStream

def mapField(fieldName: String, fn: (Any) ⇒ Any): DataStream

def mapFieldIfExists(fieldName: String, fn: (Any) ⇒ Any): DataStream

def maxBy[T](fn: (Row) ⇒ T)(implicit ordering: Ordering[T]): Row

def minBy[T](fn: (Row) ⇒ T)(implicit ordering: Ordering[T]): Row

def multiplex(count: Int): Seq[DataStream]

final def ne(arg0: AnyRef): Boolean

final def notify(): Unit

final def notifyAll(): Unit

def projection(fields: Seq[String]): DataStream

def projection(first: String, rest: String*): DataStream

def projectionExpression(expr: String): DataStream

def publish(row: Seq[Row]): Unit

def removeField(fieldName: String, caseSensitive: Boolean = true): DataStream

def removeFieldIfExists(fieldName: String, caseSensitive: Boolean = true): DataStream

def removeFields(regex: Regex): DataStream

def renameField(nameFrom: String, nameTo: String): DataStream

def replace(from: String, target: Any): DataStream

def replace(fieldName: String, from: String, target: Any, errorIfUnknownField: Boolean = true): DataStream