CustomFileAction

Instance Constructors

new CustomFileAction(id: ActionId, inputId: DataObjectId, outputId: DataObjectId, transformer: CustomFileTransformerConfig, deleteDataAfterRead: Boolean = false, filesPerPartition: Int = 10, breakFileRefLineage: Boolean = false, executionMode: Option[ExecutionMode] = None, executionCondition: Option[Condition] = None, metricsFailCondition: Option[String] = None, metadata: Option[ActionMetadata] = None)(implicit instanceRegistry: InstanceRegistry)

inputId
inputs DataObject
outputId
output DataObject
transformer
a custom file transformer, which reads a file from HadoopFileDataObject and writes it back to another HadoopFileDataObject
deleteDataAfterRead
if the input files should be deleted after processing successfully
filesPerPartition
number of files per Spark partition
executionMode
optional execution mode for this Action
executionCondition
optional spark sql expression evaluated against SubFeedsExpressionData. If true Action is executed, otherwise skipped. Details see Condition.
metricsFailCondition
optional spark sql expression evaluated as where-clause against dataframe of metrics. Available columns are dataObjectId, key, value. If there are any rows passing the where clause, a MetricCheckFailed exception is thrown.

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def addRuntimeEvent(executionId: ExecutionId, phase: ExecutionPhase, state: RuntimeEventState, msg: Option[String] = None, results: Seq[SubFeed] = Seq(), tstmp: LocalDateTime = LocalDateTime.now): Unit

Adds a runtime event for this Action
Adds a runtime event for this Action

Definition Classes
Action
def addRuntimeMetrics(executionId: Option[ExecutionId], dataObjectId: Option[DataObjectId], metric: ActionMetrics): Unit

Adds a runtime metric for this Action
Adds a runtime metric for this Action

Definition Classes
Action
def applyExecutionMode(mainInput: DataObject, mainOutput: DataObject, subFeed: SubFeed, partitionValuesTransform: (Seq[PartitionValues]) ⇒ Map[PartitionValues, PartitionValues])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Applies the executionMode and stores result in executionModeResult variable
Applies the executionMode and stores result in executionModeResult variable

Attributes
protected
Definition Classes
Action
final def asInstanceOf[T0]: T0

Definition Classes
Any
def atlasName: String

Definition Classes
Action → AtlasExportable
def atlasQualifiedName(prefix: String): String

Definition Classes
AtlasExportable
val breakFileRefLineage: Boolean

Stop propagating input FileRefs through action and instead get new FileRefs from DataObject according to the SubFeed's partitionValue.
Stop propagating input FileRefs through action and instead get new FileRefs from DataObject according to the SubFeed's partitionValue. This is needed to reprocess all files of a path/partition instead of the FileRef's passed from the previous Action.

Definition Classes
CustomFileAction → FileSubFeedAction
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
def doTransform(inputSubFeed: FileSubFeed, outputSubFeed: FileSubFeed, doExec: Boolean)(implicit session: SparkSession, context: ActionPipelineContext): FileSubFeed

"Transforms" a given FileSubFeed Note usage of doExec to choose between initialization or actual execution.
"Transforms" a given FileSubFeed Note usage of doExec to choose between initialization or actual execution.
inputSubFeed
subFeed to be processed (referencing files to be read)
outputSubFeed
prepared output subFeed
doExec
true if action should be executed. If false this only checks the prerequisits to do the processing and simulates the output FileRef's that would be created.
returns
processed output subFeed (referencing files written by this action)

Definition Classes
CustomFileAction → FileSubFeedAction
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def exec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

Action.exec implementation
Action.exec implementation
subFeeds
SparkSubFeed's to be processed
returns
processed SparkSubFeed's

Definition Classes
FileSubFeedAction → Action
val executionCondition: Option[Condition]

optional spark sql expression evaluated against SubFeedsExpressionData.
optional spark sql expression evaluated against SubFeedsExpressionData. If true Action is executed, otherwise skipped. Details see Condition.

Definition Classes
CustomFileAction → Action
var executionConditionResult: Option[(Boolean, Option[String])]

Attributes
protected
Definition Classes
Action
val executionMode: Option[ExecutionMode]

optional execution mode for this Action
optional execution mode for this Action

Definition Classes
CustomFileAction → Action
var executionModeResult: Option[Try[Option[ExecutionModeResult]]]

Attributes
protected
Definition Classes
Action
def factory: FromConfigFactory[Action]

Returns the factory that can parse this type (that is, type CO).
Returns the factory that can parse this type (that is, type CO).
Typically, implementations of this method should return the companion object of the implementing class. The companion object in turn should implement FromConfigFactory.
returns
the factory (object) for this class.

Definition Classes
CustomFileAction → ParsableFromConfig
val filesPerPartition: Int

number of files per Spark partition
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def getDataObjectsState: Seq[DataObjectState]

Get potential state of input DataObjects when executionMode is DataObjectStateIncrementalMode.
Get potential state of input DataObjects when executionMode is DataObjectStateIncrementalMode.

Definition Classes
Action
def getInputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

Attributes
protected
Definition Classes
Action
def getLatestRuntimeEventState: Option[RuntimeEventState]

Get latest runtime state
Get latest runtime state

Definition Classes
Action
def getOutputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

Attributes
protected
Definition Classes
Action
def getRuntimeDataImpl: RuntimeData

Attributes
protected
Definition Classes
Action
def getRuntimeInfo(executionId: Option[ExecutionId] = None): Option[RuntimeInfo]

Get summarized runtime information for a given ExecutionId.
Get summarized runtime information for a given ExecutionId.
executionId
ExecutionId to get runtime information for. If empty runtime information for last ExecutionId are returned.

Definition Classes
Action
def getRuntimeMetrics(executionId: Option[ExecutionId] = None): Map[DataObjectId, Option[ActionMetrics]]

Get the latest metrics for all DataObjects and a given SDLExecutionId.
Get the latest metrics for all DataObjects and a given SDLExecutionId.
executionId
ExecutionId to get metrics for. If empty metrics for last ExecutionId are returned.

Definition Classes
Action
val id: ActionId

A unique identifier for this instance.
A unique identifier for this instance.

Definition Classes
CustomFileAction → Action → SdlConfigObject
final def init(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

Action.init implementation
Action.init implementation
subFeeds
SparkSubFeed's to be processed
returns
processed SparkSubFeed's

Definition Classes
FileSubFeedAction → Action
val input: HadoopFileDataObject

Input FileRefDataObject which can CanCreateInputStream
Input FileRefDataObject which can CanCreateInputStream

Definition Classes
CustomFileAction → FileSubFeedAction
val inputId: DataObjectId

inputs DataObject
val inputs: Seq[HadoopFileDataObject]

Input DataObjects To be implemented by subclasses
Input DataObjects To be implemented by subclasses

Definition Classes
CustomFileAction → Action
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
lazy val logger: Logger

Attributes
protected
Definition Classes
SmartDataLakeLogger
val metadata: Option[ActionMetadata]

Additional metadata for the Action
Additional metadata for the Action

Definition Classes
CustomFileAction → Action
val metricsFailCondition: Option[String]

optional spark sql expression evaluated as where-clause against dataframe of metrics.
optional spark sql expression evaluated as where-clause against dataframe of metrics. Available columns are dataObjectId, key, value. If there are any rows passing the where clause, a MetricCheckFailed exception is thrown.

Definition Classes
CustomFileAction → Action
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def nodeId: String

provide an implementation of the DAG node id
provide an implementation of the DAG node id

Definition Classes
Action → DAGNode
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
val output: HadoopFileDataObject

Output FileRefDataObject which can CanCreateOutputStream
Output FileRefDataObject which can CanCreateOutputStream

Definition Classes
CustomFileAction → FileSubFeedAction
val outputId: DataObjectId

output DataObject
val outputs: Seq[HadoopFileDataObject]

Output DataObjects To be implemented by subclasses
Output DataObjects To be implemented by subclasses

Definition Classes
CustomFileAction → Action
final def postExec(inputSubFeeds: Seq[SubFeed], outputSubFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Executes operations needed after executing an action.
Executes operations needed after executing an action. In this step any task on Input- or Output-DataObjects needed after the main task is executed, e.g. JdbcTableDataObjects postWriteSql or CopyActions deleteInputData.

Definition Classes
FileSubFeedAction → Action
def postExecFailed(implicit session: SparkSession): Unit

Executes operations needed to cleanup after executing an action failed.
Executes operations needed to cleanup after executing an action failed.

Definition Classes
Action
def postExecSubFeed(inputSubFeed: SubFeed, outputSubFeed: SubFeed)(implicit session: SparkSession, context: ActionPipelineContext): Unit

Definition Classes
FileSubFeedAction
def preExec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Executes operations needed before executing an action.
Executes operations needed before executing an action. In this step any phase on Input- or Output-DataObjects needed before the main task is executed, e.g. JdbcTableDataObjects preWriteSql

Definition Classes
Action
def preInit(subFeeds: Seq[SubFeed], dataObjectsState: Seq[DataObjectState])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Checks before initalization of Action In this step execution condition is evaluated and Action init is skipped if result is false.
Checks before initalization of Action In this step execution condition is evaluated and Action init is skipped if result is false.

Definition Classes
Action
def prepare(implicit session: SparkSession, context: ActionPipelineContext): Unit

Prepare DataObjects prerequisites.
Prepare DataObjects prerequisites. In this step preconditions are prepared & tested: - connections can be created - needed structures exist, e.g Kafka topic or Jdbc table
This runs during the "prepare" phase of the DAG.

Definition Classes
FileSubFeedAction → Action
def recursiveInputs: Seq[FileRefDataObject with CanCreateInputStream]

Recursive Inputs on FileSubFeeds are not supported so empty Seq is set.
Recursive Inputs on FileSubFeeds are not supported so empty Seq is set.

Definition Classes
FileSubFeedAction → Action
def setSparkJobMetadata(operation: Option[String] = None)(implicit session: SparkSession, context: ActionPipelineContext): Unit

Sets the util job description for better traceability in the Spark UI
Sets the util job description for better traceability in the Spark UI
Note: This sets Spark local properties, which are propagated to the respective executor tasks. We rely on this to match metrics back to Actions and DataObjects. As writing to a DataObject on the Driver happens uninterrupted in the same exclusive thread, this is suitable.
operation
phase description (be short...)

Definition Classes
Action
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
final def toString(executionId: Option[ExecutionId]): String

Definition Classes
Action
final def toString(): String

This is displayed in ascii graph visualization
This is displayed in ascii graph visualization

Definition Classes
Action → AnyRef → Any
def toStringMedium: String

Definition Classes
Action
def toStringShort: String

Definition Classes
Action
val transformer: CustomFileTransformerConfig

a custom file transformer, which reads a file from HadoopFileDataObject and writes it back to another HadoopFileDataObject
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )

Deprecated Value Members

val deleteDataAfterRead: Boolean

if the input files should be deleted after processing successfully
if the input files should be deleted after processing successfully

Definition Classes
CustomFileAction → FileSubFeedAction
Annotations
@deprecated
Deprecated
(Since version 2.0.3) use executionMode = FileIncrementalMoveMode instead

Related Docs: object CustomFileAction | package action

Instance Constructors

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

final def ==(arg0: Any): Boolean

def addRuntimeEvent(executionId: ExecutionId, phase: ExecutionPhase, state: RuntimeEventState, msg: Option[String] = None, results: Seq[SubFeed] = Seq(), tstmp: LocalDateTime = LocalDateTime.now): Unit

def addRuntimeMetrics(executionId: Option[ExecutionId], dataObjectId: Option[DataObjectId], metric: ActionMetrics): Unit

def applyExecutionMode(mainInput: DataObject, mainOutput: DataObject, subFeed: SubFeed, partitionValuesTransform: (Seq[PartitionValues]) ⇒ Map[PartitionValues, PartitionValues])(implicit session: SparkSession, context: ActionPipelineContext): Unit

final def asInstanceOf[T0]: T0

def atlasName: String

def atlasQualifiedName(prefix: String): String

val breakFileRefLineage: Boolean

def clone(): AnyRef

def doTransform(inputSubFeed: FileSubFeed, outputSubFeed: FileSubFeed, doExec: Boolean)(implicit session: SparkSession, context: ActionPipelineContext): FileSubFeed

final def eq(arg0: AnyRef): Boolean

final def exec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

val executionCondition: Option[Condition]

var executionConditionResult: Option[(Boolean, Option[String])]

val executionMode: Option[ExecutionMode]

var executionModeResult: Option[Try[Option[ExecutionModeResult]]]

def factory: FromConfigFactory[Action]

val filesPerPartition: Int

def finalize(): Unit

final def getClass(): Class[_]

def getDataObjectsState: Seq[DataObjectState]

def getInputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

def getLatestRuntimeEventState: Option[RuntimeEventState]

def getOutputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

def getRuntimeDataImpl: RuntimeData

def getRuntimeInfo(executionId: Option[ExecutionId] = None): Option[RuntimeInfo]

def getRuntimeMetrics(executionId: Option[ExecutionId] = None): Map[DataObjectId, Option[ActionMetrics]]

val id: ActionId

final def init(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

val input: HadoopFileDataObject

val inputId: DataObjectId

val inputs: Seq[HadoopFileDataObject]

final def isInstanceOf[T0]: Boolean

lazy val logger: Logger

val metadata: Option[ActionMetadata]

val metricsFailCondition: Option[String]

final def ne(arg0: AnyRef): Boolean

def nodeId: String

final def notify(): Unit

final def notifyAll(): Unit

val output: HadoopFileDataObject

val outputId: DataObjectId

val outputs: Seq[HadoopFileDataObject]

final def postExec(inputSubFeeds: Seq[SubFeed], outputSubFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def postExecFailed(implicit session: SparkSession): Unit

def postExecSubFeed(inputSubFeed: SubFeed, outputSubFeed: SubFeed)(implicit session: SparkSession, context: ActionPipelineContext): Unit

def preExec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def preInit(subFeeds: Seq[SubFeed], dataObjectsState: Seq[DataObjectState])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def prepare(implicit session: SparkSession, context: ActionPipelineContext): Unit

def recursiveInputs: Seq[FileRefDataObject with CanCreateInputStream]

def setSparkJobMetadata(operation: Option[String] = None)(implicit session: SparkSession, context: ActionPipelineContext): Unit

final def synchronized[T0](arg0: ⇒ T0): T0

final def toString(executionId: Option[ExecutionId]): String

final def toString(): String

def toStringMedium: String

def toStringShort: String

val transformer: CustomFileTransformerConfig

final def wait(): Unit

final def wait(arg0: Long, arg1: Int): Unit

final def wait(arg0: Long): Unit

Deprecated Value Members

val deleteDataAfterRead: Boolean

Inherited from Serializable

Inherited from Serializable

Inherited from Product

Inherited from Equals

Inherited from FileSubFeedAction

Inherited from Action

Inherited from AtlasExportable

Inherited from SmartDataLakeLogger

Inherited from DAGNode

Inherited from ParsableFromConfig[Action]

Inherited from SdlConfigObject

Inherited from AnyRef