annotators

Type Members

class ChunkTokenizer extends Tokenizer
class ChunkTokenizerModel extends TokenizerModel
class Chunker extends AnnotatorModel[Chunker]
class DateMatcher extends AnnotatorModel[DateMatcher] with DateMatcherUtils

Matches standard date formats into a provided format
trait DateMatcherUtils extends Params
class Lemmatizer extends AnnotatorApproach[LemmatizerModel]

Class to find standarized lemmas from words.
Class to find standarized lemmas from words. Uses a user-provided or default dictionary.
class LemmatizerModel extends AnnotatorModel[LemmatizerModel]
class MultiDateMatcher extends AnnotatorModel[MultiDateMatcher] with DateMatcherUtils

Matches standard date formats into a provided format
class NGramGenerator extends AnnotatorModel[NGramGenerator]

A feature transformer that converts the input array of strings (annotatorType TOKEN) into an array of n-grams (annotatorType CHUNK).
A feature transformer that converts the input array of strings (annotatorType TOKEN) into an array of n-grams (annotatorType CHUNK). Null values in the input array are ignored. It returns an array of n-grams where each n-gram is represented by a space-separated string of words.
When the input is empty, an empty array is returned. When the input array length is less than n (number of elements per n-gram), no n-grams are returned.
class Normalizer extends AnnotatorApproach[NormalizerModel]

Annotator that cleans out tokens.
Annotator that cleans out tokens. Requires stems, hence tokens
class NormalizerModel extends AnnotatorModel[NormalizerModel]
trait ReadablePretrainedLemmatizer extends ParamsAndFeaturesReadable[LemmatizerModel] with HasPretrained[LemmatizerModel]
trait ReadablePretrainedTextMatcher extends ParamsAndFeaturesReadable[TextMatcherModel] with HasPretrained[TextMatcherModel]
trait ReadablePretrainedTokenizer extends ParamsAndFeaturesReadable[TokenizerModel] with HasPretrained[TokenizerModel]
class RegexMatcher extends AnnotatorApproach[RegexMatcherModel]
class RegexMatcherModel extends AnnotatorModel[RegexMatcherModel]

Matches regular expressions and maps them to specified values optionally provided Rules are provided from external source file
class SimpleTokenizer extends AnnotatorModel[SimpleTokenizer]
class Stemmer extends AnnotatorModel[Stemmer]

Hard stemming of words for cut-of into standard word references
class StopWordsCleaner extends AnnotatorModel[StopWordsCleaner]
class TextMatcher extends AnnotatorApproach[TextMatcherModel] with ParamsAndFeaturesWritable
class TextMatcherModel extends AnnotatorModel[TextMatcherModel]

Extracts entities out of provided phrases
class Token2Chunk extends AnnotatorModel[Token2Chunk]
class Tokenizer extends AnnotatorApproach[TokenizerModel]
class TokenizerModel extends AnnotatorModel[TokenizerModel]

Tokenizes raw text into word pieces, tokens.

Value Members

object ChunkTokenizer extends DefaultParamsReadable[ChunkTokenizer] with Serializable
object ChunkTokenizerModel extends ParamsAndFeaturesReadable[ChunkTokenizerModel] with Serializable
object Chunker extends DefaultParamsReadable[Chunker] with Serializable
object DateMatcher extends DefaultParamsReadable[DateMatcher] with Serializable
object EnglishStemmer
object Lemmatizer extends DefaultParamsReadable[Lemmatizer] with Serializable
object LemmatizerModel extends ReadablePretrainedLemmatizer with Serializable
object MultiDateMatcher extends DefaultParamsReadable[MultiDateMatcher] with Serializable
object NGramGenerator extends ParamsAndFeaturesReadable[NGramGenerator] with Serializable
object Normalizer extends DefaultParamsReadable[Normalizer] with Serializable
object NormalizerModel extends ParamsAndFeaturesReadable[NormalizerModel] with Serializable
object RegexMatcher extends DefaultParamsReadable[RegexMatcher] with Serializable
object RegexMatcherModel extends ParamsAndFeaturesReadable[RegexMatcherModel] with Serializable
object Stemmer extends DefaultParamsReadable[Stemmer] with Serializable
object StopWordsCleaner extends ParamsAndFeaturesReadable[StopWordsCleaner] with Serializable
object TextMatcher extends DefaultParamsReadable[TextMatcher] with Serializable
object TextMatcherModel extends ReadablePretrainedTextMatcher with Serializable
object Token2Chunk extends DefaultParamsReadable[Token2Chunk] with Serializable
object Tokenizer extends DefaultParamsReadable[Tokenizer] with Serializable
object TokenizerModel extends ReadablePretrainedTokenizer with Serializable
package btm
package common
package ner
package param
package parser
package pos
package sbd
package sda
package spell

package annotators

Type Members

class ChunkTokenizer extends Tokenizer

class ChunkTokenizerModel extends TokenizerModel

class Chunker extends AnnotatorModel[Chunker]

class DateMatcher extends AnnotatorModel[DateMatcher] with DateMatcherUtils

trait DateMatcherUtils extends Params

class Lemmatizer extends AnnotatorApproach[LemmatizerModel]

class LemmatizerModel extends AnnotatorModel[LemmatizerModel]

class MultiDateMatcher extends AnnotatorModel[MultiDateMatcher] with DateMatcherUtils

class NGramGenerator extends AnnotatorModel[NGramGenerator]

class Normalizer extends AnnotatorApproach[NormalizerModel]

class NormalizerModel extends AnnotatorModel[NormalizerModel]

trait ReadablePretrainedLemmatizer extends ParamsAndFeaturesReadable[LemmatizerModel] with HasPretrained[LemmatizerModel]

trait ReadablePretrainedTextMatcher extends ParamsAndFeaturesReadable[TextMatcherModel] with HasPretrained[TextMatcherModel]

trait ReadablePretrainedTokenizer extends ParamsAndFeaturesReadable[TokenizerModel] with HasPretrained[TokenizerModel]

class RegexMatcher extends AnnotatorApproach[RegexMatcherModel]

class RegexMatcherModel extends AnnotatorModel[RegexMatcherModel]

class SimpleTokenizer extends AnnotatorModel[SimpleTokenizer]

class Stemmer extends AnnotatorModel[Stemmer]

class StopWordsCleaner extends AnnotatorModel[StopWordsCleaner]

class TextMatcher extends AnnotatorApproach[TextMatcherModel] with ParamsAndFeaturesWritable

class TextMatcherModel extends AnnotatorModel[TextMatcherModel]

class Token2Chunk extends AnnotatorModel[Token2Chunk]

class Tokenizer extends AnnotatorApproach[TokenizerModel]

class TokenizerModel extends AnnotatorModel[TokenizerModel]

Value Members

object ChunkTokenizer extends DefaultParamsReadable[ChunkTokenizer] with Serializable

object ChunkTokenizerModel extends ParamsAndFeaturesReadable[ChunkTokenizerModel] with Serializable

object Chunker extends DefaultParamsReadable[Chunker] with Serializable

object DateMatcher extends DefaultParamsReadable[DateMatcher] with Serializable

object EnglishStemmer

object Lemmatizer extends DefaultParamsReadable[Lemmatizer] with Serializable

object LemmatizerModel extends ReadablePretrainedLemmatizer with Serializable

object MultiDateMatcher extends DefaultParamsReadable[MultiDateMatcher] with Serializable

object NGramGenerator extends ParamsAndFeaturesReadable[NGramGenerator] with Serializable

object Normalizer extends DefaultParamsReadable[Normalizer] with Serializable

object NormalizerModel extends ParamsAndFeaturesReadable[NormalizerModel] with Serializable

object RegexMatcher extends DefaultParamsReadable[RegexMatcher] with Serializable

object RegexMatcherModel extends ParamsAndFeaturesReadable[RegexMatcherModel] with Serializable

object Stemmer extends DefaultParamsReadable[Stemmer] with Serializable

object StopWordsCleaner extends ParamsAndFeaturesReadable[StopWordsCleaner] with Serializable

object TextMatcher extends DefaultParamsReadable[TextMatcher] with Serializable

object TextMatcherModel extends ReadablePretrainedTextMatcher with Serializable

object Token2Chunk extends DefaultParamsReadable[Token2Chunk] with Serializable

object Tokenizer extends DefaultParamsReadable[Tokenizer] with Serializable

object TokenizerModel extends ReadablePretrainedTokenizer with Serializable

package btm

package common

package ner

package param

package parser

package pos

package sbd

package sda

package spell

Ungrouped