tokenizer

Type Members

class EnglishLemmatizer extends Lemmatizer
class EnglishSentenceSplitter extends RuleBasedSentenceSplitter

Splits a sequence of tokens into sentences
trait Lemmatizer extends AnyRef
class OpenDomainEnglishLexer extends TokenizerLexer

Tokenizer using the OpenDomainLexer.g grammar
class OpenDomainEnglishTokenizer extends Tokenizer

English open domain tokenizer
class OpenDomainLexer extends Lexer
class OpenDomainPortugueseLexer extends Lexer
class OpenDomainPortugueseTokenizer extends Tokenizer

Portuguese open domain tokenizer
class OpenDomainPortugueseTokenizerLexer extends TokenizerLexer

Tokenizer using the OpenDomainLexer.g grammar
class OpenDomainSpanishLexer extends Lexer
class OpenDomainSpanishTokenizer extends Tokenizer

Spanish open domain tokenizer
class OpenDomainSpanishTokenizerLexer extends TokenizerLexer

Tokenizer using the OpenDomainLexer.g grammar
class PortugueseLemmatizer extends Lemmatizer
class PortugueseSentenceSplitter extends RuleBasedSentenceSplitter

Splits a sequence of Portuguese tokens into sentences
case class RawToken(raw: String, beginPosition: Int, endPosition: Int, word: String) extends Product with Serializable

Stores a token as produced by a tokenizer
Stores a token as produced by a tokenizer
raw
The EXACT text tokenized
beginPosition
beginning character offset of raw
endPosition
end character offset of raw
word
Normalized form raw, e.g., "'m" becomes "am". Note: these are NOT lemmas.
abstract class RuleBasedSentenceSplitter extends SentenceSplitter
trait SentenceSplitter extends AnyRef
class SpanishLemmatizer extends Lemmatizer
class SpanishSentenceSplitter extends RuleBasedSentenceSplitter

Splits a sequence of Spanish tokens into sentences
class Tokenizer extends AnyRef

Generic tokenizer Author: mihais Date: 3/15/17
trait TokenizerLexer extends AnyRef

Thin wrapper over the Antlr lexer Author: mihais Date: 3/21/17
trait TokenizerStep extends AnyRef

Implements one step of a tokenization algorithm, which takes in a sequence of tokens and produces another For example, contractions such as "don't" are handled here; domain-specific operations as well.
Implements one step of a tokenization algorithm, which takes in a sequence of tokens and produces another For example, contractions such as "don't" are handled here; domain-specific operations as well. Note: one constraint that must be obeyed by any TokenizerStep is that RawToken.raw and the corresponding character positions must preserve the original text
class TokenizerStepAccentedNormalization extends TokenizerStepNormalization

Normalize text while keeping crucial accented characters, e.g.
Normalize text while keeping crucial accented characters, e.g. 'á'.
class TokenizerStepContractions extends TokenizerStep

Resolves English contractions Author: mihais Date: 3/21/17
class TokenizerStepHyphens extends TokenizerStep

Tokenizes some hyphenated prefixes, which are better handled downstream as separate tokens For example: "mid-July" is separated into "mid" and "July", which is better for date recognition
class TokenizerStepNormalization extends TokenizerStep
class TokenizerStepPortugueseContractions extends TokenizerStep

Resolves Portugese contractions Author: dane Author: mihais Date: 7/10/2018
class TokenizerStepSpanishContractions extends TokenizerStep

Resolves Spanish contractions Author: dane Author: mihais Date: 7/23/2018

Value Members

object EnglishLemmatizer
object RawToken extends Serializable
object SentenceSplitter
object TokenizerStepNormalization

package tokenizer

Type Members

class EnglishLemmatizer extends Lemmatizer

class EnglishSentenceSplitter extends RuleBasedSentenceSplitter

trait Lemmatizer extends AnyRef

class OpenDomainEnglishLexer extends TokenizerLexer

class OpenDomainEnglishTokenizer extends Tokenizer

class OpenDomainLexer extends Lexer

class OpenDomainPortugueseLexer extends Lexer

class OpenDomainPortugueseTokenizer extends Tokenizer

class OpenDomainPortugueseTokenizerLexer extends TokenizerLexer

class OpenDomainSpanishLexer extends Lexer

class OpenDomainSpanishTokenizer extends Tokenizer

class OpenDomainSpanishTokenizerLexer extends TokenizerLexer

class PortugueseLemmatizer extends Lemmatizer

class PortugueseSentenceSplitter extends RuleBasedSentenceSplitter

case class RawToken(raw: String, beginPosition: Int, endPosition: Int, word: String) extends Product with Serializable

abstract class RuleBasedSentenceSplitter extends SentenceSplitter

trait SentenceSplitter extends AnyRef

class SpanishLemmatizer extends Lemmatizer

class SpanishSentenceSplitter extends RuleBasedSentenceSplitter

class Tokenizer extends AnyRef

trait TokenizerLexer extends AnyRef

trait TokenizerStep extends AnyRef

class TokenizerStepAccentedNormalization extends TokenizerStepNormalization

class TokenizerStepContractions extends TokenizerStep

class TokenizerStepHyphens extends TokenizerStep

class TokenizerStepNormalization extends TokenizerStep

class TokenizerStepPortugueseContractions extends TokenizerStep

class TokenizerStepSpanishContractions extends TokenizerStep

Value Members

object EnglishLemmatizer

object RawToken extends Serializable

object SentenceSplitter

object TokenizerStepNormalization

Ungrouped