org.apache.lucene.analysis.core.LetterTokenizer

All Implemented Interfaces:: Closeable, AutoCloseable

Direct Known Subclasses:: ArabicLetterTokenizer, LowerCaseTokenizer

public class LetterTokenizer extends CharTokenizer

A LetterTokenizer is a tokenizer that divides text at non-letters. That's to say, it defines tokens as maximal strings of adjacent letters, as defined by java.lang.Character.isLetter() predicate.

Note: this does a decent job for most European languages, but does a terrible job for some Asian languages, where words are not separated by spaces.

You must specify the required Version compatibility when creating LetterTokenizer:

As of 3.1, CharTokenizer uses an int based API to normalize and detect token characters. See CharTokenizer.isTokenChar(int) and CharTokenizer.normalize(int) for details.

Nested Class Summary

Nested classes/interfaces inherited from class org.apache.lucene.util.AttributeSource
AttributeSource.AttributeFactory, AttributeSource.State
Constructor Summary

Constructors

Constructor

Description

LetterTokenizer(Version matchVersion, Reader in)

Construct a new LetterTokenizer.

LetterTokenizer(Version matchVersion, AttributeSource.AttributeFactory factory, Reader in)

Construct a new LetterTokenizer using a given AttributeSource.AttributeFactory.
Method Summary

Methods inherited from class org.apache.lucene.analysis.util.CharTokenizer
end, incrementToken, reset

Methods inherited from class org.apache.lucene.analysis.Tokenizer
close, setReader

Methods inherited from class org.apache.lucene.util.AttributeSource
addAttribute, addAttributeImpl, captureState, clearAttributes, cloneAttributes, copyTo, equals, getAttribute, getAttributeClassesIterator, getAttributeFactory, getAttributeImplsIterator, hasAttribute, hasAttributes, hashCode, reflectAsString, reflectWith, restoreState, toString

Methods inherited from class java.lang.Object
getClass, notify, notifyAll, wait, wait, wait

Constructor Details
- LetterTokenizer
  
  public LetterTokenizer(Version matchVersion, Reader in)
  
  Construct a new LetterTokenizer.
  Parameters:
  
  matchVersion - Lucene version to match See
  
  invalid @link
  
  {@link <a href="#version">above</a>
  
  }
  
  in - the input to split up into tokens
- LetterTokenizer
  
  public LetterTokenizer(Version matchVersion, AttributeSource.AttributeFactory factory, Reader in)
  
  Construct a new LetterTokenizer using a given AttributeSource.AttributeFactory.
  Parameters:
  
  matchVersion - Lucene version to match See
  
  invalid @link
  
  {@link <a href="#version">above</a>
  
  }
  
  factory - the attribute factory to use for this Tokenizer
  
  in - the input to split up into tokens

Class LetterTokenizer

Nested Class Summary

Nested classes/interfaces inherited from class org.apache.lucene.util.AttributeSource

Constructor Summary

Method Summary

Methods inherited from class org.apache.lucene.analysis.util.CharTokenizer

Methods inherited from class org.apache.lucene.analysis.Tokenizer

Methods inherited from class org.apache.lucene.util.AttributeSource

Methods inherited from class java.lang.Object

Constructor Details

LetterTokenizer

LetterTokenizer