NgramDistance

N-gram edit com.nexthink.utils.parsing.distance is an edit com.nexthink.utils.parsing.distance metric which considers multiple characters at a time. N-gram edit com.nexthink.utils.parsing.distance takes the idea of Levenshtein com.nexthink.utils.parsing.distance and treats each n-gram as a character. The impact of this approach is that insertions and deletions which don't involve double letters are more heavily penalized using n-grams than unigrams. In essence, it introduces a notion of context and favors strings with continuous streches of equal characters (since it multiples the number of comparisons). It is generally used with bigrams, which offer the best efficiency/performance ratio. We also refine this approach with some level of partial credit for n-grams that share common characters. In addition, by using string affixing which allow the first character to participate in the same number of n-grams as an intermediate character. Also, words that don't begin with the same n-1 characters receive a penalty for not matching the prefix.

See http://webdocs.cs.ualberta.ca/~kondrak/papers/spire05.pdf (N-Gram Similarity and Distance, Grzegorz Kondrak, 2005) This approach is described in "Taming Text", chapter 4 "Fuzzy string matching", https://www.manning.com/books/taming-text

Linear Supertypes

EditDistance[String], AnyRef, Any

Type Members

case class EditWeights(insertion: WeightComputation, deletion: WeightComputation, substitution: WeightComputation, maxPossibleWeight: Int) extends Product with Serializable

Definition Classes
EditDistance
type WeightComputation = (String, String) ⇒ Int

Definition Classes
EditDistance

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def asInstanceOf[T0]: T0

Definition Classes
Any
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
def constantWeightOfArity(arity: Int)(a: String, b: String): Int
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def equals(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def hashCode(): Int

Definition Classes
AnyRef → Any
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def ngramWeight(a: String, b: String): Int
def normalizedBigramDistance(a: String, b: String): Double
def normalizedBigramSimilarity(a: String, b: String): Double
def normalizedEditDistance(a: Seq[String], b: Seq[String], weights: EditWeights): Double

Attributes
protected
Definition Classes
EditDistance
def normalizedNgramDistance(a: String, b: String, arity: Int): Double
def normalizedNgramSimilarity(a: String, b: String, arity: Int): Double
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
def toString(): String

Definition Classes
AnyRef → Any
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )

Related Doc: package distance

object NgramDistance extends EditDistance[String]

Type Members

case class EditWeights(insertion: WeightComputation, deletion: WeightComputation, substitution: WeightComputation, maxPossibleWeight: Int) extends Product with Serializable

type WeightComputation = (String, String) ⇒ Int

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

final def ==(arg0: Any): Boolean

final def asInstanceOf[T0]: T0

def clone(): AnyRef

def constantWeightOfArity(arity: Int)(a: String, b: String): Int

final def eq(arg0: AnyRef): Boolean

def equals(arg0: Any): Boolean

def finalize(): Unit

final def getClass(): Class[_]

def hashCode(): Int

final def isInstanceOf[T0]: Boolean

final def ne(arg0: AnyRef): Boolean

def ngramWeight(a: String, b: String): Int

def normalizedBigramDistance(a: String, b: String): Double

def normalizedBigramSimilarity(a: String, b: String): Double

def normalizedEditDistance(a: Seq[String], b: Seq[String], weights: EditWeights): Double

def normalizedNgramDistance(a: String, b: String, arity: Int): Double

def normalizedNgramSimilarity(a: String, b: String, arity: Int): Double

final def notify(): Unit

final def notifyAll(): Unit

final def synchronized[T0](arg0: ⇒ T0): T0

def toString(): String

final def wait(): Unit

final def wait(arg0: Long, arg1: Int): Unit

final def wait(arg0: Long): Unit

Inherited from EditDistance[String]

Inherited from AnyRef

Inherited from Any

Ungrouped