排序
词的向量表示
词向量 vs 词嵌入 词向量( Word Vector ) 通常也叫词嵌入(Word Embeding),是一种寻找词语词之间相似性的 NLP 技术。它把词汇各个维度上的特征用数值向量进行表示,利用这些维度上特征的相似...
Bag-of-Words 模型
Bag-of-Words (BoW) 模型又称词袋模型。它将文本中的词看做是一个个独立的个体,不考虑它们在句子中的顺序,只关心每个词出现的频次。词袋模型会将句子表示成向量,通过比较向量之间的相似度,...
N-Gram 模型
将文本分割成连续的 N 个词的组合(即 N-Gram),来近似描述词序列的联合概率。基于前 N-1 个词来预测序列的第 N个词。 以词为Gram(元素)的 N-Gram模型如下图所示,其中 Unigram 中 N 值为 1,...