CountVectorizer删除仅出现一次的功能_随笔

CountVectorizer删除仅出现一次的功能

因此，在没有实际看到的源代码的情况下很难说

setup_data

，但是我对这里发生的事情有相当不错的猜测。

sklearn

遵循

fit_transform

格式，表示有两个阶段，特别

fit

是和

transform

。

在的例子

CountVectorizer

的

fit

阶段有效地创建的词汇，和

transform

步将您输入的文本插入的词汇空间。

我的猜测是，您要同时调用

fit

两个数据集而不是一个，

CountVectorizer

如果您希望结果一致，则需要在两个数据集上使用相同的“适合”版本。例如：

model = CountVectorizer()transformed_train = model.fit_transform(train_corpus)transformed_test = model.transform(test_corpus)

再说一次，这只能是一个猜测，直到您发布该

setup_data

函数为止，但是在看到这一点之前，我猜您正在做这样的事情：

model = CountVectorizer()transformed_train = model.fit_transform(train_corpus)transformed_test = model.fit_transform(test_corpus)

可以有效地为制作新的词汇表

test_corpus

，这两种情况下的词汇长度都不会令人惊讶。

欢迎分享，转载请注明来源：内存溢出

CountVectorizer删除仅出现一次的功能