sklearn.feature_extraction.text.CountVectorizer 参数说明

本人小白一枚，现在正在做分词和文本挖掘的事情，翻译了下sklearn.feature_extraction.text.CountVectorizer，有错误之处还请大佬指出

将文本文档集合转换为计数矩阵此实现使用scipy.sparse.csr_matrix生成计数的稀疏表示。如果您不提供先验词典并且不使用执行某种特征选择的分析器，则功能的数量将等于通过分析数据找到的词汇量。

用法：

sklearn.feature_extraction.text(input=’content’,encoding=’utf8’, decode_error=’strict’,strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), analyzer=’word’, max_df=1.0, min_df=1, max_features=None, vocabulary=None,binary=False, dtype=<class ‘numpy.int64’>)

参数：

Input：string {‘filename’, ‘file’, ‘content’}

如果是'filename'，那么作为参数传递给fit的序列应该是一个需要读取以获取要分析的原始内容的文件名列表。

如果是'file'，则序列项必须具有'read'方法（类文件对象），该方法被调用以获取内存中的字节。

否则，输入应该是序列字符串或预期直接分析的字节项。

Encoding： string, ‘utf-8’ by default.

如果给出要分析的字节或文件，则使用此编码进行解码。

decode_error： {‘strict’, ‘ignore’, ‘replace’}

如果给出分析的字节序列包含没给定编码的字符，该如何操作的说明。默认情况下，它是'strict'，这意味着将引发UnicodeDecodeError。其他值为'ignore'和'replace'。

strip_accents=None： {‘ascii’, ‘unicode’, None}

在预处理步骤中删除重音。 'ascii'是一种快速方法，仅适用于具有直接ASCII映射的字符。 'unicode'是一种稍微慢一点的方法，适用于任何字符。无（默认）不执行任何操作。

Lowercase：boolean, True by default

在标记化之前将所有字符转换为小写

Preprocessor：callable or None (default)

覆盖预处理（字符串转换）阶段，同时保留标记化和n-gram生成步骤。

Tokenizer：callable or None (default)

覆盖字符串标记化步骤，同时保留预处理和n-gram生成步骤。仅适用于analyzer =='word'。

stop_words：string {‘english’}, list, or None (default)

如果是“英语”，则使用英语的内置停用词列表。

如果列表，该列表被假定包含停用词，则所有这些将从生成的结果中删除。仅适用于analyzer =='word'。

如果为None，则不使用停用词。 max_df可以设置为[0.7,1.0]范围内的值，以根据术语的语料库文档频率自动检测和过滤停用词。

token_pattern：string

正则表达式表示什么构成“标记”，仅在analyzer =='word'时使用。默认正则表达式选择2个或更多字母数字字符的标记（标点符号完全被忽略，并始终被视为标记分隔符）。

ngram_range：tuple (min_n, max_n)

要提取的不同n-gram的n值范围的下边界和上边界。将使用n的所有值，使得min_n <= n <= max_n。

Analyzer：string, {‘word’, ‘char’, ‘char_wb’} or callable

该功能是否应由单词或字符n-gram组成。

选项'char_wb'仅从字边界内的文本创建字符n-gram; 单词边缘的n-gram用空格填充。

如果传递了一个callable，它将用于从原始未处理的输入中提取特征序列。

max_df： float in range [0.0, 1.0] or int, default=1.0

在构建词汇表时，忽略文档频率严格高于给定阈值的术语（语料库特定的停用词）。如果是float，则参数表示文档的比例，整数绝对计数。如果词汇表不是None，则忽略此参数。

min_df：float in range [0.0, 1.0] or int, default=1

构建词汇表时，请忽略文档频率严格低于给定阈值的术语。该值在文献中也称为截止值。如果是float，则参数表示文档的比例，整数绝对计数。如果词汇表不是None，则忽略此参数。

max_features：int or None, default=None

如果不是None，则构建一个词汇表，该词汇表仅考虑语料库中按术语频率排序的最高max_features。

如果词汇表不是None，则忽略此参数。

Vocabulary：Mapping or iterable, optional

其中键是术语和值的映射（例如，字典）是特征矩阵中的索引，或者是可迭代的术语。如果没有给出，则从输入文档确定词汇表。映射中的索引不应重复，并且不应该在0和最大索引之间存在任何差距。

Binary：boolean, default=False

如果为True，则所有非零计数都设置为1.这对于模拟二进制事件而非整数计数的离散概率模型非常有用。

Dtype：type, optional

fit_transform（）或transform（）返回的矩阵的类型。

方法：

vocabulary_ : dict

术语与特征指标的映射

使用：

h=docx2txt.process(file_path)
jieba.analyse.set_stop_words('')
data=jieba.analyse.extract_tags(h)
print(data)
count=CountVectorizer(data)
print(count.fit_transform(data).toarray())
print(count.vocabulary_)
for key,value in count.vocabulary_.items():
print (key,value)

sklearn.feature_extraction.text.CountVectorizer 参数说明相关推荐

为什么训练集用fit_transform()而测试集用transform()及sklearn.feature_extraction.text.CountVectorizer API详解
真正讲明白的 https://blog.csdn.net/yyhhlancelot/article/details/85097656 API https://scikit-learn.org/stab ...
sklearn.feature_extraction.text.CountVectorizer 学习
CountVectorizer: CountVectorizer可以将文本文档集合转换为token计数矩阵.(token可以理解成词) 此实现通过使用scipy.sparse.csr_matrix产生 ...
理解sklearn.feature.text中的CountVectorizer和TfidfVectorizer
""" 理解sklearn中的CountVectorizer和TfidfVectorizer """ from collections im ...
sklearn TfidfVectorizer、CountVectorizer词袋、 TfidfTransformer词频模型区别及词表、idf获取、cosine计算、bm25相关性
#搜索query与docs,词表.idf获取.cosine计算 import pandas as pd import numpy as np from sklearn.feature_extracti ...
【Python3机器学习】sklearn中的CountVectorizer和TfidfTransformer
原文链接:https://blog.csdn.net/qq_36134437/article/details/103057909 CountVectorizer会将文本中的词语转换为词频矩阵,它通过f ...
[机器学习-Sklearn]函数sklearn.feature_extraction.DictVectorizer理解与总结
机器学习-Sklearn之DictVectorizer函数学习函数介绍例子1 例子2 - 文件中读数据函数介绍 sklearn.featture_extraction.DictVectorize ...
CountVectorizer 统计文本重复率 sklearn API
https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.ht ...
03_数据的特征抽取，sklearn特征抽取API，字典特征抽取DictVectorizer,文本特征抽取CountVectorizer，TF-IDF(TfidfVectorizer),详细案例
数据的特征抽取 A:特征抽取实例演示通过演示得出结论: 特征抽取针对非连续型数据特征抽取对文本等进行特征值化注:特征值化是为了计算机更好的去理解数据. B:sklearn特征抽取API skle ...
2020-08-20 CountVectorizer 包含示例 API
https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.ht ...

sklearn.feature_extraction.text.CountVectorizer 参数说明

sklearn.feature_extraction.text.CountVectorizer 参数说明相关推荐

最新文章

热门文章