我们平常的转换文档可能都是这样的:

a = ["Chinese Beijing Chinese","Chinese Chinese Shanghai","Chinese Macao","Tokyo Japan Chinese"]

现在变成了下面这样

a=['h',"e","l","l","o"]

这样的话,我们需要修改analyzer="char"(字符级别转向量),否则报错,默认是analyzer="word"(单词级别转向量)。
如下:

from sklearn.feature_extraction.text import TfidfVectorizer
#标签是字符串
a=['h',"e","l","l","o"]
atv=TfidfVectorizer(analyzer="char")
atv_fit=atv.fit_transform(a)#下面这行代码是打印标签对应哪一列为1,这个TfidfVectorizer是按字母顺序排序的a-z。
print(atv.get_feature_names())
av=atv_fit.toarray()
av

不报错,结果如下:

empty vocabulary; perhaps the documents only contain stop words相关推荐

  1. python语言运行出现ValueError: empty vocabulary; perhaps the documents only contain stop words

    我运行的代码出自https://github.com/sunxiangguo/chinese_text_classification,python是3.9的,pycharm是2020.3.3. 训练集 ...

  2. 解决Sklearn ValueError: empty vocabulary; perhaps the documents only contain stop words

    这个是因为你导入的字典是中文的原因,你可以使用几个空格将文本分开,注意空格不能在最后面. 但是拆出来的是几个字组成的.不能做到每一个都字,,,, 或者 CountVectorizer(analyzer ...

  3. 微信小程序自定义组件使用canvas绘图,无法绘制以及fail canvas is empty问题

    情况2:自定义组件引用canvas绘制,空白: 原因:查看文档,在自定义组件内需要手动传入当前实例的this,否则canvas指向的this为父组件所以无法找到正确canvas:<br / 情况 ...

  4. ML之NB:利用NB朴素贝叶斯算法(CountVectorizer/TfidfVectorizer+去除停用词)进行分类预测、评估

    ML之NB:利用NB朴素贝叶斯算法(CountVectorizer/TfidfVectorizer+去除停用词)进行分类预测.评估 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 c ...

  5. 朴素贝叶斯分类器 文本分类_构建灾难响应的文本分类器

    朴素贝叶斯分类器 文本分类 背景 (Background) Following a disaster, typically you will get millions and millions of ...

  6. python调用sklearn中朴素贝叶斯踩坑

      调用结构: from sklearn.naive_bayes import MultinomialNB # 从sklean.naive_bayes里导入朴素贝叶斯模型 from sklearn.f ...

  7. 基于Kmeans算法的文档聚类(包含Java代码及数据格式)

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 介绍 给定多篇文档,如何对文档进行聚类.本博客使用的是k ...

  8. MongoDB:The Definitive Guide CHAPTER 2 Getting Started

    MongoDB is very powerful, but it is still easy to get started with. In this chapter we'll introduce ...

  9. 【分布式版本控制系统】GIT 托管网站 客户端

    上传到远程库 第一次上传 git add . git commit -m"备注信息" 之后上传 git add . git commit -m"备注信息" gi ...

最新文章

  1. 开工啦!这本书助你快速回归高效工作状态
  2. firefox不激活新标签页
  3. javascript的null 和undifined
  4. Nuxt项目中使用axios
  5. Linux之systemd服务配置及自动重启
  6. 【Android】Android Studio中新创建的app目录结构
  7. 内存泄露检测之ccmalloc
  8. 资源图与死锁定理的灵活运用
  9. java sdk 1.8 64位_java sdk 1.8 64
  10. p1007无线打印服务器,把你的打印机共享出来:Hardlink 固网 打印服务器HP-1007
  11. Flash制作卷轴水墨画展开动画效果
  12. python精通能赚钱吗_月入3千到月入10万,精通数据分析的人到底有多赚?
  13. nginx中location匹配规则与proxy_pass代理转发
  14. 101 Ruby Code Factoids
  15. 美通企业周刊 | 湖北与百胜中国签署战略合作协议;喜茶首家环保主题店亮相深圳;万豪2021年将开设中国第400家酒店...
  16. 雅思考试为您揭秘美国大学最新排名中的玄机
  17. app自动化(二)python代码操控手机终端
  18. excel怎么批量添加单位平方米㎡
  19. 乐信季报图解:交易额达562亿 利润4.1亿环比增长59%
  20. java 面试上机题_java上机笔试试卷

热门文章

  1. 一本可能提升思考水平 10 倍的书
  2. Spring Boot并不重复“造轮子”
  3. t-SNE 原理及Python实例
  4. 投票 | RONG奖学金最佳人气奖评选活动开始啦!
  5. 近期活动盘点:​年末必学课程《社会网络分析》
  6. 北京大学万小军教授:让机器进行文学创作,有什么进展和挑战?
  7. 学AI哪家强?清华全球第1,Top5中有这3所中国高校
  8. 带你入门Python数据挖掘与机器学习(附代码、实例)
  9. 剑指offer:正则表达式匹配
  10. 重磅发布!Google语义分割新数据集来啦!又一个分割SOTA模型