创建模型需要用到机器学习的库,所以我们先下载sklearn库

sklearn库

下载完成后再输入库文件,就可以完美运行。

然后就是划分测试集和训练集,需要注意的是,在从数据处理函数中导入数据时,足足运行了有将近30多秒,可见在数据处理部分,分词、添加停用词等步骤是非常复杂和消耗资源的,所以我在当初讲这个课题后提出的,把一次运行完后获得的分词数据进行保存,以便接下来的词云绘制和模型构建两步进行快速访问数据,还是非常有用的。

往后在Tf-idf权重计算这一环节出现了错误

(X_tr = TfidfTransformer().fit_transform(data_tr.toarray()).toarray())

查了百度后,得知解决办法大致是通过控制面板的高级系统设置,更改系统给每一个硬盘分区所分配的内存来解决,我试了之后,问题果然解决了。

当然严格来说这其实是一个悖论,因为要想更改系统给硬盘分配的内存生效,就必须重启计算机,而重启计算机也会重新使系统给应用程序分配内存,这样也可以解决内存不足问题。所以说你不可能只让系统给应用分配的内存空间设置生效,而不让系统重启,这样在逻辑上是行不通的。

之后测试集的划分就顺利多了,然后进行机器学习,输入测试集评估模型,模型准确度为0.8525

写到这里整个项目算是完成了,但为了加深印象,我们不妨再看一下其中的几个数据

训练集和测试集

这个是数据的TF idf权重计算。因为得到的是稀疏矩阵,一行中只有很少部分有值,因此我们看到的大多都是零。

我个人认为,Pycharm并不是一个完美的文本编辑器,一是他的每个项目都是一个虚拟环境,为这个项目所匹配的库文件并不能为其他项目所适用,如果在另外的项目里边讲引用库,就要重新下载,当然pycharm的作者可能有他自己的想法,但是我个人总觉得,这种想法,似乎并不是很适合我们中国的不是顶尖的大学的大学生的思维。

我已经在边角时间给 Python安装了pip,并成功的给python增加了pandas 库,所以说理论上,我们在Pycharm里面能完成的工作也能在Python自带的IDEI里面完成,如果时间允许,我可能会尝试这样的操作。


总结

总结来说,由于计算机环境不同,我们不可能完全复制我们老师所录制视频的操作步骤,如果遇到的错误老师没有讲过,就要充分利用互联网的丰富性和我们个人思维的灵活性,尝试通过理解编译器报错提示和百度搜索这两种方法来解决问题。

最后,作为python的新学者,遇到问题首先问身边的朋友或者老师,但有些问题并不能得到解决。这时我们可以去网络上搜索。这里我就推荐新学者去csdn搜索来解决我们遇到的问题。里面可以解决我们遇到的各种各样的问题。最后愿天下再无bug。

中tr不能显示字符_垃圾文本识别中基本操作指南和错误总结,第三部分相关推荐

  1. 中tr不能显示字符_BeautifulSoup4中find 和find_all的比较

    BeautifulSoup4中find 和find_all分别有不同的含义,find返回的是TAG对象,只有一个值,可以直接使用属性例如,children.而find_all返回的是TAG对象的迭代对 ...

  2. mysql查询表中名字包含某个字符_查询当前数据库中所有用户表中哪些字段包含某个字符串...

    展开全部 CREATE PROCEDURE FindString(@Value VARCHAR(1024)) AS BEGIN SET NOCOUNT ON; DECLARE @SQL VARCHAR ...

  3. python作业.创建两个文本框,一个按钮。第 1 个文本框绑定任意键事件,敲击键盘任意可显示字符,在交互窗口中显示该字符;第 2 个文本框绑定<a>键事件,敲击键盘 a 字符,在交互窗口中显示 10

    """ 创建两个文本框,一个按钮. 第 1 个文本框绑定任意键事件,敲击键盘任意可显示字符,在交互窗口中显示该字符: 第 2 个文本框绑定<a>键事件,敲击键 ...

  4. 创建两个文本框,一个按钮。第 1 个文本框绑定任意键事件,敲击键盘任意可显示字符,在交互窗口中显示该字符;

    创建两个文本框,一个按钮.第 1 个文本框绑定任意键事件,敲击键盘任意可显示字符,在交互窗口中显示该字符:第 2 个文本框绑定键事件,敲击键盘 a 字符,在交互窗口中显示 10 个'a'字符:按钮绑定 ...

  5. 2021-11-18 WinFrom面试题 Winform中,怎么实现Form2中点击打开按钮,打开Form1,输入文本,再点击Form1中的“确定”按钮,把输入的值显示到Form2的文本框中?

    Winform中,怎么实现Form2中点击打开按钮,打开Form1,输入文本,再点击Form1中的"确定"按钮,把输入的值显示到Form2的文本框中? 首先自定义一个事件参数Tex ...

  6. 论文翻译:基于端到端的可训练神经网络基于图像的序列识别及其在场景文本识别中的应用

    An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to S ...

  7. 怎样快速识别 英文地址中包含非英文字符_[论文笔记]端到端的场景文本识别算法--CRNN 论文笔记...

    本文大约 4000 字,阅读大约需要 10 分钟 论文地址:https://arxiv.org/abs/1507.05717 开源代码:https://github.com/bgshih/crnn 1 ...

  8. python输出文本框_在文本框中显示打印输出

    我在tkinter中创建了一个GUI,当我单击Get时,它必须生成输出结果,在我的编码中使用Print语句显示输出结果,一旦我单击,它必须显示在一个文本框中以及同一个GUI中的滚动条. 我的代码:im ...

  9. css中如何实现帧布局_如何在游戏中实时显示硬件占用率和帧数

    很多的的硬件评测视频中,游戏画面的左上角会显示硬件的使用情况参数,像CPU和GPU的占用率,内存和显存使用,温度等.有不少的朋友有疑问,这是怎么做到的? 其实这个事情不难,只需要一款软件就可以做到,名 ...

最新文章

  1. 合并单元格两行_Excel合并单元格的麻烦事你都经历了哪些?来一起远离那些麻烦事...
  2. 百练OJ:2388:寻找中位数
  3. Vue视频教程系列第三十七节-子路由地配置
  4. 【C++鼠标键盘操作】自动下载CSDN博客文章到PDF
  5. Spark Java API:foreach、foreachPartition、lookup
  6. vue之computed和watch
  7. 让element-ui的输入框聚焦的4种方式
  8. 写在前面-2015.11.30
  9. html5 职工入职后台管理系统_ChemCMS是一款基于GO+PHP+MYSQL+HTML5构建的化学内容管理系统
  10. c#参数修饰符-params
  11. 你不得不知道的HTML5的新型标签
  12. 【广告技术】下个月会有多少用户看到洗发水广告?最先进的张量分解模型给你最好的答案
  13. P5 MySQL数据类型和类型选择
  14. opencv 实现图像时钟
  15. Angular07 利用angular打造管理系统页面
  16. 信号与系统实验二___MATLAB
  17. 【数据产品案例】阿里生意参谋-用户分析
  18. 软件架构风格——4+1视图、5大传统架构风格及其它风格
  19. Notification 模拟收到短信,数据下载的状态栏提示
  20. 【Windows】右键菜单“新建”选项没有word和excel

热门文章

  1. 新生必会的linux命令,jstat命令详解
  2. GIS实战应用案例100篇(二)-元胞自动机模拟城市扩张过程
  3. 北邮计算机系统结构课件,TEC-8 运算器组成实验(北邮).ppt
  4. jenkins修改pom文件_jenkins使用小技巧:pom.xml文件里的版本随着每次发布变化怎么办?...
  5. 限制input 内部字数
  6. js对HTML字符转义与反转义
  7. 前端之bootstrap模态框
  8. Mysql远程登录及常用命令
  9. 修改webpack的publicPath为动态设置以适配公司活动平台
  10. MongoDB非关系型数据库开发手册