import xlrd
import jieba
import sys
import importlib
import os         #python内置的包,用于进行文件目录操作,我们将会用到os.listdir函数
import pickle    #导入cPickle包并且取一个别名pickle #持久化类
import random
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from pylab import mpl
from sklearn.naive_bayes import MultinomialNB # 导入多项式贝叶斯算法包
from sklearn import svmfrom sklearn import metrics
from sklearn.datasets.base import Bunch
from sklearn.feature_extraction.text import TfidfVectorizer
importlib.reload(sys)#把内容和类别转化成一个向量的形式
trainContentdatasave=[] #存储所有训练和测试数据的分词
testContentdatasave=[]trainContentdata = []
testContentdata = []
trainlabeldata = []
testlabeldata = []#导入文本描述的训练和测试数据
def importTrainContentdata():file = '20180716_train.xls'wb = xlrd.open_workbook(file)ws = wb.sheet_by_name("Sheet1")for r in range(ws.nrows):trainContentdata.append(ws.cell(r, 0).value)def importTestContentdata():file = '20180716_test.xls'wb = xlrd.open_workbook(file)ws = wb.sheet_by_name("Sheet1")for r in range(ws.nrows):testContentdata.append(ws.cell(r, 0).value)   #导入类别的训练和测试数据
def importTrainlabeldata():file = '20180716_train_label.xls'wb = xlrd.open_workbook(file)ws = wb.sheet_by_name("Sheet1")for r in range(ws.nrows):trainlabeldata.append(ws.cell(r, 0).value)def importTestlabeldata():file = '20180716_test_label.xls'wb = xlrd.open_workbook(file)ws = wb.sheet_by_name("Sheet1")for r in range(ws.nrows):testlabeldata.append(ws.cell(r, 0).value)if __name__=="__main__": importTrainContentdata()importTestContentdata()importTrainlabeldata()importTestlabeldata()'''贝叶斯clf = MultinomialNB(alpha=0.052).fit(train_set.tdm, train_set.label)  #clf = svm.SVC(C=0.7, kernel='poly', gamma=10, decision_function_shape='ovr')clf.fit(train_set.tdm, train_set.label)  predicted=clf.predict(test_set.tdm)逻辑回归tv = TfidfVectorizer()train_data = tv.fit_transform(X_train)test_data = tv.transform(X_test)lr = LogisticRegression(C=3)lr.fit(train_set.tdm, train_set.label)predicted=lr.predict(test_set.tdm)print(lr.score(test_set.tdm, test_set.label))#print(test_set.tdm)#SVMclf = SVC(C=1500)clf.fit(train_set.tdm, train_set.label)predicted=clf.predict(test_set.tdm)print(clf.score(test_set.tdm, test_set.label))'''tv = TfidfVectorizer()train_data = tv.fit_transform(trainContentdata)test_data = tv.transform(testContentdata)clf = SVC(C=1500)clf.fit(train_data, trainlabeldata)print(clf.score(test_data, testlabeldata))a=[]b=[]for i in range(len(predicted)):b.append((int)(float(predicted[i])))a.append(int(test_set.label[i][0]))'''f=open('F:/goverment/ArticleMining/predict.txt', 'w')for i in range(len(predicted)):f.write(str(b[i]))f.write('\n')f.write("写好了")f.close()#for i in range(len(predicted)):#print(b[i])'''#metrics_result(a, b)

转载于:https://www.cnblogs.com/caiyishuai/p/9354035.html

ptyhon中文本挖掘精简版相关推荐

  1. [异常解决] ubuntu上安装虚拟机遇到的问题(vmware坑了,virtual-box简单安装,在virtual-box中安装精简版win7)

    [异常解决] ubuntu上安装虚拟机遇到的问题(vmware坑了,virtual-box简单安装,在virtual-box中安装精简版win7) 参考文章: (1)[异常解决] ubuntu上安装虚 ...

  2. 使用 Microsoft .NET Framework 精简版中的 MessageWindow 类

     使用 Microsoft .NET Framework 精简版中的 MessageWindow 类 收藏 Alex Yakhnin IntelliProg, Inc. 2003年3月 适用于:    ...

  3. Base64编码/解码VB6超精简版(适用于中、英文)

    上次因为要编写自动登录邮箱的程序,需要Base64编码,但是我看了几种版本的VB下Base64编码的程序,发现要么就是太冗长,要么就是不支持中文,要么根本不能用,于是我想求人不如求己,便仔细研究了一下 ...

  4. windows7精简版_在Windows 7简化版中使用您喜欢的壁纸

    windows7精简版 If you have Windows 7 Starter Edition installed on your netbook, the default wallpaper c ...

  5. [Android] 彩云小译V2.4.1高级精简版VIP 不用花钱免费使用 中日英同声传译

    软件名称:彩云小译 软件版本:v2.4.1_高级精简版VIP 软件语言:中文 软件大小:26M 软件包名:com.caiyuninterpreter.activity 支持系统:Android 2.2 ...

  6. 微信小程序实战之百思不得姐精简版

    为什么80%的码农都做不了架构师?>>>    微信小程序基本组件和API已撸完,总归要回到正题的,花了大半天时间做了个精简版的百思不得姐,包括段子,图片,音频,视频,四个模块.这篇 ...

  7. 打造精简版Linux-mini

    Linux系统的核心就是它的内核,所有的Linux系统采用的内核都是相同的,唯一不同的就是除了内核以外的服务以及应用的软件不同而已.那麽可以根据Linux的这一特点,我们可以根据自己的需求打造属于自己 ...

  8. Vue精简版风格指南

    前面的话 Vue官网的风格指南按照优先级(依次为必要.强烈推荐.推荐.谨慎使用)分类,且代码间隔较大,不易查询.本文按照类型分类,并对部分示例或解释进行缩减,是Vue风格指南的精简版 组件名称 [组件 ...

  9. Sql Server 2008 精简版(Express)和管理工具的安装以及必须重新启动计算机才能安装 SQLServer的问题和第一次使用sqlexpress的连接问题

    下载地址: SQL Server 2008 Express 中文简体安装包 x86: https://download.microsoft.com/download/5/f/a/5fad1d35-e6 ...

最新文章

  1. Google App Engine技术架构之Google App Engine架构
  2. linux 命令改配置文件,linux下 修改配置文件的命令
  3. Linux原始网络编程,Linux操作系统网络编程 原始套接字 (1)
  4. java 获取oracle表结构_获取Oracle中所有表的列表?
  5. Mac下使用数据库将Excel数据转换存入.plist
  6. python基础之错误、调试(异常处理)
  7. 做创业公司长期价值的共建者,高榕资本完成5亿美元新基金募资
  8. PT002(JspStudy)安装与端口解决问题
  9. java 网吧管理系统_java网吧信息管理系统
  10. deepin20.7安装mysql8.0.30教程
  11. java 微信支付 NATIVE + 生成二维码
  12. 非科班小硕的算法秋招记录
  13. 算法导论第一,第二部分总结
  14. ps一键去除gif背景的jsx脚本
  15. c 语言编程学习 编程环境_学习C ++编程语言的前5个网站
  16. linux的头文件下载,Linux内核头文件(linux headers)
  17. 接口隔离模式之Facade(门面模式)
  18. 工业相机与镜头分辨率的匹配选型
  19. 在下列集成电路说法中不正确_关于集成电路(IC),下列说法中,正确的是______
  20. Python案例笔记 | 用python群发邮件

热门文章

  1. [JSON].valueOf( keyPath )
  2. Linux 命令行通配符及转义符的实现
  3. js 自定义类Android吐司提示框
  4. [003]容器和动态数组的使用
  5. 【重温经典算法之二】快速排序
  6. hide show vue 动画_Vue2.x学习四:过渡动画
  7. jedis使用_Redis的三个框架:Jedis,Redisson,Lettuce
  8. 光纤接口怎么接 图解_光纤的数据比网线快很多倍,但为什么没有在家庭局域网中普及呢?...
  9. string类有可以调换方向的函数吗_深度剖析C++中的inline函数
  10. AUTOSAR从入门到精通100讲(三十三)-AutoSar架构中的诊断事件管理