原始论文摘要翻译:

朴素贝叶斯(NB)和支持向量机(svm)经常用作文本分类和情感分析的基准方法。但是它们的表现极大地取决于模型变体,用于任务的特征,数据集。

  • 单词双元组特征的加入在情感任务中一直能增加得分
  • 用于短片段情感任务,NB比SVM做的更好(长文本则相反)
  • 一个简单而新颖的SVM模型变体使用了NB log-count ratios作为特征数据,它在不同任务和数据集上都表现良好。

跟根据这些观察,该模型在情感分析数据集上的表现超过了大多数公布的结果,有时还提供了一个新的最先进的性能水平。

本项目代码

评论分类

项目说明:

1,读取json文件中的业务备注数据,对其进行中文文本预处理和分词。结果保存为文件”原始标注.xlsx”。
2,新建notebook,读取”原始标注.xlsx”。
    总数据量14194,由于存在大量未标记数据,去除未标记数据后获得有效数据7599,占总数据53.5%。70%分为训练数据,训练数据量5319,剩下30%分为测试数据,测试数据量2280。
3,根据“NB-SVM strong linear baseline”文章及相关论文指出,使用朴素贝叶斯对数计数比率变换处理后的训练结果相比朴素贝叶斯和支持向量机在多个任务中都可以获得持续更佳的结果。文章作者使用了论文的变体,支持向量机换为逻辑回归。
4,处理后的评论数据,分词后表示为tfidf值为权重的向量,对其使用朴素贝叶斯对数计数比率变换处理。然后,分别放入逻辑回归模型中训练,每一个类都对应一个逻辑回归模型。
5,测试数据放入以上模型中预测到是测试数据属于这个类的概率,选择其中概率最大的模型对应的类,就是预测结果。
6,初步计算出准确率80.92%

如何进一步有提升准确率:

参考:

kaggle项目

原始论文

NB-SVM strong linear baseline相关推荐

  1. 如何学习SVM?怎么改进实现SVM算法程序?答案来了

    编辑 | 忆臻 来源 | 深度学习这件小事(ID:DL_NLP) [导读]在 3D 动作识别领域,需要用到 SVM(支持向量机算法),但是现在所知道的 SVM 算法很多很乱,相关的程序包也很多,有什么 ...

  2. 基于线性SVM的CIFAR-10图像集分类

    个人网站:红色石头的机器学习之路 CSDN博客:红色石头的专栏 知乎:红色石头 微博:RedstoneWill的微博 GitHub:RedstoneWill的GitHub 微信公众号:AI有道(ID: ...

  3. OpenCV3.0或OpenCV3.1的SVM操作

    OpenCV2.0 SVM代码及其分析 OpenCV 在很久以前就集成了SVM的功能,现在OpenCV升级到了3.0和3.1了,很多人都不习惯了怎么调用OpenCV中的SVM功能了.在之前OpenCV ...

  4. 监督学习 | SVM 之支持向量机Sklearn实现

    文章目录 Sklearn 支持向量机 1. 支持向量机分类 1.1 线性 SVM 分类 1.2 非线性 SVM 分类 1.2.1 多项式内核 1.2.2 高斯 RBF 内核 2. 支持向量机回归 2. ...

  5. [机器学习-实践]支持向量机(SVM)从例子代码中学习

    [机器学习-原理篇]支持向量机(SVM)深入理解 1.用SVM的linear做鸢尾花分类 利用sklearn中自带的dataset,鸢尾花数据库为例,进行二分类. #载入鸢尾花数据集,datasets ...

  6. 基于SVM的思想做CIFAR 10图像分类

    #SVM 回顾一下之前的SVM,找到一个间隔最大的函数,使得正负样本离该函数是最远的,是否最远不是看哪个点离函数最远,而是找到一个离函数最近的点看他是不是和该分割函数离的最近的. 使用large ma ...

  7. 机器学习--------SVM

    #SVM的使用 (结合具体代码说明,代码参考邹博老师的代码) 1.使用numpy中的loadtxt读入数据文件 data:鸢尾花数据 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3 ...

  8. Stanford机器学习---第八讲. 支持向量机SVM

    本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归.Octave Tutorial.Logistic Regression.Regularization.神经网络.机器学 ...

  9. 李宏毅svm_【李宏毅机器学习笔记】 18、支持向量机(Support Vector Machine,SVM)...

    [李宏毅机器学习笔记]1.回归问题(Regression) [李宏毅机器学习笔记]2.error产生自哪里? [李宏毅机器学习笔记]3.gradient descent [李宏毅机器学习笔记]4.Cl ...

  10. 各种机器学习算法的应用场景分别是什么(比如朴素贝叶斯、决策树、K 近邻、SVM、逻辑回归最大熵模型)?...

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 链接:https://www.zhihu.com/question ...

最新文章

  1. Spring Cloud Config服务端配置细节(一)
  2. vue学习报错---Newline required at end of file but not found(Vue格式化代码问题)
  3. 转:android 避免内存泄露
  4. OpenShift 4 之Istio-Tutorial (4) 流量控制和灰度发布
  5. sharepoint2007就地升级2010系列(三)升级系统
  6. Red Hat 发布新 logo:“没有脸了”
  7. Network | parity bit
  8. 计算机基础知识教程函数,EXCEL函数教程_电脑基础知识_IT计算机_专业资料.ppt
  9. 王者荣耀李白王昭君情侣头像故事: “风雨如晦,鸡鸣不已。既见君子,云胡不喜。”...
  10. 团队分享心得体会_团队合作心得体会总结
  11. 联想电脑尺寸在哪里看_联想电脑型号怎么查看【详细介绍】
  12. Retrofit 大体框架
  13. 大型网站技术架构核心原理剖析,文末附知识图谱下载
  14. 机器学习 :训练集、验证集、测试集分配比例
  15. MongoDB集群和安全
  16. 手表运动状态识别(静止/走路/跑步)_数据样例
  17. 【 AI 简报 2020930 期】NVIDIA开源C++标准库等热点新闻等你来!
  18. Python手写汉字(中文)识别~单字/多字推荐模式
  19. unix操作系统(360搜索百科)介绍unix系统产生的由来和发展是重点,而百度百科中没有仔细介绍这方面
  20. 在ArcMap中制作Python加载项线连接工具

热门文章

  1. Ubuntu翻译PDF论文
  2. 2020年ACM算法竞赛夏季短学期 任务安排
  3. maven 手动安装ojdbc7
  4. linux上运行.exe程序方法
  5. VS2010编译log4cpp日志库
  6. 330UF16V 10*7.7片式铝电解电容封装
  7. 终于解决了x64 win7上运行金山词霸的问题
  8. “她”和“杰西”:虚拟助手的机器人魅力
  9. android+3.1.2+imagebutton监听,android Button ImageButton 差别
  10. 计算机boot进入u盘启动,电脑boot设置U盘启动项具体方法