作者:刘丽帆    封面:云哲忆

刚刚开始接触Python的小伙伴都觉得编程很高深,提到编程可能首先想到的就是程序员,其实通俗一些来讲,Python等编程语言和我们常用的SPSS等软件区别就在于,SPSS通过点击按钮就能实现的功能,我们可以用编程语言,指挥电脑帮我们一步一步实现这个按钮背后的功能。

本次选取了来自一项研究生科研创新计划项目中的一篇已发表文章《基于论文自动分类的社科类学科跨学科性研究》,通过学习这篇简单的文章让大家了解Python语言的应用。本期我们首次涉及到编程语言Python和一些机器学习算法,因此,文中会带大家先简要了解一些该领域内的基础概念,也是希望通过不同领域的研究方法带给大家一些新的研究思路。

1什么是论文自动分类?

这篇文章属于社科类,“隔行如隔山”,对于非专业的小伙伴来说还是有些不友好,引言以及相关研究部分都是该领域的基础研究内容和发展,非专业领域的小伙伴可以略过,但是研究思想是重点,我们可以用简单易懂的方式一起学习。

分类很好理解,拿垃圾分类举个例子,一个塑料瓶,属于哪种垃圾就丢到哪种垃圾箱里,论文分类也一样,是哪种类型的文章就放到哪个类别里。那么论文自动分类是如何做到的呢?其实跟垃圾自动分类一个道理:根据特征分类

垃圾的判断特征包含了外观、颜色、硬度、湿度等等,当然这是垃圾自动分类工程师的研究内容,那以社科类论文作为研究内容的话,论文的判断特征就成了论文题目、作者、关键词、摘要等信息。举一反三,小伙伴们研究哪个领域,对自己所在的领域就已经具备一定的专业了解,那这一思路完全可以运用到自己的专业领域,例如对该领域的科技文献进行自动分类以及文本内容的挖掘,研究自己专业领域当前的热点研究方向、学科交叉趋势等。

2机器学习简介

相信大家都听说过机器学习(Machine Learning,ML),Machine就是计算机。这是让计算机像人一样去学习的一门学问,是不是听起来很高大上?让计算机根据你提供的数据,训练得到某种模型,然后把结果反馈给你,例如你告诉计算机上一周起床时间以及迟到情况,它就能推算你今天迟到的概率,听起来像不像统计学里的回归问题?但是你能想到二者区别在哪里吗?

这其实是机器学习中最简单例子之一,今天这篇文章的相关研究里也列出了一些机器学习算法,例如朴素贝叶斯(NB)、支持向量机(SVM)、卷积神经网络(CNN),当然以后会在其他的文章学习中从具体的应用场景去为大家做一些讲解,用起来也不会觉得那么抽象。

3数据处理——特征与权重

简单了解什么是机器学习之后,今天我们从数据处理开始为大家分类算法之一——KNN算法的应用,也就是了解特征和权重。

在第1小节中已经简要了解了什么是自动分类以及自动分类对数据的要求,首先是需要找出特征,N个特征用向量表示就是N维特征向量。该文章中用了10个学科近238791篇论文,为了能够对文本进行计算,这篇文章使用筛选出的高频词语作为特征项,选出的高频词个数就代表这个文章的特征向量维数。例如选出N个词W1,W2,W3……WN,一篇文章中当存在W1这个词时,在W1所代表的维度下记下特征值(该特征词的特征值都是通过算法计算得到的数值),不存在就记0。将每个文本用N维空间向量进行表示,这就是空间向量模型的简要原理,是文本量化的过程,便于文本之间计算相似度,然后按照相似度进行分类。

权重很好理解,在所有的特征词中,权重越高说明这个词更适合用于分类。这篇文章采用的是TF-IDF算法,计算公式如下:

也可以拆开来理解,TF也就是tfij表示特征词ti在一篇文档中的词频,IDF表示该特征词的逆文档频率,ni指出现ti的文章数,N指数据中总文章数,TF和IDF的乘积用来表示空间向量中每个特征词的权重。

本次分享内容先到这了,下一期我们继续学习KNN算法的应用,请继续关注后期内容ღ

刘丽帆

南京理工大学情报学硕士研究生

方向:信息检索、数据分析与自然语言处理

学堂君的历史合辑:

菜鸟系列

问卷系列

线性回归

信效度分析

聚类分析

时间序列

常见问题

神经网络

多维尺度分析

C4.5算法

生存分析

对应分析

《问卷数据分析》系列合集

欢迎添加:

【数据分析服务】微信号:LYJ_312

 【社群服务助手】微信号:spss_shequn

 【加入团队】:请点击招募,我们是认真的!

文本聚类分析算法_文本自动分类——分类算法KNN(K最邻近)应用(一)相关推荐

  1. 分类算法列一下有多少种?应用场景?分类算法介绍、常见分类算法优缺点、如何选择分类算法、分类算法评估

    分类算法 分类算法介绍 概念 分类算法 常见分类算法 NBS LR SVM算法 ID3算法 C4.5 算法 C5.0算法 KNN 算法 ANN 算法 选择分类算法 分类算法性能评估 分类算法介绍 概念 ...

  2. mysql 编程算法_十大编程算法助程序员走上高手之路

    算法一:快速排序算法 快 速排序是由东尼·霍尔所发展的一种排序算法.在平均状况下,排序 n 个项目要Ο(n log n)次比较.在最坏状况下则需要Ο(n2)次比较,但这种 状况并不常见.事实上,快速排 ...

  3. 文本分类和提取关键词算法_文本内容之间的关键词提取和相似度计算

    文本分类和提取关键词算法 背景 Web应用程序变得越来越智能. 从网站上使用服务的日子已经一去不复返了,用户不得不填写一个巨大的表格. 假设您有一个适合书迷的网站. 在Web 2.0之前,像这样的网站 ...

  4. php无极分类非递归_无限极分类算法,对你一定有帮助

    无限级分类是开发中常见的情况,也经常会在面试,主考官问到,笔试中遇到,因此本文对常见的无限极分类算法进行总结归纳,其实大多数就是迭代与递归. 1.循环迭代实现 $arr = [1=>['id'= ...

  5. textcnn文本词向量_文本分类模型之TextCNN

    六年的大学生涯结束了,目前在搜索推荐岗位上继续进阶,近期正好在做类目预测多标签分类的项目,因此把相关的模型记录总结一下,便于后续查阅总结. 一.理论篇: 在我们的场景中,文本数据量比较大,因此直接采用 ...

  6. python jieba 文本相似度_文本相似度分析(基于jieba和gensim)

    ##基础概念 本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词 语料库制作 算法训练 结果预测 分析过程主要用两个包来实现jieba,gensim jieba:主要实现分词过程 gensi ...

  7. etc的常见算法_几个常用算法的适应场景及其优缺点(非常好)

    本文主要回顾下几个常用算法的适应场景及其优缺点! 机器学习算法太多了,分类.回归.聚类.推荐.图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验. ...

  8. 神经网络分类算法是什么,神经网络分类算法简介

    人工神经网络分类方法 从20世纪80年代末期,人工神经网络方法开始应用于遥感图像的自动分类. 目前,在遥感图像的自动分类方面,应用和研究比较多的人工神经网络方法主要有以下几种:(1)BP(Back P ...

  9. 【分类算法】什么是分类算法

    目录 定义 分类与聚类 分类过程 方法 定义 分类算法的本意就是对我们的数据分进行分类.把它们分到已知的每一个类别.就像一个篮子里面有很多橙子和苹果,机器会通过我们训练出来的模型,对篮子里的水果进行分 ...

最新文章

  1. Petrozavodsk Summer-2016. Ural FU Dandelion Contest
  2. kafka comsumer
  3. php变量的引用与计数规则
  4. c++思维导图_40+张最全Linux/C/C++思维导图,你确定不收藏?
  5. oracle 结果缓存,Result cache结果缓存
  6. 赋能数据智慧,InfoBeat让业务跃动起来
  7. java数组比较的头文件_Java和C++的数组比较
  8. myelclipse Servers视图报错
  9. linux数据库实例开机启动,Oracle数据库之Linux下实现Oracle数据库单实例开机自启动设置...
  10. 医疗大数据技术与应用
  11. 居中为什么用transform,而不是margin top/left
  12. 基于32×32点阵LED模块的书写显示屏
  13. TYPE-C接口的定义诠释以及功能参数挖掘
  14. 青岛大学计算机考研率高吗,学院2015届毕业生考研率再创新高
  15. 华为开发者大会直播间鸿蒙,聊一聊华为开发者大会上的鸿蒙OS
  16. gamma correct blurring
  17. html在字体两边加直线,CSS文字两边添加横线的几种方法
  18. 【华为OD机试真题 python】不含 101 的数【2022 Q4 | 100分】
  19. MySQL系统变量auto_increment_increment与auto_increment_offset学习总结
  20. 什么是SHA系列算法,SHA-1和MD5算法有什么区别

热门文章

  1. USB硬件 键盘鼠标控制器 V2.0 支持二次开发
  2. 段落<p>使用省略号... 省略内容
  3. Socket マルチキャスト通信 - Windows Phone編
  4. 怎样健康的使用计算机,如何健康地使用电脑
  5. 求Household矩阵
  6. 任务栏计算机快捷方式,win10系统任务栏添加计算机快捷方式的具体方案
  7. 抖音罗盘时钟全前端文件,css html js,参考全网
  8. office word 2016从第二页开始设置页码的方法
  9. 手推多分类precision(精确率)、recall(召回率)、F1分数
  10. 2019深度学习人体姿态估计指南