• 本文主要是记录一下自己过滤分类信息的一个步骤。
  • 主要目的是从爬取的素材中得到一个集中、有效的、有关网络暴力的中文词库。
  • 主要思路是将已分词的素材 source.txt 通过 word2vec 训练出一个模型 vectors.bin,再把人工挑选的种子库 feed.txt 中的种子输入模型,得到相似的词,最后获得词库。

目录

  • 文本预处理
    • 准备语料
    • 构建种子库
  • Word2vec
    • 模拟Linux环境(Cygwin)
    • word2vec模型训练

文本预处理

我在本篇文章中使用的是从新浪微博中爬取的网友有关网暴态度倾向的材料,总数约有90万条记录,包括用户名、微博内容、发布时间等属性(UTF-8编码)。

文本的预处理主要包括:

  1. 语料的初步过滤、去除特殊字符、特殊表情文本化和分词;
  2. 种子库的人工采集和同义联想。

准备语料

我使用的Excel表格来存放素材,具体结构如下:

来源/用户名 内容
罗百辉:从0到1直播带货,从1到100打好营销这张牌 给到观众的体验会更好,其次就是直播支架和补光灯,这是必备的配置。常用设备:手机、支架、补光灯、背景、T台、礼品桌、笔记本电脑、网络、挂通、熨烫机等4产品选款产品可以是新款上市、季末清仓、反季促销,根据
许可馨还要点脸吗?为啥十年教育出一个“人渣” 更是坑自己。许可馨最后会有怎样的结局,目前她的微博已经被“查封”,她的父母也被很多的网友“人肉”搜索,今后会何去何从,我们根本不关心。但不过她再次给我们提出了思考,这些孩子为何会这么优越呢?在个
肖战风波后首度发博翻车?后援会凌晨声明,谴责黑粉引导舆论骂战 明粉丝,却有人长期冒充他的粉丝蓄意发布恶意言论,以博取关注从中获利,也再次呼吁大家抵制这种行为,勿被恶意人士利用,但也有网友觉得后援会此番是在洗白,称长期有人这么做,是想把227事件甩锅到黑粉
…… ……

根据肉眼判断一些结构化的短语,如一些粉丝的反黑站微博会固定带有【网暴举报+拉黑+禁止人身攻击】类似的内容,但是实质内容与网暴无关。所以我们利用excel的筛选功能过滤这些无效内容。

由于excel处理文本速度很慢(尤其是这种几十万的数据),所以我们将【内容】复制到记事本中处理,得到 pre_source.txt 文件。

可以去除无关的标点符号、表情符号等,对于有特定表达形式和含义的表情(如

利用word2vec创建中文主题词典——以网络暴力关键词为例相关推荐

  1. NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

    NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...

  2. 利用TUN创建虚拟网络

    利用TUN创建虚拟网络 下面创建一个简单的TAP网卡,本地通信检查TAP网卡的功能. 1 检查TUN模块. 首先检查内核是否支持TUN/TAP,可以通过以下命令检查. # modinfo  tun f ...

  3. 基于word2vec的中文词向量训练

    基于word2vec的中文词向量训练 使用katex解析的数学公式,csdn好像不支持 word2vec来源 Google开源 可以在百万数量级的词典和上亿的数据集上进行高效地训练 该工具得到的训练结 ...

  4. 微博指定日期舆情数据爬虫获取—基于中文金融词典(python)

    最近在做一个微博舆情与金融市场分析的课题,需要爬取微博的舆情数据.因此需要根据关键词爬取指定日期的微博.现在代码写完了,实测还行,sleep设置得比较久,但爬取的数据很完整.硕士三年在CSDN学到了很 ...

  5. 利用word2vec、textCNN、jieba对事故文本多分类及致因修复(三维向量)

    中文分词 + 数据集三维向量化 + TextCNN 一.背景 经过几天的测试及模拟建模训练,尝试了机器学习中的一些常用模型,例如Lasso.LR.SVM.XGBoost.GBTD等,发现效果并不如人意 ...

  6. 《CCNP ROUTE (642-902 )认证考试指南》一1.2 将考试主题与典型网络工程师的工作关联起来...

    本节书摘来异步社区<CCNP ROUTE (642-902 )认证考试指南>一书中的第1章,第1.2节,作者: [美]Wendell Odom 译者: 王兆文, 更多章节内容可以访问云栖社 ...

  7. 利用介质创建额外域控制器

    前面和大家聊了利用网络复制的方式来创建额外域控制器,但是在企业的时间应用中可能会遇到这样一种问题: 例如:北京有一个contoso.com的主域控制器,现在需要在上海创建额外域控制器,但是北京和上海之 ...

  8. 利用word2vec训练词向量

    利用word2vec训练词向量 这里的代码是在pycharm上运行的,文件列表如下: 一.数据预处理 我选用的数据集是新闻数据集一共有五千条新闻数据,一共有四个维度 数据集:https://pan.b ...

  9. Google开源的Deep-Learning项目word2vec处理中文

    推荐word2Vec,说的非常强大.有意思.故找了篇文章看,分享下. 全文转自http://www.cnblogs.com/wowarsenal/p/3293586.html google最近新开放出 ...

  10. 攻防红队日记:利用路由器创建PPTP搭建隧道进内网

    弱口令yyds,这是这次攻防演练第二个惊喜,在扫目标的C段IP的时候发现五个网络设备,有三个路由器.一个web管理系统和一台虚拟专用网络设备,看起来版本都比较旧就想着先去找找版本漏洞,试了试都没登陆进 ...

最新文章

  1. Linux下汇编语言学习笔记12 ---
  2. 日期函数:取过去或者将来多少天的日期
  3. mysql门派年龄最大的人_目前活着年龄最大的人
  4. CentOS7安装DNS报错IPv6无法解析
  5. 线性回归与梯度下降算法
  6. 亚马逊推出人工智能咨询服务,机器学习B2B业务又迈出一步
  7. python编程例子-Python面向对象编程 - 类和实例
  8. ex.php,Exphp代码走读
  9. 阿里大佬浅谈大型项目前端架构设计
  10. svn 客户端下载地址
  11. Proteus 8.6 SP2 Pro 汉化破解版(附破解文件+汉化包+安装教程) 兼容win10
  12. Python爬取百度图片(高清原图)
  13. Win10如何使用BC3.1精简版
  14. 视频如何去水印-免费视频水印去除工具
  15. 安装淘宝镜像cnpm时报错!npm ERR! enoent ENOENT: no such file or directory, rename
  16. 处理器哪个好_对比骁龙730G、765G、猎户座980、天玑1000处理器,性能哪个好?
  17. 龙迅LT8612UX 是一款 HDMI 至 HDMIVGA 转换器
  18. 华为p10 android几,是运行速度最快的安卓手机? 华为P10
  19. Idea提示launch successed ,检查应用已安装了,但Activity未启动
  20. Control-模型参考自适应控制(MRAC)

热门文章

  1. 海康服务器找不到网卡驱动,驱动技巧:解决设备管理器中找不到网卡的问题
  2. 安国AU6985+海力士 H27UBG8T2A量产
  3. 修改注册表让PPC手机更加省电方法
  4. C语言单循环比赛固定轮转法,高手请进,请教一道简单的c语言题!
  5. ManualResetEvent使用说明
  6. Scala基本类型及操作、程序控制结构
  7. 软考网络工程师必过教程---必看
  8. java 毕向东 内部类_内部类--毕向东Java基础教程学习笔记
  9. 高质量实时渲染课程笔记(一)——介绍和概览(高质量实时渲染的含义、学习前置、涉及的内容目录、发展史)
  10. 周公解梦|做梦的解释|鬼压床|为什么会做梦