在对文本数据的情感分析中,基于情感词典的方法是最简单也是最常用的一种了。

它的大体思路如下:

对文档分词,找出文档中的情感词、否定词以及程度副词,然后判断每个情感词之前是否有否定词及程度副词,将它之前的否定词和程度副词划分为一个组,如果有否定词将情感词的情感权值乘以-1,如果有程度副词就乘以程度副词的程度值,最后所有组的得分加起来,大于 0 的归于正向,小于 0 的归于负向。

这两天,学校的一个团队让我帮忙爬取某网站的两份带有权值的情感词典。

第一份是“台湾大学情感词汇库”,有 11086 个带有权值的情感词。

台湾大学情感词汇库

第二份是“萌泰情感词汇库”,有 27466 个带有权值的情感词。

萌泰情感词汇库

分析这个网站,我们发现每一个网络请求都需要携带 Token,即身份认证。

所以,我们需要先通过登陆请求,获取到该用户的 Token,之后的每次请求带上该 Token 才能爬取到该网站的数据。


为了快速完成爬取这两份情感词典的任务,我使用了两套开源代码,RestSharp 和 Newtonsoft.Json。

RestSharp

利用该开源代码可以得到网络请求之后的 Json 数据,其下载地址如下:

https://github.com/restsharp/RestSharp

RestSharp

Newtonsoft.Json

利用该开源代码可以对得到的 Json 数据进行反序列化,得到 C# 对应的类,其下载地址如下:

https://github.com/JamesNK/Newtonsoft.Json

Newtonsoft.Json


Newtonsoft.Json 这套开源代码,我在 [如何利用 C# 爬取「猫眼电影专业版:票房」数据!]以及 [如何做一款「桌面版百度翻译」软件?]中使用过,以前网络请求部分都是通过 HttpWebRequest直接写的,这次偷懒使用了 RestSharp 这套来源代码。

如果大家对这两套开源代码感兴趣,给我留言,我再来写几篇图文介绍它们,下面来看看爬取情感词典的代码。

1. 构造接收 Token 的类 UserInfor。

public class Token{ public string token;}public class UserInfor{ public Token rt_info;}

2. 得到登陆用户的Token数据。

public string GetToken(string baseUrl,string username,string password){ string value = "{"username":"" + username + 

token验证_如何利用 C# 爬取带 Token 验证的网站数据?相关推荐

  1. 如何利用 C# 爬取带 Token 验证的网站数据?

    在对文本数据的情感分析中,基于情感词典的方法是最简单也是最常用的一种了. 它的大体思路如下: 对文档分词,找出文档中的情感词.否定词以及程度副词,然后判断每个情感词之前是否有否定词及程度副词,将它之前 ...

  2. python爬取电脑本地数据_利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息...

    原标题:利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息 新型肺炎肆虐全国,可以预知,最近一两年地理学中会有一部分论文研究新型肺炎的空间分布及与其他指标的关联分析.获取其患病人 ...

  3. 利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息

    新增:国外疫情网站介绍 已更新:爬取国外疫情数据 已更新:新型肺炎历史数据下载 2020年3月27日补充: 制作了一个全球肺炎数据查询下载网站,效果如下: 访问地址:http://119.3.227. ...

  4. python利用bs4爬取外国高清图片网站

    python利用bs4爬取外国高清图片网站 爬取高清图片 爬取高清图片 import re import requests from bs4 import BeautifulSoup import o ...

  5. 利用Python爬取全国250m精度的人口数据

    此次以GeoQ(智图)为基础,利用Python爬取全国250m精度的人口数据(GeoQ)这个网站开放过250m精度的人口分布数据,而且人口分布有年龄分段等属性.先得注册登录到达创建地图的界面. 看人口 ...

  6. 利用Python爬取全国250m精度的人口数据(GeoQ)、房价数据和公交站(线路)等数据

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 中原百科 GIS大师兄 PS:如有需要Python学习资料的小伙伴可 ...

  7. python 怎么爬桌软件数据_如何利用Python爬取并分析红岭创投的数据?

    第一步:爬取数据 通过 selenium + Firefox 的无头模式将需要的数据爬取出来,代码实现不在赘述,详细步骤可查看我的上一篇图文(如何利用Python爬取网易新闻), 由于 seleniu ...

  8. python爬取b站数据_如果利用Python爬取B站上千万数据?B站直播都是大屌萌妹吗?...

    粉丝独白 说起热门的B站相信很多喜欢玩动漫的,看最有创意的Up主的同学一定非常熟悉.我突发奇想学Python这么久了,为啥不用Python爬取B站中我关注的人,已经关注的人他们关注的人,看看全站里面热 ...

  9. python爬取哔哩哔哩网站数据以及弹幕

    首先要爬取哔哩哔哩网站的数据 , 第一步就是要分析网页,找到网上ajax异步加载的数据 即json文件,找到后还要对其爬去,这里我选正则表达式爬去网页,其次是 对爬取的数据进行清洗,防止脏数据对生成的 ...

最新文章

  1. SQL优化—— 优化order by语句 || Filesort 的优化
  2. 2007年的SEO优化趋势
  3. python 把一个列表分成等长的多个列表
  4. 画师id_二次元小姐姐:画师OBM 大庭下門的插画作品
  5. java基础英语---第二十六天
  6. MySQL5.5读写分离之mysql-proxy
  7. python selenium基本用法
  8. main:处理命令行选项
  9. 华为机试在线训练|解题记录|HJ01-103
  10. 史上最全iPhone分辨率和尺寸
  11. microbiomeViz:绘制lefse结果中Cladogram
  12. 世上有不用加班的程序员吗?
  13. python爬虫—爬取拉钩网
  14. 如何辨别3C标志的真伪!
  15. 自问自答系列——商城相关
  16. SAP 银企直连交易明细查询的分页与FTP读取
  17. 黑龙江科学杂志黑龙江科学杂志社黑龙江科学编辑部2022年第24期目录
  18. Python制作塔防小游戏
  19. USNews大学排名遭美国计算机研究学会怒怼,指排名荒谬要求撤回
  20. java万年历方法_利用java制作万年历

热门文章

  1. Hibernate关联关系配置(一对多、一对一和多对多)
  2. java项目使用junit_在Java 8之前的项目中使用JUnit 5
  3. 非对称加密 公钥私钥_选择Java加密算法第3部分–公钥/私钥非对称加密
  4. Selenium WebDriver的TestNG注释完整指南
  5. structure101_使用structure101分析软件包的依赖关系
  6. 将Host Cobol批次和Monolith Webapps移动到云和微服务
  7. 通过这5个简单的技巧减少GC开销
  8. scm maven_在运行时访问工件的Maven和SCM版本
  9. c++编写web服务_让我们编写一个文档样式的Web服务
  10. 使用jstat的JVM统计信息