写在前面

考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方。而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息。虽然网上有很多爬取百度贴吧的教程和例子,但是贴吧规则更新快,目的不一样,爬取的内容也不一样,所以就有了这个工具。

目的

爬取1000条帖子→判断是否是广告或者垃圾信息→分析语言情感→生成词云

一、分析

1.1 先查看贴吧的规则,果然有规律,每一页是50条帖子

1.2 帖子内容,也有规律,都在这个标签里面

1.3 判断内容就用百度AI的内容审核,情感分析也用百度AI了,省事

1.4 词云可以先用jieba分词然后再用wordcloud生成,但是后来发现网上有现成的工具

二、爬取过程

2.1 首先解决的一个小问题就是让它自己计算一下每页是50条帖子,我输入1000条它应该去爬取那几个页面,就用这种数学计算就行

2.2爬取过程代码,爬取后就调用内容审核以及情感分析,然后写入文件

def gettbtz(tbname,tznum): ####根据给出的贴吧和帖子数(50的整数倍)获得所有帖子

n = -50

tznum = int(tznum) ###z这里是要根据贴吧的规则,每页显示50条帖子

emotions = 0

while (tznum > n):

n = n + 50

print("正在爬取前" + str(n) + "条帖子")

url = "http://tieba.baidu.com/f?kw=" + tbname + "&ie=utf-8&pn=" + str(n)

soup = BeautifulSoup(requests.get(url).text,'lxml') ###爬取动作

a = soup.find_all('div',class_='threadlist_abs threadlist_abs_onlyline')

for a in a: ###接下来以此判断文本是否合规,然后判断情感正向倾向指数,然后写入文件

if BDAITEXT(a.text) == "合规":

print("爬取到合规帖子,正在写入文件:" + a.text)

with open("resaults.txt","a+",encoding='utf-8') as f:

f.write(str(a.text)) ###写入这里特意转换一下数据类型,避免后面发生文本编码错误

try:

emotions = emotions + BDAIemotion(a.text)

print("当前累计情感指数:" + str(emotions))

except:

print("情感分析出错,跳过")

else:

print("帖子不合规,跳过")

time.sleep(10) ###君子协议,10秒暂停

f.close()

三、百度人工智能API调用

3.1 百度AK获取,就是要先到百度AI开发平台注册一个开发者账号,然后创建应用,获取应用id和密钥,然后得到这样一个调用的密钥

# client_id 为官网获取的AK, client_secret 为官网获取的SK

host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【应用ID】&client_secret=【SK】'

response = requests.get(host)

if response:

print(response.json())

3.2 内容审核API调用

def BDAITEXT(text): ####百度AI文本审核,返回合规或者不合规

content = {"text": text}

r = requests.post(BDAItexturl,content).text

if r:

rback = json.loads(r)

return rback["conclusion"]

3.3 情感分析API调用

def BDAIemotion(text): ####百度AI情感分析,返回一个数值

content = {"text": text}

content = json.dumps(content)

r = requests.post(BDAIemotionurl,content).text

if r:

rback = json.loads(r)

return rback['items'][0]['positive_prob']

四、词云生成

有很多在线工具,导入大段文本,然后根据需要进行文本的过滤、分词,然后设置颜色、样式就可以生成词云。

五、信息分析

看词云,结果不言而喻,提早地准备、丰富的经验、专业课、数学、政治、院校选择…………

从情感上来看,大多数情感指数偏向积极,说明对待考研还是需要一个积极的态度。

运行截图

待改进

1.应该多线程,速度太慢了

2.爬取了帖子,没有爬取评论

3.情感分析有很多出错

“闲言碎语留给市井小民,你只管优雅从容心怀远方”

内容来源于网络如有侵权请私信删除

python爬取考研成绩什么时候出来_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!...相关推荐

  1. python爬取考研成绩什么时候出来_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些...

    原标题:用Python爬取了考研吧1000条帖子,原来他们都在讨论这些 写在前面 考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼 ...

  2. python爬取考研成绩什么时候出来_【python】爬取带CAS教务处信息

    起因 一切的一切都要从一个安卓程序说起,我心血来潮想要做一个"易用"的移动端教务处,设计好了实体类,界面等等,突然发现!我没法直接在安卓里爬取出教务处的数据.内心一万只草泥马狂奔而 ...

  3. python爬考研_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!

    写在前面 考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息.虽然网上有很多爬取百度贴吧的教程和例子, ...

  4. 用python爬取考研信息网_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!...

    写在前面 考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息.虽然网上有很多爬取百度贴吧的教程和例子, ...

  5. python爬取网易云音乐歌单_【python】爬取并批量下载网易云歌单,嗨翻暑假!

    [Python] 纯文本查看 复制代码# 利用 Selenium 抓取淘宝商品并用 PyQuery 解析得到商品的图片.名称.价格.购买人数. # 店铺名称.店铺所在地信息,并将其保存到MongoDB ...

  6. python如何爬取图片到指定文件夹论文_基于Python的图片爬虫程序设计

    互联网中包含大量有价值的 数据,网络爬虫通过既定规则可 以自动地抓取互联网数据并下载 至本地存储.研究网络爬虫的工 作原理和基于 Python 网络信息爬 取技术模块功能,基于 Requests- B ...

  7. 树莓派python编程入门与实战解压密码_树莓派Python编程入门与实战

    目录 第一部分 树莓派编程环境 第1章 配置树莓派 3 1.1 获取树莓派 3 1.1.1 了解树莓派的历史 3 1.1.2 为什么要学习用Python 在树莓派上进行编程 4 1.2 获取树莓派 5 ...

  8. python语言的单行注释以井号开头_初识Python

    Python Python开发 Python语言 初识Python 初识Python 计算机基础 计算机的组成: 输入输出设备.存储器.主板.CPU.硬盘.内存.显示器.电源.显卡. CPU:中央处理 ...

  9. python语言的编程模式是什么意思_编程语言Python,可以用来干什么

    原标题:编程语言Python,可以用来干什么 Python因为简单全面易用而成为近年来大热的编程语言.但是很多人学习了这门余元的语法和基本功能之后却不知道Python能干什么以及怎么做.在此,把Pyt ...

最新文章

  1. neo4j应用场景举例超过论文索引 公司投资风险 图书引用等场景的举例
  2. 微信小程序API·目录
  3. RxJava flatMap操作符用法详解
  4. 一步一步学习 iOS 6 编程(第四版)正式发布!
  5. 今年的假期挺长的~~~
  6. 国内首家,每周到岗上班3天,携程率先推出“3+2”混合办公模式
  7. 操作系统(5)-进程调度算法
  8. 从B站 (哔哩哔哩) 泄露的源码里发现了B站视频推荐的秘密
  9. NetBean中添加tomcat时候出现错误
  10. PHP弹窗回送,AJAX 服务器回送数据失败 onreadystatechange没法触发回调函数
  11. 南邮 OJ 1160 繁杂的道路
  12. python打印各种三角形_如何使用Python 打印各种三角形
  13. edvac是商用计算机吗,计算机基础知识78228
  14. 作业调度系统--SGE和PBS的使用方法
  15. 途志分享几个抖音短视频拍摄技巧
  16. 【Java二十周年】我的JAVA小时代
  17. 微信小程序 使用 wx.downloadFile()方法
  18. 真 OO无双之真乱舞书 序言
  19. 京瓷1800打印机扫描步骤_京瓷1800操作指南
  20. Newtonsoft.Json取json字符串中的值得用法

热门文章

  1. 鸿蒙是学生开发的系统,9岁小学生展示鸿蒙OS开发
  2. python3安卓版安装教程_安装python3的详细教程
  3. Python+OpenCV 十几行代码模仿世界名画
  4. 爬虫实战:嗅事百科段子多页爬取
  5. JavaScript实现trial Division试除法算法(附完整源码)
  6. OpenCASCADE可视化:应用交互服务之标准交互式对象类
  7. wxHtml 示例:演示嵌入控件
  8. BOOST_VMD_ASSERT_IS_TYPE宏相关的测试程序
  9. boost::mp11::mp_map_erase相关用法的测试程序
  10. boost::hana::infix用法的测试程序