python爬取虎扑评论_python爬去虎扑数据信息,完成可视化
首先分析虎扑页面数据
如图我们所有需要的数据都在其中
![image.png](1)
所以我们获取需要的内容直接利用beaitifulsoupui4
``` soup.find_all('a',class_="truetit")
for p in soup.find_all('a',class_="truetit"):
# 获取a标签的内容
print("帖子的内容如下: ")
print(p.get_text())
```
就可以获取到帖子的内容
。
接下来获取帖子的热门回帖数已经用户信息,首先获取热门回帖数,我的第一想法是用p.next_sibling.next_sibling 来获取(这里要用两次sibing具体原因看官网),结果这样的话发现有很多报错![image.png](2)如图所示!!是因为很多帖子没有热门回帖,所以导致这里没有数据! 这里需要判断下, 但是后续需要获取其他的数据的时候就会出问题,不能再次使用next_sibling了,欣慰兄弟标签就不一定了 !!所以还是使用找到父标签,然后再来处理比较合适。
接下来获取用户的主页信息
方法是获取帖子内容标签的祖父标签也就是如图所示的li标签,然后
grandPaInfo.find("div",class_="author box").a['href']这样就可以获取用户的主页信息
接下来需要获取用户性别
上一步获取到了用户主页信息,接下来我们需要进入这个主页进行分析
如果所示,我们可以使用如下代码获取 用户的性别信息
if soup.find('span', itemprop="gender"):
userSex = soup.find('span', itemprop="gender").get_text()
else:
userSex = "NULL"
python爬取虎扑评论_python爬去虎扑数据信息,完成可视化相关推荐
- python爬取豆瓣电影评论_python 爬取豆瓣电影评论,并进行词云展示及出现的问题解决办法...
def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...
- 用python爬取网易云评论_python爬取网易云音乐评论
本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...
- python爬取微博恶评_Python爬取新浪微博评论数据,了解一下?
开发工具 **Python版本:**3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装 ...
- python爬取微博恶评_python爬取微博评论的实例讲解
python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经 ...
- python爬取微博用户关注_python爬取微博用户关注和粉丝的公开基本信息
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:TM0831 PS:如有需要Python学习资料的小伙伴可以加点击下 ...
- python爬取虎扑评论_Python爬取NBA虎扑球员数据
虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...
- python爬取虎扑评论_python爬取网站数据
编码问题 因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行 ...
- python爬取b站评论_python高效之爬了B站再爬微博
全文简介 本文是用Python爬取微博移动端的数据.可以看一下Robots协议.另外尽量不要爬取太快.如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉.所以,不要难为别人,到最后其实是在难 ...
- python爬携程景区评论_python爬取携程景点评论信息
python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...
- python爬取b站评论_Python爬虫框架:scrapy抓取B站博人传评论数据
1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
最新文章
- [转]树结构表递归查询在ORACLE和MSSQL中的实现方法
- oom 如何避免 高并发_【高并发】高并发环境下如何防止Tomcat内存溢出?看完我懂了!!...
- 图论 —— 最短路 —— Floyd 算法
- java tts引擎_让Java说话-用Java实现语音引擎
- R语言分类算法之朴素贝叶斯分类(Naive Bayesian Classification)
- mysql 游标_跟我快速学数据存储:MySQL
- J2EE基础篇——十三个规范
- Win10 代码行数统计工具CLOC的安装和使用
- HTML中背景图片如何自适应屏幕
- Java输入/输出流(1)
- Cadence之双击(DSN/brd)文件打开变新建文件的解决方法
- SPI 接口OLED 使用5V 信号驱动可能需要电平转换
- 16.4 weak_ptr简介、weak_ptr常用操作与尺寸问题
- 计算机应用中双绞线细铜线几根,《计算机应用基础_在线作业_E100.doc
- APICloud初使用记录
- 我的世界服务器怎么弄领地语言,我的世界领地指令权限大全 我的世界领地指令设置教程...
- 21世纪以来14起最大的数据泄露事件
- 本科去向选择之一——保研
- 绩效管理周期分哪些阶段?
- android studio 配置HTTP proxy