python爬取周杰伦的歌曲评论

偶得一不错的爬虫教程,现博客分享,想要获取完整教程,加V:ff17328081445。文章为系列文章,持续更新,欢迎关注。

浏览器分析网页

#歌曲评价地址
https://y.qq.com/n/yqq/song/001zMQr71F1Qo8.html#comment_box
#先把Network面板清空,再点击一下评论翻页,看看有没有多出来的新XHR,多出来的那一个,就应该是和评论相关的。

#点开这个请求的Preview,能够在['comment']['commentlist']里找到评论列表。
#列表的每一个元素都是字典,字典里键rootcommentcontent对应的值,就是我们要找的评论。

#模拟这个请求,解析json,提取想要的内容。
#点击Headers,在General里看链接,在Query String Parametres里看参数,多翻几页评论列表,总结参数的规律。

#在这里你会遇到一个难点,XHR有两个参数在不断变化:一个是pagenum,一个lasthotcommentid。其中pagenum好理解,就是页码,但是lastcommentid是什么?
#我们来阅读这个英文lasthotcommentid,它的含义是:上一条热评的评论id。
#基于此,我们可以做一个猜想:每一页的请求,参数lasthotcommentid的值,是上一页的最后一条评论,所对应的id。

代码实现

#!/usr/bin/python3import requests# 引用requests模块
url = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg'
commentid = ''
# 设置一个初始commentid
# requests模块里的requests.get()提供了一个参数叫params,可以让我们用字典的形式,把参数传进去。
for x in range(5):params = {'g_tk': '5381','loginUin': '0','hostUin': '0','format': 'json','inCharset': 'utf8','outCharset': 'GB2312','notice': '0','platform': 'yqq.json','needNewCode': '0','cid': '205360772','reqtype': '2','biztype': '1','topid': '102065756','cmd': '8','needcommentcrit': '0','pagenum': str(x),'pagesize': '25','lasthotcommentid': commentid,'domain': 'qq.com','ct': '24','cv': '101010  '}
# 将参数封装为字典,其中pagenum和lastcommentid是特殊的变量
res_comment = requests.get(url, params=params)# 调用get方法,下载评论列表
json_comment = res_comment.json()# 使用json()方法,将response对象,转为列表/字典
list_comment = json_comment['comment']['commentlist']# 一层一层地取字典,获取评论列表
for comment in list_comment:# list_comment是一个列表,comment是它里面的元素print(comment['rootcommentcontent'])
# 输出评论
commentid = list_comment[24]['commentid']
# 将最后一个评论的id赋值给comment,准备开始下一次循环>>>>>>>>>>>>>>>>>>>>>>>>枕着我爱的这个人唱的歌睡了午觉 醒来心情格外晴朗
超好听
如果有一首詩歌,能夠勾引起你曾經的記憶,那麽會有七里香吧?\n我猜可能是因為那年夏天的雨下的太大,然濕了你給她的那朵紫羅蘭,但是無法再換一朵。只能眼睜睜看她對你尷尬的笑一笑,踏著腳踏車遠去。\n潔白的連衣裙在她的身邊盪漾\n你沒有說regard,哈哈只是躲在六平方米的閣樓上,彈著吉他,猜測她對你有多麼喜歡然後又出現了七里香,才將你無法言語的情緒告訴了她....
七月过了,十一月还没来。
我们只有这几十秒的缘分[em]e400837[/em]
回忆杀,青春夏天的记忆
早安
晚安!\n睡前必听一次。
在那个只有随身听的年代,每一盘杰伦的专辑都会买,买来全班同学传着听,后来有了MP3.每一首周杰伦的歌都会下载,那些年,我们已经习惯了等待周杰伦每年一张专辑
好听,好听,太好听了
我接着写,把永远爱你写进诗的结尾,你是我唯一想要的了解\n               ——《七里香》周杰伦
我覺得中間那段很悲情

Python爬虫项目分享二:《爬取周杰伦的歌曲评论》相关推荐

  1. Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  2. Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  3. 数据采集与存储案例——基于Python爬虫框架Scrapy的爬取网络数据与MySQL数据持久化

    此案例需要预先安装pymsql python3.7.4 scrapy2.7.1 一.安装scrapy框架 1.使用pip命令安装scrapy pip install scrapy 在这里下载太慢可以使 ...

  4. python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo

    实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

  5. 爬虫项目三:爬取选课信息

    爬虫项目三:爬取whut-jwc选课信息 项目实现:主要获得通识选修.个性选课.英语体育选课的课程信息 核心: 1.实现网页登陆 2.爬取课程信息 一.网页信息登陆 from selenium imp ...

  6. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  7. python爬虫股票市盈率_使用python爬虫实现网络股票信息爬取的demo

    实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

  8. python爬虫第二弹-多线程爬取网站歌曲

    python爬虫第二弹-多线程爬取网站歌曲 一.简介 二.使用的环境 三.网页解析 1.获取网页的最大页数 2.获取每一页的url形式 3.获取每首歌曲的相关信息 4.获取下载的链接 四.代码实现 一 ...

  9. Python爬虫实战一之爬取糗事百科段子

    点我进入原文 另外, 中间遇到两个问题: 1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128) 解 ...

最新文章

  1. 【知识总结】Java类初始化顺序说明
  2. 枚举类能继承吗?能被继承吗?
  3. java 按键消息监听器用法,Java命令行中的键监听器
  4. Map的两种遍历方法
  5. 回溯应用-- 0-1背包问题
  6. libwacom9 : Depends: libwacom-common (= 2.2.0-1) but 1.12-1 is to be installed
  7. android自动化工程师,自动化工程师应具备哪些技能
  8. 光热发电成千亿元市场 加速产业布局
  9. Centos6.7 64位安装配置kvm虚拟化
  10. Flutter之EdgeInsetsGeometry简析
  11. kubernetes视频教程笔记 (9)-资源清单yaml是什么 yaml的格式语法
  12. 神经网络和深度学习简史(全)
  13. 爬取北京市公交线路信息
  14. 关于C++中<iostream>操作算子ends显示问题
  15. Clickhouse MergeTree系列(Replacing、Summing等)表引擎使用说明
  16. iOS开发之录屏时如何使系统录不到敏感信息
  17. Mac Safari 模拟 IE
  18. 王兴是怎么看待共享单车这块业务的
  19. Android——电话拨号器
  20. 一个目标100亿的互联网金融创业项目完整思路(毫无保留,赤裸裸全部是干货分享)

热门文章

  1. mysql linux 监控工具_细说linux服务器各种监控工具
  2. 应用程序无法正常启动(0xc000007b)解决
  3. 老夫整理的1000行MySQL学习笔记,等待有缘人
  4. 亲身经历灵魂附体与出马仙之说
  5. 【支小蜜智慧食堂】随时查账单,解决学校食堂点餐效率低问题
  6. 互动式广告是怎么样的一种广告形式?
  7. Piggy Back
  8. ft232rl可以了
  9. win7中解决nodejs版本问题
  10. 心脏骤停患者数据统计系统