方法和第一篇影评的爬取方法一模一样

豆瓣影评爬虫传送门

1、加载必要的请求库

# -*- coding: utf-8 -*-
__author__ = 'ma'
import requests
from bs4 import BeautifulSoup

2、进入豆瓣分析网站

豆瓣电影传送门
随便选一首歌曲,速度与激情主题曲。See You Again传送门

第一页

第二页

这就简单了朋友们

comments/hot?p=1
comments/hot?p=2

那么第三页肯定就是
comments/hot?p=3

def get_page(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textreturn None

因为这个url随页面变化而变化,并且信息也在源代码中,所以为静态爬虫

例如第一个

进行检查我们发现评论都在列表里


在这一标签下

此时我们加载Beautifulsoup解析HTML

for i in range(0,35):#此页数为1-10页url = "https://music.douban.com/subject/26362557/comments/hot?p=" + str(i+1)print("爬取第"+str(i+1)+"页")html = get_page(url)soup = BeautifulSoup(html, 'html5lib')comments = soup.find(attrs={'class': "comment-list hot"})for item in comments.find_all(attrs={'class': "short"}):print(item.string)

此时可以获取评论信息

3、完整代码(音乐没有反爬虫,可全部爬取)

# -*- coding: utf-8 -*-
__author__ = 'ma'import requests
from bs4 import BeautifulSoup
def get_page(url):headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Mobile Safari/537.36"}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textreturn Nonefor i in range(0,35):#此页数为1-35页url = "https://music.douban.com/subject/26362557/comments/hot?p=" + str(i+1)print("爬取第"+str(i+1)+"页")html = get_page(url)soup = BeautifulSoup(html, 'html5lib')comments = soup.find(attrs={'class': "comment-list hot"})for item in comments.find_all(attrs={'class': "short"}):print(item.string)

爬虫(二) 豆瓣音乐评论爬虫 文末附完整代码相关推荐

  1. python下载某短视频平台音视频、评论、点赞数(详细教程,文末附完整代码

    前言 整理一下python在抖音网页版的应用 以抓取一个视频及评论为例进行讲解 获取视频 url 随便找一个视频,点击进入详情,页面中地址栏里就是该视频的 url . 手机端复制链接后,先粘到浏览器地 ...

  2. 【控制系统数字仿真与CAD——实验报告】实验三:离散相似法数字仿真(文末附完整代码 + 实验结果)

    一.实验目的 1. 了解离散相似法的基本原理 2. 掌握离散相似法仿真的基本过程 3. 应用离散相似法仿真非线性系统 4. MATLAB实现离散相似法的非线性系统仿真 5. 掌握SIMULINK仿真方 ...

  3. 利用pyecharts绘制新浪微博传播图(文末附完整代码地址)

    文章目录 任务 来龙去脉 过程 绘图代码 绘图参数分析 结点参数格式 联系参数格式 类别参数格式 总览 获取转发关系 构造数据结构 集成json文件 代码地址 任务 延续之前的爬虫任务,最初同学提出的 ...

  4. 【控制系统数字仿真与CAD——实验报告】实验四:黄金分割法最优化PI调节器参数(文末附完整代码 + 实验结果)

    一.实验目的 掌握控制系统计算机辅助设计的原理与方法: 掌握黄金分割法的基本原理: 掌握黄金分割法在参数优化中的应用: 掌握MATLAB的基本编程,实现闭环系统的数字仿真,并增加参数优化过程: 掌握M ...

  5. 吴恩达机器学习python实现(6):SVM支持向量机(文末附完整代码)

    所有的数据来源:链接:https://pan.baidu.com/s/1vTaw1n77xPPfKk23KEKARA 提取码:5gl2 1 Support Vector Machines 1.1 Pr ...

  6. CVE-2020-1938漏洞复现(文末附EXP代码)

    CVE-2020-1938 Apache Tomcat 文件包含漏洞复现 1 环境搭建 1.1 Vulhub靶机搭建 1.1.1 环境安装 (1)安装docker $ curl -fsSL https ...

  7. 网易云音乐小程序案例分享 附完整代码

    todo: 添加音乐到收藏(最近)列表 歌词滚动 从一个 hello world 开始 微信开发者工具生成 目录如下: . |-- app.js |-- app.json |-- app.wxss | ...

  8. 入门C语言第三话:数组之实战篇——扫雷(进阶版——图形化界面,递归展开,播放音乐与音效,标记取消雷,记录雷的个数,鼠标点击,文末附有完整代码)

    文章目录 前言 每日鸡汤 基本思路 衔接基础班扫雷 准备阶段 正文 一.雷盘信息的存储 1.设置雷盘11*11与初始化 2.放置雷 3.放置雷周围的信息 二.图形化界面 1.创建与初始化窗口 2.加载 ...

  9. 2022年,我们为什么要学习C++?(文末附完整C++后端学习路线)

    "C++已死" 大学时代,我就听过这样的说法--差不多十多年前的事儿了.那时候至少在美国,Java已经成了各公司的主流语言.程序员也许都很熟悉Joel Spolsky在2005年1 ...

  10. echarts 折现图和柱状图 样式修改 设置折线样式 背景(文末附带完整代码)

    1.设置折线图样式(修改后)(背景竖条纹间隔,去掉边框,设置折线和节点颜色,设置数据字体颜色) 设置折线样式: 设置折线图的背景样式: 2.设置柱状图样式(修改后) 设置柱子的样式 设置柱状图背景 完 ...

最新文章

  1. 半年总结(2018-10)
  2. 计算机联网实验步骤,计算机网络技术实验操作过程.doc
  3. new Fiori 2.0 theme sap_belize
  4. HZOJ 大佬(kat)
  5. 2019世界大学排名全新出炉!清华北大排名大幅下滑?
  6. Kubernetes的共享GPU集群调度 1
  7. java 属性访问修饰符_Java中的访问修饰符(二十七)
  8. 智还王项目中出现的问题和使用的一些方法
  9. python数据挖掘系列教程——PySpider框架应用全解
  10. Stack Overflow首席大神,他回答了超过3万个问题
  11. c4d——界面认识、视图快捷键、常用的快捷键
  12. Android P 缩短screencap时间
  13. 使用SecOC打造的CAN网络依旧很不安全
  14. 机器视觉编码靶标自动提取和解码Coded Target/  Marker Detector
  15. 英特尔携手生态伙伴亮相InfoComm,赋能协作办公迈向智能时代
  16. find:paths must precede expression问题及解决
  17. 深度隐藏文件或文件夹原理与应用
  18. php局域网建立,win10如何建立局域网
  19. Matlab多子图绘制
  20. 什么是 MaxCompute

热门文章

  1. windows下CoffeeScript 的实现
  2. B. Alice and the List of Presents(组合数学)
  3. 在Word中,如何删除页眉页脚
  4. 数据库系统概论(第5版)王珊 详细知识清单 期末复习速成 考前冲刺 面试——(第一篇 基础篇)
  5. SpringBoot系列 - 使用RestTemplate
  6. 悉尼大学COMP5216Assignment2课业解析
  7. ecshop模板支持php,解决ecshop模板不支持php代码,修改ecshop过滤模板php代码!
  8. 每年10万被动收入目标分解
  9. Gprs通信协议服务器,GPRS协议简介
  10. 如何将电脑中的文件彻底清除干净