爬虫(二) 豆瓣音乐评论爬虫 文末附完整代码
方法和第一篇影评的爬取方法一模一样
豆瓣影评爬虫传送门
1、加载必要的请求库
# -*- coding: utf-8 -*-
__author__ = 'ma'
import requests
from bs4 import BeautifulSoup
2、进入豆瓣分析网站
豆瓣电影传送门
随便选一首歌曲,速度与激情主题曲。See You Again传送门
第一页
第二页
这就简单了朋友们
comments/hot?p=1
comments/hot?p=2
那么第三页肯定就是
comments/hot?p=3
def get_page(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textreturn None
因为这个url随页面变化而变化,并且信息也在源代码中,所以为静态爬虫
例如第一个
进行检查我们发现评论都在列表里
在这一标签下
此时我们加载Beautifulsoup解析HTML
for i in range(0,35):#此页数为1-10页url = "https://music.douban.com/subject/26362557/comments/hot?p=" + str(i+1)print("爬取第"+str(i+1)+"页")html = get_page(url)soup = BeautifulSoup(html, 'html5lib')comments = soup.find(attrs={'class': "comment-list hot"})for item in comments.find_all(attrs={'class': "short"}):print(item.string)
此时可以获取评论信息
3、完整代码(音乐没有反爬虫,可全部爬取)
# -*- coding: utf-8 -*-
__author__ = 'ma'import requests
from bs4 import BeautifulSoup
def get_page(url):headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Mobile Safari/537.36"}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textreturn Nonefor i in range(0,35):#此页数为1-35页url = "https://music.douban.com/subject/26362557/comments/hot?p=" + str(i+1)print("爬取第"+str(i+1)+"页")html = get_page(url)soup = BeautifulSoup(html, 'html5lib')comments = soup.find(attrs={'class': "comment-list hot"})for item in comments.find_all(attrs={'class': "short"}):print(item.string)
爬虫(二) 豆瓣音乐评论爬虫 文末附完整代码相关推荐
- python下载某短视频平台音视频、评论、点赞数(详细教程,文末附完整代码
前言 整理一下python在抖音网页版的应用 以抓取一个视频及评论为例进行讲解 获取视频 url 随便找一个视频,点击进入详情,页面中地址栏里就是该视频的 url . 手机端复制链接后,先粘到浏览器地 ...
- 【控制系统数字仿真与CAD——实验报告】实验三:离散相似法数字仿真(文末附完整代码 + 实验结果)
一.实验目的 1. 了解离散相似法的基本原理 2. 掌握离散相似法仿真的基本过程 3. 应用离散相似法仿真非线性系统 4. MATLAB实现离散相似法的非线性系统仿真 5. 掌握SIMULINK仿真方 ...
- 利用pyecharts绘制新浪微博传播图(文末附完整代码地址)
文章目录 任务 来龙去脉 过程 绘图代码 绘图参数分析 结点参数格式 联系参数格式 类别参数格式 总览 获取转发关系 构造数据结构 集成json文件 代码地址 任务 延续之前的爬虫任务,最初同学提出的 ...
- 【控制系统数字仿真与CAD——实验报告】实验四:黄金分割法最优化PI调节器参数(文末附完整代码 + 实验结果)
一.实验目的 掌握控制系统计算机辅助设计的原理与方法: 掌握黄金分割法的基本原理: 掌握黄金分割法在参数优化中的应用: 掌握MATLAB的基本编程,实现闭环系统的数字仿真,并增加参数优化过程: 掌握M ...
- 吴恩达机器学习python实现(6):SVM支持向量机(文末附完整代码)
所有的数据来源:链接:https://pan.baidu.com/s/1vTaw1n77xPPfKk23KEKARA 提取码:5gl2 1 Support Vector Machines 1.1 Pr ...
- CVE-2020-1938漏洞复现(文末附EXP代码)
CVE-2020-1938 Apache Tomcat 文件包含漏洞复现 1 环境搭建 1.1 Vulhub靶机搭建 1.1.1 环境安装 (1)安装docker $ curl -fsSL https ...
- 网易云音乐小程序案例分享 附完整代码
todo: 添加音乐到收藏(最近)列表 歌词滚动 从一个 hello world 开始 微信开发者工具生成 目录如下: . |-- app.js |-- app.json |-- app.wxss | ...
- 入门C语言第三话:数组之实战篇——扫雷(进阶版——图形化界面,递归展开,播放音乐与音效,标记取消雷,记录雷的个数,鼠标点击,文末附有完整代码)
文章目录 前言 每日鸡汤 基本思路 衔接基础班扫雷 准备阶段 正文 一.雷盘信息的存储 1.设置雷盘11*11与初始化 2.放置雷 3.放置雷周围的信息 二.图形化界面 1.创建与初始化窗口 2.加载 ...
- 2022年,我们为什么要学习C++?(文末附完整C++后端学习路线)
"C++已死" 大学时代,我就听过这样的说法--差不多十多年前的事儿了.那时候至少在美国,Java已经成了各公司的主流语言.程序员也许都很熟悉Joel Spolsky在2005年1 ...
- echarts 折现图和柱状图 样式修改 设置折线样式 背景(文末附带完整代码)
1.设置折线图样式(修改后)(背景竖条纹间隔,去掉边框,设置折线和节点颜色,设置数据字体颜色) 设置折线样式: 设置折线图的背景样式: 2.设置柱状图样式(修改后) 设置柱子的样式 设置柱状图背景 完 ...
最新文章
- 半年总结(2018-10)
- 计算机联网实验步骤,计算机网络技术实验操作过程.doc
- new Fiori 2.0 theme sap_belize
- HZOJ 大佬(kat)
- 2019世界大学排名全新出炉!清华北大排名大幅下滑?
- Kubernetes的共享GPU集群调度 1
- java 属性访问修饰符_Java中的访问修饰符(二十七)
- 智还王项目中出现的问题和使用的一些方法
- python数据挖掘系列教程——PySpider框架应用全解
- Stack Overflow首席大神,他回答了超过3万个问题
- c4d——界面认识、视图快捷键、常用的快捷键
- Android P 缩短screencap时间
- 使用SecOC打造的CAN网络依旧很不安全
- 机器视觉编码靶标自动提取和解码Coded Target/ Marker Detector
- 英特尔携手生态伙伴亮相InfoComm,赋能协作办公迈向智能时代
- find:paths must precede expression问题及解决
- 深度隐藏文件或文件夹原理与应用
- php局域网建立,win10如何建立局域网
- Matlab多子图绘制
- 什么是 MaxCompute
热门文章
- windows下CoffeeScript 的实现
- B. Alice and the List of Presents(组合数学)
- 在Word中,如何删除页眉页脚
- 数据库系统概论(第5版)王珊 详细知识清单 期末复习速成 考前冲刺 面试——(第一篇 基础篇)
- SpringBoot系列 - 使用RestTemplate
- 悉尼大学COMP5216Assignment2课业解析
- ecshop模板支持php,解决ecshop模板不支持php代码,修改ecshop过滤模板php代码!
- 每年10万被动收入目标分解
- Gprs通信协议服务器,GPRS协议简介
- 如何将电脑中的文件彻底清除干净