python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评
目的:爬取豆瓣【红海行动】电影的首页短评
步骤:
1、使用BeautifulSoup解析网页
soup = BeautifulSoup(r, 'lxml') // lxml 库解析速度快,也能解析复杂网页
2、描述要爬取的东西在哪
soup.find_all() 或者 soup.select()
3、从标签中获取所需信息,如
something
代码:
# -*- coding: utf-8 -*-
# __author__ = 'Carina'
import requests
import pandas
from bs4 import BeautifulSoup
url = "https://movie.douban.com/subject/26861685/comments"
r = requests.get(url).text
# print(r)
soup = BeautifulSoup(r, 'lxml')
pattern = soup.find_all('p', class_='')
# p1 = soup.select("#comments > div:nth-of-type(1) > div.comment > p") // Copy Selector
comments = []
for item in pattern:
print(item.string)
comments.append(item.string)
df = pandas.DataFrame(comments)
# 未指定路径时,csv文件同PY文件一个目录
# df.to_csv('comments.csv')
# 指定文件路径,并自动转码
df.to_csv('C:/Users/Carina/Desktop/comments.csv', encoding='utf_8_sig')
提示:
requests是Python 的http库,常用的就是get方法
问题一:
1、class没有值
源码.png
(1)直接2个单引号,soup.find_all('p', ''),同时问题也来了,所有p里面的内容都被输出
另外还有手机端评论的内容输出时显示为None(待研究)
图片.png
图片.png
(2)查找时加上class, pattern = soup.find_all('p', class='')
系统提示语法错误,因为class在python中是保留字(reserved word),不能作为变量名或过程名使用,所以class_应运而生;
即: pattern = soup.find_all('p', class_='')
总结:BeautifulSoup 只认CSS Selector,不认Xpath
python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评相关推荐
- python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格
豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...
- 爬虫beautifulsoup爬取豆瓣读书数据
爬虫beautifulsoup爬取豆瓣读书数据:主要是爬取收集书的名字.类别.简介,用于接下来的聚类学习. 豆瓣链接:https://book.douban.com/tag/?view=type&am ...
- BeautifulSoup爬取豆瓣电影数据
BeautifulSoup爬取豆瓣TOP250 豆瓣爬取地址 https://movie.douban.com/top250?format=text BeautifulSoup官网地址 https:/ ...
- Python爬虫新手入门教学(一):爬取豆瓣电影排行信息
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
- python selenium爬虫豆瓣_使用selenium+requests爬取豆瓣小组讨论列表
获取本文代码 · 我的GitHub 注:这个项目的代码会在我的GitHub持续优化.更新,而在本文中的代码则是最初版本的代码. 豆瓣小组 豆瓣有一个"小组"模块,有一些小组中会发布 ...
- python爬虫入门练习:BeautifulSoup爬取猫眼电影TOP100排行榜,pandas保存本地excel文件
传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件 对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...
- python爬虫携程酒店_携程酒店爬取分享
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 import urllib.request from bs4 import BeautifulSoup import csv import re def ...
- python画哪吒_Python第三个项目:爬取豆瓣《哪吒之魔童降世》 短评
前面爬完网站信息图片之后,今天的又有了个小目标,最近的电影哪吒很火,去豆瓣上看了一下 影评,决定了今天主要是实现Python第三个项目:爬取豆瓣<哪吒之魔童降世> 短评,然后下载在exce ...
- 爬虫学习笔记(三)——利用JSON爬取豆瓣热映的使用
系列文章目录 爬虫学习笔记(一):requests基础用法之爬取各类主流网站1 爬虫学习笔记(二):requests基础用法之爬取各类主流网站2 文章目录 系列文章目录 前言 一.JSON是什么? 二 ...
最新文章
- #Ruby# Introspect (1)
- 实战 Prometheus 搭建监控系统
- 在Ubuntu/Fedora/CentOS中安装Gitblit
- Docker常用操作命令(二)
- flex 有关数据类型强制转
- zabbix4监控mysql_Zabbix4监控Mysql5.7
- 从OpenGL ES 2.0到Direct3D 11.1之路
- laravel Ajax请求 X-CSRF验证问题
- 按键精灵html代码,最新按键精灵脚本代码大全 按键精灵命令运行方法
- 中国个人企业征信体系介绍
- ERROR 1820 (HY000): You must reset your password using ALTER USER statement
- 做成事情的3个要素:意愿、能力、资源
- 东华大学2020考研计算机OJ题目解答分享——进阶篇(34)
- 排查定时任务为什么不执行
- mapi java_Powershell从注册表中查询默认MAPI客户端的例子
- oracle中top命令详解,top命令-leonwang202-ChinaUnix博客
- Oracle 19c OCP的1Z0-082-CHN、1Z0-083-CHN和1Z0-082、1Z0-083有什么不同
- vue3.0项目的创建
- Multi-Scale Metric Learning for Few-Shot Learning(用于小样本学习的多尺度度量学习)
- Windows server2008 R2显卡驱动和Windows server2012 R2兼容吗
热门文章
- 2009-2019:卢松松博客10周年
- 【C语言】打印数字金字塔
- (Java毕业设计)旧车交易撮合管理平台(java+mysql+b/s架构)附源码
- android 天气 没有广告,收集几款无广告的纯净天气App
- 队列应用之热土豆传递问题Python
- python爬取学校新闻_python爬虫爬取新闻的简单实现
- 【游戏开发实战】小岛城堡里的常春藤,听新发剖析Unity案例知识点
- datatables 常用的操作、复杂表头
- 2021-06-04 微信小程序构建mpn
- Hibernate执行原生SQL别名导致的一个Bug