python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评

目的：爬取豆瓣【红海行动】电影的首页短评

步骤：

1、使用BeautifulSoup解析网页

soup = BeautifulSoup(r, 'lxml') // lxml 库解析速度快，也能解析复杂网页

2、描述要爬取的东西在哪

soup.find_all() 或者 soup.select()

3、从标签中获取所需信息，如

something

代码：

# -*- coding: utf-8 -*-

# __author__ = 'Carina'

import requests

import pandas

from bs4 import BeautifulSoup

url = "https://movie.douban.com/subject/26861685/comments"

r = requests.get(url).text

# print(r)

soup = BeautifulSoup(r, 'lxml')

pattern = soup.find_all('p', class_='')

# p1 = soup.select("#comments > div:nth-of-type(1) > div.comment > p") // Copy Selector

comments = []

for item in pattern:

print(item.string)

comments.append(item.string)

df = pandas.DataFrame(comments)

# 未指定路径时，csv文件同PY文件一个目录

# df.to_csv('comments.csv')

# 指定文件路径，并自动转码

df.to_csv('C:/Users/Carina/Desktop/comments.csv', encoding='utf_8_sig')

提示：

requests是Python 的http库，常用的就是get方法

问题一：

1、class没有值

源码.png

(1)直接2个单引号，soup.find_all('p', '')，同时问题也来了，所有p里面的内容都被输出

另外还有手机端评论的内容输出时显示为None(待研究)

图片.png

(2)查找时加上class, pattern = soup.find_all('p', class='')

系统提示语法错误，因为class在python中是保留字(reserved word)，不能作为变量名或过程名使用，所以class_应运而生；

即： pattern = soup.find_all('p', class_='')

总结：BeautifulSoup 只认CSS Selector，不认Xpath

python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评相关推荐

python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格
豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...
爬虫beautifulsoup爬取豆瓣读书数据
爬虫beautifulsoup爬取豆瓣读书数据:主要是爬取收集书的名字.类别.简介,用于接下来的聚类学习. 豆瓣链接:https://book.douban.com/tag/?view=type&am ...
BeautifulSoup爬取豆瓣电影数据
BeautifulSoup爬取豆瓣TOP250 豆瓣爬取地址 https://movie.douban.com/top250?format=text BeautifulSoup官网地址 https:/ ...
Python爬虫新手入门教学（一）：爬取豆瓣电影排行信息
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
python selenium爬虫豆瓣_使用selenium+requests爬取豆瓣小组讨论列表
获取本文代码 · 我的GitHub 注:这个项目的代码会在我的GitHub持续优化.更新,而在本文中的代码则是最初版本的代码. 豆瓣小组豆瓣有一个"小组"模块,有一些小组中会发布 ...
python爬虫入门练习：BeautifulSoup爬取猫眼电影TOP100排行榜，pandas保存本地excel文件
传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...
python爬虫携程酒店_携程酒店爬取分享
该楼层疑似违规已被系统折叠隐藏此楼查看此楼 import urllib.request from bs4 import BeautifulSoup import csv import re def ...
python画哪吒_Python第三个项目：爬取豆瓣《哪吒之魔童降世》短评
前面爬完网站信息图片之后,今天的又有了个小目标,最近的电影哪吒很火,去豆瓣上看了一下影评,决定了今天主要是实现Python第三个项目:爬取豆瓣<哪吒之魔童降世> 短评,然后下载在exce ...
爬虫学习笔记（三）——利用JSON爬取豆瓣热映的使用
系列文章目录爬虫学习笔记(一):requests基础用法之爬取各类主流网站1 爬虫学习笔记(二):requests基础用法之爬取各类主流网站2 文章目录系列文章目录前言一.JSON是什么? 二 ...

python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评

python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评相关推荐

最新文章

热门文章