目的:爬取豆瓣【红海行动】电影的首页短评

步骤:

1、使用BeautifulSoup解析网页

soup = BeautifulSoup(r, 'lxml') // lxml 库解析速度快,也能解析复杂网页

2、描述要爬取的东西在哪

soup.find_all() 或者 soup.select()

3、从标签中获取所需信息,如

something

代码:

# -*- coding: utf-8 -*-

# __author__ = 'Carina'

import requests

import pandas

from bs4 import BeautifulSoup

url = "https://movie.douban.com/subject/26861685/comments"

r = requests.get(url).text

# print(r)

soup = BeautifulSoup(r, 'lxml')

pattern = soup.find_all('p', class_='')

# p1 = soup.select("#comments > div:nth-of-type(1) > div.comment > p") // Copy Selector

comments = []

for item in pattern:

print(item.string)

comments.append(item.string)

df = pandas.DataFrame(comments)

# 未指定路径时,csv文件同PY文件一个目录

# df.to_csv('comments.csv')

# 指定文件路径,并自动转码

df.to_csv('C:/Users/Carina/Desktop/comments.csv', encoding='utf_8_sig')

提示:

requests是Python 的http库,常用的就是get方法

问题一:

1、class没有值

源码.png

(1)直接2个单引号,soup.find_all('p', ''),同时问题也来了,所有p里面的内容都被输出

另外还有手机端评论的内容输出时显示为None(待研究)

图片.png

图片.png

(2)查找时加上class, pattern = soup.find_all('p', class='')

系统提示语法错误,因为class在python中是保留字(reserved word),不能作为变量名或过程名使用,所以class_应运而生;

即: pattern = soup.find_all('p', class_='')

总结:BeautifulSoup 只认CSS Selector,不认Xpath

python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评相关推荐

  1. python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格

    豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...

  2. 爬虫beautifulsoup爬取豆瓣读书数据

    爬虫beautifulsoup爬取豆瓣读书数据:主要是爬取收集书的名字.类别.简介,用于接下来的聚类学习. 豆瓣链接:https://book.douban.com/tag/?view=type&am ...

  3. BeautifulSoup爬取豆瓣电影数据

    BeautifulSoup爬取豆瓣TOP250 豆瓣爬取地址 https://movie.douban.com/top250?format=text BeautifulSoup官网地址 https:/ ...

  4. Python爬虫新手入门教学(一):爬取豆瓣电影排行信息

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  5. python selenium爬虫豆瓣_使用selenium+requests爬取豆瓣小组讨论列表

    获取本文代码 · 我的GitHub 注:这个项目的代码会在我的GitHub持续优化.更新,而在本文中的代码则是最初版本的代码. 豆瓣小组 豆瓣有一个"小组"模块,有一些小组中会发布 ...

  6. python爬虫入门练习:BeautifulSoup爬取猫眼电影TOP100排行榜,pandas保存本地excel文件

    传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件 对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...

  7. python爬虫携程酒店_携程酒店爬取分享

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 import urllib.request from bs4 import BeautifulSoup import csv import re def ...

  8. python画哪吒_Python第三个项目:爬取豆瓣《哪吒之魔童降世》 短评

    前面爬完网站信息图片之后,今天的又有了个小目标,最近的电影哪吒很火,去豆瓣上看了一下 影评,决定了今天主要是实现Python第三个项目:爬取豆瓣<哪吒之魔童降世> 短评,然后下载在exce ...

  9. 爬虫学习笔记(三)——利用JSON爬取豆瓣热映的使用

    系列文章目录 爬虫学习笔记(一):requests基础用法之爬取各类主流网站1 爬虫学习笔记(二):requests基础用法之爬取各类主流网站2 文章目录 系列文章目录 前言 一.JSON是什么? 二 ...

最新文章

  1. #Ruby# Introspect (1)
  2. 实战 Prometheus 搭建监控系统
  3. 在Ubuntu/Fedora/CentOS中安装Gitblit
  4. Docker常用操作命令(二)
  5. flex 有关数据类型强制转
  6. zabbix4监控mysql_Zabbix4监控Mysql5.7
  7. 从OpenGL ES 2.0到Direct3D 11.1之路
  8. laravel Ajax请求 X-CSRF验证问题
  9. 按键精灵html代码,最新按键精灵脚本代码大全 按键精灵命令运行方法
  10. 中国个人企业征信体系介绍
  11. ERROR 1820 (HY000): You must reset your password using ALTER USER statement
  12. 做成事情的3个要素:意愿、能力、资源
  13. 东华大学2020考研计算机OJ题目解答分享——进阶篇(34)
  14. 排查定时任务为什么不执行
  15. mapi java_Powershell从注册表中查询默认MAPI客户端的例子
  16. oracle中top命令详解,top命令-leonwang202-ChinaUnix博客
  17. Oracle 19c OCP的1Z0-082-CHN、1Z0-083-CHN和1Z0-082、1Z0-083有什么不同
  18. vue3.0项目的创建
  19. Multi-Scale Metric Learning for Few-Shot Learning(用于小样本学习的多尺度度量学习)
  20. Windows server2008 R2显卡驱动和Windows server2012 R2兼容吗

热门文章

  1. 2009-2019:卢松松博客10周年
  2. 【C语言】打印数字金字塔
  3. (Java毕业设计)旧车交易撮合管理平台(java+mysql+b/s架构)附源码
  4. android 天气 没有广告,收集几款无广告的纯净天气App
  5. 队列应用之热土豆传递问题Python
  6. python爬取学校新闻_python爬虫爬取新闻的简单实现
  7. 【游戏开发实战】小岛城堡里的常春藤,听新发剖析Unity案例知识点
  8. datatables 常用的操作、复杂表头
  9. 2021-06-04 微信小程序构建mpn
  10. Hibernate执行原生SQL别名导致的一个Bug