平台:pycharm
目标:爬取豆瓣网页电影名称,评分等信息,并存储存在csv文件中

代码(代码中的url和headers获取方法在下)

import re
import requests
import csv#拿到页面源代码
url = "https://movie.douban.com/chart"
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36"}resq = requests.get(url=url,headers = headers)page_content = resq.text#通过re提取想要的有效信息
#解析数据#预加载正则
obj = re.compile(r' <table width="100%" class="">.*?title="(?P<name>.*?)">'r'.*?<span class="rating_nums">(?P<grade>.*?)</span>'r'.*?<span class="pl">(?P<review>.*?)</span>',re.S)res = obj.finditer(page_content)
f = open("data.csv",mode="w")
csvwriter = csv.writer(f)for it in res:# print(it.group("name"))# print(it.group("grade"))# print(it.group("review"))dic = it.groupdict()csvwriter.writerow(dic.values())f.close()
resq.close()

1、首先、随便找一个豆瓣网页,获取其url,如图

2、拿到请求头中的user-agent,步骤如下:

ctrl+shift+I或右键检测(谷歌浏览器)导出检查界面,点击Network,先刷新一下网页,在Name栏会显示许多信息,随意点击一个,之后在Headers内下滑找到user-agent,复制其内容至代码的headers。具体如图所示:

3、之后通过查看网页源代码使用正则表达式对需要的信息进行获取(正则表达式不明白的可查阅相关资料)
4、将文件存储在CSV文件中

最终csv文件内容

简单爬取豆瓣电影相关信息相关推荐

  1. python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格

    豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...

  2. Requests库实战(三)---爬取豆瓣电影详细信息

    完整代码 爬取豆瓣电影的详细信息 地址:豆瓣电影动画 向下滑动时新增的数据也是Ajax请求,原理和上一个项目是一样的.唯一的不同是此处请求url携带了多个参数 import requests impo ...

  3. Python爬虫新手入门教学(一):爬取豆瓣电影排行信息

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  4. 杀鸡用用牛刀 scrapy框架爬取豆瓣电影top250信息

    文章目录 一.分析网页 二.scrapy爬虫 三.处理数据 原文链接:https://yetingyun.blog.csdn.net/article/details/108282786 创作不易,未经 ...

  5. 爬取猫眼电影相关信息

    from fake_useragent import UserAgent from lxml import etree import requests def get_stree(url): ''' ...

  6. 使用Selenium爬取豆瓣电影前100的爱情片相关信息

    slenium入门小练手之使用Selenium爬取豆瓣电影前100的爱情片相关信息 文章目录 什么是Selenium 1.准备工作 1.1 安装Selenium 1.2 浏览器驱动安装 1.3 环境变 ...

  7. python爬取豆瓣电影信息_Python爬虫入门 | 爬取豆瓣电影信息

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  8. python爬虫爬取豆瓣电影信息城市_Python爬虫入门 | 2 爬取豆瓣电影信息

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  9. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

最新文章

  1. 经典的导航二级式导航菜单增强版
  2. 字符串 内存 函数的介绍与模拟实现
  3. SVN服务器搭建--Subversio与TortoiseSVN的配置安装
  4. apache自动跳转到服务HTML,apache自动将http协议跳转到https
  5. /etc/hosts错误配置,导致TNS-12535
  6. 相识、相恋、相伴【与51CTO的故事】
  7. error: style attribute '@android:attr/windowEnterAnimation' not found.
  8. 【Transformer】Augmented Shortcuts for Vision Transformers
  9. 集成测试CDI 1.0和Spring 3.1中的作用域bean
  10. 笔记本上的小键盘计算机怎样用,笔记本数字小键盘不能用怎么办【解决方法】...
  11. ini文件中文乱码 python_python编程之ini文件处理-configparser模块应用
  12. JavaSE 学习笔记之正则表达式(二十五)
  13. java利用opencv降维_PCA主成分分析 特征降维 opencv实现
  14. 《强化学习周刊》第3期:深度强化学习如何提升鲁棒性和性能
  15. Linux蓝牙鼠标自己断开,thinkpad蓝牙鼠标经常断线怎么办 thinkpad蓝牙鼠标频繁断开连接处理方法...
  16. FSK过零检测技术软件实现
  17. 生活需要创意-精彩的水果创意设计
  18. 淘晶驰芯片AIHMI简介
  19. 【数据库原理及应用】——数据查询SELECT(学习笔记)
  20. 【学习笔记】斯特林反演+单位根反演

热门文章

  1. 音视频播放器与 H.265 播放探索
  2. ArcGIS中做一张新闻1+1演播厅背景图(附世界矢量地图.shp下载)
  3. [ 网络协议篇 ] 一篇文章让你掌握什么是 数字证书 ?什么是SSL ?什么是 TLS ?
  4. 头号音频对齐插件 VocAlign Project 5 发布
  5. 新程序员001:开发者黄金十年
  6. Eclipse安装SVN插件及使用详细步骤
  7. CodeForces1214A
  8. 如何自己制作各种证件照和签证照片
  9. 在暴风上市前,虚拟现实团队就跑了
  10. 2011计算机2级,2011年度计算机等级考试二级VFP基础教程(41)