# *-* coding:utf-8 *-*import requests
import re,os#爬取豆瓣250def douban_ranking(start):#构建请求 param = {"start": start,"filter":"" }respon = requests.get(url,headers=headers,params=param)page_content = respon.textrespon.close()#re 正则obj = re.compile(r'<li>.*?<span class="title">(?P<video_name>.*?)</span>.*?导演:(?P<director>.*?)&nbsp.*?<br>(?P<year>.*?)&nbsp.*?property="v:average">(?P<score>.*?)</span>',re.S)
#   re_boj=obj.findall(page_content)re_boj=obj.finditer(page_content)return re_bojif __name__ == '__main__':path = r'C:\Users\wyb\Desktop\python\BBtest\aa.html'if os.path.exists(path):os.remove(path)url = "https://movie.douban.com/top250"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"}start = 0while start < 250:re_boj=douban_ranking(start)start = start+25with open(r'C:\Users\wyb\Desktop\python\BBtest\aa.html',mode='a',encoding="utf-8") as f:for i in re_boj:
#           print(i.group("video_name"),i.group("director"),i.group("year").strip(),i.group("score"))f.write(i.group("video_name")+' ')f.write(i.group("director")+' ')f.write(i.group("year").strip()+' ')f.write(i.group("score")+'\n')
#               dic = i.groupdict()
#               dic['year'] = dic['year'].strip()
#               f.write(str(dic))print("over")

生成结果: 电影名字,导演,年份,评分

爬取豆瓣电影排行榜top 250相关推荐

  1. python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片,分别保存到csv文件和文件夹中

    python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...

  2. 爬取豆瓣电影排行榜前250

    环境:python3.6 + BeautifulSoup 爬取一页的电影信息 对应网址:https://movie.douban.com/top250 import requests # 导入网页请求 ...

  3. python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)

    ''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...

  4. 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图

    **爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...

  5. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  6. [爬虫] 爬取豆瓣电影排行榜

    申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删 爬取豆瓣电影排行榜 这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理 这次我们要做例子的网站 ...

  7. Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中

    概述 利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中 使用pymongo库操作MOngodb数据库 没有进行数据清洗 源码 items.py class Dou ...

  8. 爬取豆瓣电影排行榜top250

    爬取豆瓣电影top250 平时不知道看什么电影,正好最近学习了爬虫,自己试着把电影排行下载下来,边看边学两不误. 下面直接上代码: import requests from bs4 import Be ...

  9. 爬取豆瓣电影排名前250部电影并且存入Mongo数据库

    2019独角兽企业重金招聘Python工程师标准>>> 需求:爬取豆瓣电影top250(https://movie.douban.com/top250)的电影数据: 标题(title ...

  10. python爬虫爬取豆瓣电影排行榜,并写进csv文件,可视化数据分析

    #1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...

最新文章

  1. MATLAB寻址访问按什么优先,matlab笔记
  2. Comet OJ - 模拟赛 #2 Day2
  3. java开发微信二维码
  4. java线程同步的实现_Java并发编程(三) - 实战:线程同步的实现
  5. python区域找图命令_python读取图片任意范围区域
  6. [UVA315]Network(tarjan, 求割点)
  7. 湘苗培优|从入门到精通
  8. 运用div css和java_如何将css应用于div模式
  9. 1.2 案例:波士顿房价预测
  10. Docker 安装常用软件记录
  11. Java设计模式学习记录-模板方法模式
  12. uni-app框架简介
  13. java:文本框的简单使用
  14. nexus 启动报错 The nexus service was launched, but failed to start
  15. C语言试题151之求 0到7 所能组成的奇数个数。
  16. 如何白嫖你需要的知识?
  17. 初学tms320f2812的一些总结
  18. 一个 iPod touch 用户的魅族 M8 使用体验
  19. 知名歌手育有私生子,非婚生子女权益如何保护?
  20. Google - Pagerank

热门文章

  1. 手把手教你如何安装水晶易表——靠谱的安装教程
  2. 如何关闭笔记本电脑触摸板功能
  3. Blow Up 3macOS图片放大锐利的详细使用教程与安装方法
  4. 如何将手机里的PDF文件转换成Word文档
  5. 【软考信息系统项目管理师】必背重点之信息化和信息系统
  6. qq影音4.0 android,QQ影音4.0官方最新正式版
  7. JavaFX.控件讲解
  8. LUA学习--Hotfix
  9. .NET前后分离解决方案
  10. 初中英语语法(015)-附加疑问句