""""""
'''
爬取豆瓣电影信息:电影排名、电影名称、电影url、电影导演电影主演、电影年份、电影类型电影评分、电影评论、电影简介1、分析所有主页的url
第一页:
https://movie.douban.com/top250?start=0&filter=
第二页:
https://movie.douban.com/top250?start=25&filter=
第三页:
https://movie.douban.com/top250?start=50&filter='''
import requests
import re
# 爬虫三部曲
# 1、发送请求
def get_page(url):response = requests.get(url)# print(response.text)return response# 2、解析数据
def parse_index(html):'''''''''电影排名、电影url、电影名称、电影导演、电影主演电影年份/电影类型、电影评分、电影评论、电影简介<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span><div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>'''movie_list = re.findall('<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>',html,re.S)return movie_list# 3、保存数据
def save_data(movie):# 电影排名、电影url、电影名称、电影导演、电影主演# 电影年份 / 电影类型、电影评分、电影评论、电影简介
    top, m_url, name, daoyan, actor, year_type, \point, commit, desc = movieyear_type = year_type.strip('\n')data = f'''======== 欢迎观赏 ========电影排名:{top}电影url:{m_url}电影名称:{name}电影导演:{daoyan}电影主演:{actor}年份类型:{year_type}电影评分:{point}电影评论:{commit}电影简介:{desc}======== 下次再来哟 ========\n\n'''print(data)with open('douban_top250.txt', 'a', encoding='utf-8') as f:f.write(data)print(f'电影: {name} 写入成功...')if __name__ == '__main__':# 拼接所有主页num = 0for line in range(10):url = f'https://movie.douban.com/top250?start={num}&filter='num += 25print(url)# 1.往每个主页发送请求index_res = get_page(url)# 2.解析主页获取电影信息movie_list = parse_index(index_res.text)for movie in movie_list:# print(movie)# 3.保存数据save_data(movie)

转载于:https://www.cnblogs.com/jiangbaoyabo/p/11121863.html

day02.1 爬取豆瓣网电影信息相关推荐

  1. python爬取豆瓣电影信息_Python|简单爬取豆瓣网电影信息

    前言: 在掌握一些基础的爬虫知识后,就可以尝试做一些简单的爬虫来练一练手.今天要做的是利用xpath库来进行简单的数据的爬取.我们爬取的目标是电影的名字.导演和演员的信息.评分和url地址. 准备环境 ...

  2. Python|简单爬取豆瓣网电影信息

    欢迎点击「算法与编程之美」↑关注我们! 本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 欢迎加入团队圈子!与作者面对面!直接点击! 前言: 在掌握一些 ...

  3. 003.[python学习] 简单抓取豆瓣网电影信息程序

    003.[python学习] 简单抓取豆瓣网电影信息程序 声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和 ...

  4. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  5. python采用requests+bs4爬取豆瓣top250电影信息

    爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...

  6. scrapy爬取豆瓣所有电影信息(新手入门超详细版)

    本次小实验目标就是爬取豆瓣所有的电影,我们以豆瓣的分类页(https://movie.douban.com/tag/#/)作为start_urls,首要任务就是分析当前页面是否为动态加载,何为js动态 ...

  7. day02:requests爬取豆瓣电影信息

    一.requests爬取豆瓣电影信息 -请求url: https://movie.douban.com/top250 -请求方式: get -请求头: user-agent cookies二.sele ...

  8. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  9. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)

    今天我们来爬取一下豆瓣网上排名前250的电影. 需求:爬取豆瓣网上排名前250的电影,然后将结果保存至一个记事本里. 开发环境: python3.9 pycharm2021专业版 我们先观察网页,看看 ...

  10. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

最新文章

  1. 给求职的同学的几点建议
  2. 实战SSM_O2O商铺_23【商铺列表】Controller层开发
  3. struts2教程(8)--文件上传下载
  4. 永洪Desktop安装——windows版
  5. spring 注释的作用_Spring的@Primary注释在起作用
  6. django-rest-swagger显示接口备注内容
  7. google浏览器不能登录
  8. 对样式overflow的学习
  9. 男人的爱只有一次----女孩你珍惜了吗
  10. 浏览器下载大文件时下载完成但大小对不上
  11. 简单有限元分析技术(详细步骤讲解)
  12. 前端实现在线预览pdf、word、xls、ppt等文件
  13. 十几次CATIA安装重装系统吐血问题总结
  14. 2068个开源的网站模板
  15. R语言:Newton法、似然函数
  16. iOS小技能:金额格式处理 (货币符号本地化)
  17. java中画幅相机推荐_中画幅数码相机推荐
  18. SSM项目使用Mybatis通用mapper插件tk.mybatis的用法
  19. 如何做好任务管理,手把手教你怎么做最高效的任务管理
  20. 为什么要研究大数据?

热门文章

  1. java 学习笔记之AtomicInteger类的使用
  2. MFC之添加PNG,JPG图片
  3. oracle 相关1
  4. ExtJs + Struts2 + JSON 程序总结
  5. 缺少训练样本怎么做实体识别?小样本下的NER解决方法汇总
  6. EMNLP'21 Oral | 拓展你的视野!UCLA提出:地区多样性视觉常识推理
  7. 川大NLP博士生被华为以200万年薪录用!分享以下科研及论文写作经验
  8. CS224N笔记(十):问答系统
  9. pytorch 基于sqs2sqs的中文聊天机器人
  10. 《MYSQL必知必会》—2.MySQL简介