爬取页面:
【2016年国内公映电影排期】

#!/usr/bin/env python
# -*- coding=utf-8 -*-import urllib.request
import re
import time
import os
from bs4 import BeautifulSoup
def get_html(url):  #通过url获取网页内容result = urllib.request.urlopen(url)return result.read()# save_file(result.read(), 'thefile.txt')
def get_movie_all(html):     #通过soup提取到每个电影的全部信息,以list返回soup = BeautifulSoup(html,'html.parser')movie_list = soup.find_all('div', class_='bd doulist-subject')return movie_list
def get_one_movie(movie):result = []  # 用于存储提取出来的电影信息soup_all = BeautifulSoup(str(movie), 'html.parser')title = soup_all.find_all('div', class_='title')soup_title = BeautifulSoup(str(title[0]), 'html.parser')for line in soup_title.stripped_strings:  # 对获取到的<a>里的内容进行提取result.append(line)# num = soup_all.find_all('span', class_='rating_nums')# 加入电影评分num = soup_all.find_all('span')result.append(num[1].string)# 加入abstractinfo = soup_all.find_all('div', class_='abstract')soup_info = BeautifulSoup(str(info[0]), 'html.parser')result_str = ""for line in soup_info.stripped_strings:  # 对获取到的<div>里的内容进行提取result_str = result_str +" "+ lineresult.append(result_str)return result  # 返回获取到的结果def save(text,file_name):with open(file_name,'ab') as f:texts = str.encode(text)f.write(texts)if __name__=='__main__':url = 'https://www.douban.com/doulist/3516235/?start=0&sort=seq&sub_type='html = get_html(url)movie_list = get_movie_all(html)for movie in movie_list:result = get_one_movie(movie)text = '电影名:'+result[0]+'   '+'评分:'+result[1]+'    '+result[2]+'\n'save(text,'movie.txt')

只爬取了第一页的内容,参考这位大神的代码
毕竟小白开始学习是要从模仿开始的嘛~~思路懂了又自己敲了一遍。
慢慢来吧,相信自己不是废物┭┮﹏┭┮
相关待看
豆瓣电影TOP250爬取

小菜鸟的第一个爬虫:豆瓣爬取电影信息相关推荐

  1. 菜鸟Python实战-03爬虫之爬取数据

    最近想学习一下爬虫 所以参考了一下网上的代码,并加以理解和整理,好记性不如烂笔头吧. 以下代码的目标网站是豆瓣电影:https://movie.douban.com/top250?start=%22( ...

  2. python3爬虫:爬取电影天堂电影信息

    python3爬虫:爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 #爬取电影天堂电影信息 from lxml import etree import requestsBASE_ ...

  3. Node.js 爬虫爬取电影信息

    Node.js 爬虫爬取电影信息 本文地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影网的信息 ...

  4. python爬取电影信息并插入至MySQL数据库

    在上篇博文中,博主使用python爬取了豆瓣电影的影片信息,接下来,博主考虑到在之前做的JavaWeb电影院项目中需要向数据库中一个个的插入影片数据,十分的繁琐,那么在使用了python爬虫后,这个操 ...

  5. 第三课、《爬取电影信息》

    <爬取电影信息> 1.准备工作 2.分析网页 1.打开网页 2.选取2019年的电影并分析其网页链接 3.分析ajax包的链接 (1)查看ajax包是否内容正确 (2)分析ajax包的链接 ...

  6. 爬虫入门案例——爬取电影信息

    综述:先介绍开发环境,在介绍从豆瓣电影上面爬取电影的电影名称,电影信息,电影剧照等信息,最终效果是以电影名称为文件夹名,文件夹包含一个txt文件和许多张剧照.如下图所示1是电影名,2是电影信息,3是各 ...

  7. python实战-HTML形式爬虫-批量爬取电影下载链接

    文章目录 一.前言 二.思路 1.网站返回内容 2.url分页结构 3.子页面访问形式 4.多种下载链接判断 三.具体代码的实现 四.总结 一.前言   喜欢看片的小伙伴,肯定想打造属于自己的私人影院 ...

  8. Python爬虫之爬取车票信息

    Python爬虫之爬取所有火车站的站台信息 前面我写过一篇关于火车站站台的查询,这篇基于站台的查询写火车车票余额信息查询-- 一.信息获取: 获取请求地址: 在浏览器菜单中找到Web开发者模式,打开网 ...

  9. 基于SpringBoot框架Wbe Magic爬虫框架爬取招聘信息项目(1)

    涉及的技术点:SpringBoot框架.Web Magic爬⾍框架.MySQL.mybatis. 使用语言:Java. 使用工具:idea. 本篇文章主要讲解搭建项目 以及 如何将页面数据输出打印到i ...

最新文章

  1. Caffe框架GPU与MLU计算结果不一致请问如何调试?
  2. Python3远程监控程序实现
  3. 使用谷歌身份验证器增强SSH安全
  4. 电脑服务器注册表,电脑注册表怎么清理 服务器安全狗清理注册表教程
  5. [转]c++类的构造函数详解
  6. jquery对象和DOM对象的相互转换详解
  7. MySQL CookBook 学习笔记-01
  8. 【BZOJ4300】绝世好题,位运算相关DP
  9. Silverlight Telerik控件学习:主题Theme切换
  10. Xcode引入了第三方的类库之后真机调试提示莫名其妙的错误
  11. SpringMVC(六) RequestMapping 路径中ant风格的通配符
  12. h264解码延迟优化_JEET Air Plus:延迟优化技术,让你游戏不掉线
  13. [NLP]OpenNLP Maven工程的依赖
  14. python-学生管理系统--3删除学生信息功能
  15. 一文学会如何使用工厂模式
  16. 图解Navicat连接、操作数据库
  17. 有意思的教程:July, 2018
  18. 鸿蒙pc系统镜像,鸿蒙系统有pc版么_鸿蒙系统有pc版安装方法
  19. 用技术支点撬开“掘金池”,多多云能否成为中国版VMWare?
  20. 微信朋友圈点赞设计测试用例

热门文章

  1. Firefox是如何将一手好牌打得稀烂的?
  2. vue ie报错:SCRIPT5022: [vuex] vuex requires a Promise polyfill in this browser.
  3. 英语口语247之每日十句口语
  4. 计算机专业硕士学制,计算机研究生学制
  5. GND RXD TXD的说明
  6. 好文:华杉:我等用功,不求日增,但求日减。减一分人欲,则增一分天理,这是何等简易!何等洒脱!...
  7. 一千瓶酒有一瓶酒有毒药,问你最少用多少只老鼠可以找出那瓶毒酒? 老鼠毒发的时间在两小时内,要求在两个小时内找出毒酒。
  8. 谈谈我的佛系增长之道
  9. 蓝桥杯基础练习---特殊数字
  10. VBA+ADO查询ACCESS数据库