爬虫入门一

一直很想学习一下爬虫,今天忙里偷闲看了一篇教程博客之后开始入门学习,很感谢教程作者的讲解与分享,文末附教程博客链接。

BeautifulSoup解析豆瓣即将上映的电影信息

python代码:
import requests
from bs4 import BeautifulSoup
#1-1.先保存到文件,再进行解析
#1-1-1.获取网页信息保存到文件的过程
#url = "https://movie.douban.com/cinema/later/chengdu/"
#response = requests.get(url)
#file_obj = open('douban.html','w',encoding="utf-8")
#file_obj.write(response.content.decode('utf-8'))
#file_obj.close()
#1-1-2.从文件获取信息的过程
#file_obj = open('douban.html','r', encoding="utf-8")
#html = file_obj.read()
#file_obj.close()
#1-1-3.初始化BeautifulSoup,解析网页
#soup = BeautifulSoup(html, 'lxml')
#print(soup.find)#1-2.直接抓取、解析
url = "https://movie.douban.com/cinema/later/chengdu/"
response = requests.get(url)
soup = BeautifulSoup(response.content.decode('utf-8'), 'lxml')
#2.获取并分析元素
all_movies = soup.find('div', id = "showing-soon")
#3.展示有用信息
for each_movie in all_movies.find_all('div', class_ = "item"):#print(each_movie)all_a_tag = each_movie.find_all('a')all_li_tag = each_movie.find_all('li')movie_name = all_a_tag[1].textmovie_href = all_a_tag[1]['href']movie_date = all_li_tag[0].textmovie_type = all_li_tag[1].textmovie_area = all_li_tag[2].textmovie_lovers = all_li_tag[3].textprint('电影名:{},电影链接:{},放映日期:{},电影类型:{},上映地区:{},想看的人数:{}'.format(movie_name,movie_href,movie_date,movie_type,movie_area,movie_lovers))
输出:


附上学习链接:
爬虫入门教程⑧— BeautifulSoup解析豆瓣即将上映的电影信息.

爬虫入门一:BeautifulSoup解析豆瓣即将上映的电影信息相关推荐

  1. 爬虫入门教程⑧— BeautifulSoup解析豆瓣即将上映的电影信息

    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...

  2. BeautifulSoup解析豆瓣即将上映的电影信息

    工欲善其事,必先利其器,我们首先得了解beautifulsoup的使用,这其实是一个比较简单的东西   BeautifulSoup的基本使用语法规则 .find() 使用示例 soup.find('a ...

  3. python怎么爬取电影海报_python爬虫之通过BeautifulSoup获取豆瓣最新上映电影的海报...

    0.目录 1.分析页面 2.初步代码 3.完整代码 4.总结 5.补充 1.分析页面 上一次我们讲了xpath获取豆瓣最新上映电影的海报,这一次会分析如何使用BeautifulSoup获取.启程:py ...

  4. 利用python 爬取豆瓣即将上映的电影

    仅学习交流 Upcoming.py import re import requests from doubanapi import findmovie from bs4 import Beautifu ...

  5. 豆瓣即将上映电影爬虫作业

    https://study.163.com/course/courseLearn.htm?courseId=1005913008#/learn/text?lessonId=1053258283& ...

  6. python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己

    本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程 爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...

  7. 爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录

    首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看 在这里我们可以看到即将上映的电影不多呀,先试试这个吧- 右键检查,打开开发者模式 此时点击NETWORK选项是 ...

  8. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

  9. python爬取豆瓣网即将上映的电影,数据信息存储到json文件

    1,import库的安装,在我其它博文中有:获取豆瓣网即将上映的网页信息即HTML页面. 2,解析获取到的网页的数据信息 3将获取到的数据信息,放到json文件 4,主程序

最新文章

  1. git 换行问题_后端必备的 Git 分支开发规范指南
  2. python中循环结构关键字_Python的循环结构,也简单!
  3. datatables插件AJAX请求数据报错Uncaught TypeError: Cannot read property ‘length‘ of undefined
  4. URI概念的简单介绍
  5. 图解JavaScript原型链继承
  6. 【程序员薪资】2021年04月新鲜出炉,看看你拖后腿了吗?
  7. oracle虚拟机配置,虚拟机安装和配置Oracle PDF 下载
  8. 二叉树的几种遍历方法
  9. 浏览器端的九种缓存机制介绍
  10. python全文检索框架_全文检索框架haystack和搜索引擎whoosh的使用
  11. 字典:python的基础数据类型
  12. 计算机毕设 SpringBoot+Vue旧物置换系统 旧物交易管理系统 旧物二手交易系统Java Vue MySQL数据库 远程调试 代码讲解
  13. 使用maven官方仓库直接下载项目需要的jar包方法
  14. 浅谈人工智能 | 语音识别面面观
  15. 安装Pytorch-gpu版本(第一次安装 或 已经安装Pytorch-cpu版本后)
  16. 4和2大于号小于号箭头那边_‘’口诀化‘’教学之二――大于号和小于号
  17. 央视力荐的这套书,让5岁孩子看漫画,秒懂物理,学习早“开窍”!
  18. php获取图片rgb值,判断图片是否纯黑纯白
  19. 关于HTTP中的数据协商
  20. UI开发第一篇——android的九宫格式实现

热门文章

  1. C++11多线程,thread库; mutex类,成员函数lock(), unlock();unique_lock<mutex>模板类
  2. 可怜了,这帮苦逼的人肉运维,还有...
  3. 学历和专业对程序员找工作很重要吗?
  4. SAP成都研究院小伙伴们2018~2019两年间的179篇原创文章合集
  5. 团队建设与高效管理--3(九型人格)
  6. 「新世相」都写过什么题材?如何通过数据挖掘写作题材
  7. 判断用户关闭浏览器-beforeunload事件
  8. Perl:化繁为简 (转载)
  9. 菜鸟记录之JDK1.8十大新特性
  10. Databuscanal对比