目标网站:电影票房网

目标网址:http://58921.com/daily/wangpiao

目标数据:(1)名次(2)电影名称 (3)日期(4)票房 (5)总场次(6)废场(7)人次(8)上座率(9)票价

任务要求

(1)使用urllib或requests库实现该网站网页源代码的获取,并将源代码进行保存;

(2)自主选择re、bs4、lxml中的一种解析方法对保存的的源代码读取并进行解析,成功找到目标数据所在的特定标签,进行网页结构的解析;

(3)定义函数,将获取的目标数据保存到csv文件中。

(4)使用框架式结构,通过参数传递实现整个特定数据的爬取。

下面展示一些 内联代码片


import requests
from bs4 import BeautifulSoup
import bs4
import csvdef getHTMLText(url):headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}try:r = requests.get(url, headers=headers)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept RequestException as e:print('error', e)def fillUnivList(ulist, url):soup = BeautifulSoup(url, 'html.parser')for tr in soup.find('tbody').children:if isinstance(tr, bs4.element.Tag):tds = tr('td')//票房一列为图片,tds[3]没有数据ulist.append([tds[0].contents[0],tds[1].string,tds[2].string,tds[4].string,tds[5].string,tds[6].string,tds[7].string,tds[8].string])  def printHtml_csv(ulist):with open('D:\data.csv','w',encoding='utf-8-sig',newline='') as csvfile:fieldnames=['名次','电影名称','日期','总场次','废场','人次','上座率','票价']writer=csv.DictWriter(csvfile,fieldnames=fieldnames)writer.writeheader()for i in ulist:writer.writerow({'名次':i[0],'电影名称':i[1],'日期':i[2],'总场次':i[3],'废场':i[4],'人次':i[5],'上座率':i[6],'票价':i[7]})def main():uinfo=[]for i in range(11):urls={"http://58921.com/daily/wangpiao?page= "+ str(i)}#print(urls)for url in urls:html=getHTMLText(url)fillUnivList(uinfo,html)printHtml_csv(uinfo)main()

运行截图

python爬取电影票房网并保存csv相关推荐

  1. python翻页爬取电影天堂网电影的磁力链接

    python翻页爬取电影天堂网电影的磁力链接 案例目的: 介绍如何通过首页的url提取详情页的url以及如何通过xpath语法提取详情页的数据. 代码功能: 输入要爬取的页数,自动保存电影的名称以及对 ...

  2. Python爬取不羞涩网小姐姐图片——BeautifulSoup应用

    引言 今年提倡原地过年,相信很多朋友都没有回家过年,像我就被迫留在深圳过年了,无聊之余只能去看看电影爬爬山.今天给大家带来一个打发无聊时光的案例,用Python爬取不羞涩网小姐姐图片,并保存到本地,老 ...

  3. 用python输出所有的玫瑰花数_用Python爬取WordPress官网所有插件

    转自丘壑博客,转载注明出处 前言 只要是用WordPress的人或多或少都会装几个插件,可以用来丰富扩展WordPress的各种功能.围绕WordPress平台的插件和主题已经建立了一个独特的经济生态 ...

  4. python爬房源信息_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  5. python爬取千图网_python爬取lol官网英雄图片代码

    python爬取lol官网英雄图片代码可以帮助用户对英雄联盟官网平台的皮肤图片进行抓取,有很多喜欢lol的玩家们想要官方的英雄图片当作自己的背景或者头像,可以使用这款软件为你爬取图片资源,操作很简单, ...

  6. python爬取链家网的房屋数据

    python爬取链家网的房屋数据 爬取内容 爬取源网站 爬取内容 爬取思路 爬取的数据 代码 获取房屋url 获取房屋具体信息 爬取内容 爬取源网站 北京二手房 https://bj.lianjia. ...

  7. Python 爬取电影天堂top最新电影

    Python爬虫有他无可比拟的优势:语法简单,经常几十行代码就能轻松解决问题,相比于JAVA,C,PHP;第三方库丰富,Python强大而又丰富的第三方库使他几乎可以无所不能.今天我们就来用用Pyth ...

  8. python爬取电影天堂的下载链接

    python爬取电影天堂dytt8的下载链接 电影天堂下载链接都是magnet的,搞下来想下就下没有广告 建一个main.py 一个一个挨着去爬肯定慢啊,建一个多线程的去爬 mui.py 多线程有可能 ...

  9. 使用python爬取喜马拉雅音频数据并保存

    ** 使用python爬取喜马拉雅音频数据并保存 ** 1.进入喜马拉雅官网,打开要爬取的项目网页,按F12=>F5后进行清空,点击项目网页中播放按钮,出现如下图点击,查找网页的url,获取到网 ...

  10. python 爬取链家数据_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

最新文章

  1. android 启动其它apk
  2. wxPython 笔记(3)基本结构
  3. 在Centos 7 上跑 vue 项目 以及 Vue 热更新失效
  4. C 语言 int 型乘法溢出问题
  5. 前端获取当前url路径
  6. android中activity布局,Activity布局初步(一)
  7. ASP.NET状态管理之十三(总结)
  8. 找到MySQL服务器发生SWAP罪魁祸首
  9. gtp怎么安装系统_UEFI+GTP模式下使用GHO文件安装WIN7或WIN8图文教程
  10. access升级mysql_将现有的Access数据库升级为SQL
  11. Ubuntu源码安装Nginx
  12. WCF分布式开发常见错误解决(1):添加服务引用出错
  13. tcp 测试工具 android,安卓版手机tcp调试助手
  14. CodeSniffer使用教程
  15. 谭谭牛顿的牛眼之人眼是红外线成像仪谭
  16. 学习ROS初始遇到的各种问题及解决方法
  17. “大姨吗”创始人柴可:“慢就是快”
  18. navicat premium注册码+软件
  19. Blender全新开源动画短片官方灯光渲染教程,文末附高清参数截图+专家级灯光渲染建议
  20. 大学计算机教案封面模板,大学教案模板可打印.doc

热门文章

  1. 离境收心,入于虚无。
  2. Azido-TAT,大环化合物,双功能螯合剂的性质
  3. 蜡笔小新钢达姆机器人_《蜡笔小新》当中出现的组合,小伙伴们最喜欢谁?
  4. Macsome Tidal Music Downloader for Mac(Tidal音乐下载器)
  5. 从零开始学GIMP:一.从基本图形开始
  6. ※设计模式※→☆创建型模式☆============Builder模式(五)
  7. 互联网应用基础第五课:互联网即时通讯工具之QQ和微信的使用、淘宝客理解
  8. 真的明白Code、RO-data、RW-data和ZI-data吗?
  9. spring读取外部文件+SpEL
  10. 完美解决Python 发送邮件126,136,QQ等,都会报•554 DT:SPM 发送的邮件内容包含了未被许可的信息,或被系统识别为垃圾邮件。请检查是否有用户发送病毒或者垃圾邮件