python+requests抓取猫眼中上映电影,re正则匹配获取对应电影的排名,图片地址,片名,主演及上映时间和评分

import requests
import re, json
def get_html(url):"""获取网页html源码:return:"""user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " \"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"# 浏览器信息headers = {"User-Agent": user_agent}r = requests.get(url, headers=headers)  html = r.text# print(html)return htmldef parse_one_page(html):"""正则匹配需要内容:param html::return:"""# 排名+图片地址+主演+上映时间+评分pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)items = re.findall(pattern, html)for item in items:yield {"排名": item[0],"图片地址": item[1],"片名": item[2],"主演": item[3].strip()[3:],"上映时间": item[4].strip()[4:],"分数": item[5] + item[6]}# 数据存储def write_file(content):with open("result.txt", 'a+', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + "\n")def main():"""主函数:return:"""url = "http://maoyan.com/board/4"html = get_html(url)for item in parse_one_page(html):print(item)write_file(item)if __name__ == '__main__':main()

转载于:https://www.cnblogs.com/CesareZhang/p/11027772.html

python+requests+re匹配抓取猫眼上映电影信息相关推荐

  1. 抓取猫眼top100电影信息

    1. 在google浏览器中输入maoyan.com,  点击榜单top100. 2.观察分页路由,构造分页url = 'http://maoyan.com/board/4?offset=' + st ...

  2. 003.[python学习] 简单抓取豆瓣网电影信息程序

    003.[python学习] 简单抓取豆瓣网电影信息程序 声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和 ...

  3. 【Python】Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行

    本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...

  4. Requests与正则表达式抓取猫眼电影排行!

    本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...

  5. Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行

    本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...

  6. 通过python requests第三方库抓取淘宝商品名称和信息价格

    项目名称:淘宝爬虫之抓取商品标题和价格信息 任务背景: 公司要求提取各电商平台的咖啡机的价格信息,在淘宝开放平台找不到合适的API..获取价格就是为了产品定价,和将来打价格战. 实现用到的库:requ ...

  7. python爬虫练习--爬取猫眼top100电影信息

    #! /usr/bin/env python # coding: utf-8 #环境要求:python3 #抓取猫眼电影top100 ''' 抓取的目标网站为:http://maoyan.com/bo ...

  8. Python爬虫项目:抓取智联招聘信息

    来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版 该文件运行后会产生一个代码,保存在这个Pyth ...

  9. python找房源_python抓取链家房源信息(二)

    试着用scrapy将之前写的抓取链家网信息的重新写了写 然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了 类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...

最新文章

  1. 利用Libra进行机器学习和深度学习
  2. 10.07-Idea的使用
  3. Leetcode1702. 修改后的最大二进制字符串[C++题解]:思维题
  4. php多个 r n如何过滤,php怎么去掉r n
  5. Yum database disk image is malformed 错误
  6. Little Sub and Sequence
  7. resin php mysql_RedhatAS4.0上安装Apache2+PHP5+MySQL+Resin+SSL+GD+webalizer
  8. dojo/dom-class源码学习
  9. 系统集成j2cache
  10. 坐标系的旋转与欧拉角
  11. numpy手写NLP模型(四)———— RNN
  12. Java在手机平台上的Porting
  13. 个税汇算期,公司收到好多申诉,怎么办?
  14. java开发256g固态硬盘_256g固态硬盘有哪些
  15. 手动安装ceph和使用
  16. 怎样用比较器实现信号的衰减和饱和_【白皮书】利用信号调理提高测量质量(中)...
  17. 未能加载文件或程序集“office, Version=15.0.0.0, Culture=neutral, PublicKeyToken=71e9bce111e9429c”或它的某一个依赖项。拒绝访问
  18. 飞思卡尔XS128系列(三) PIT
  19. 微信小程序人工智能之添加学生信息
  20. 精读《素书》精彩语录及感悟篇(三)

热门文章

  1. NoHttpResponseException
  2. shell中break的使用案例
  3. 清理linux内存cache
  4. Python 的运算符
  5. 面试官问:上亿数据量下,Kafka是如何优化JVM GC问题的?
  6. 并不是所有的 Github 项目写在简历上都加分
  7. QMQ顺序消息设计与实现
  8. Java 8 开发的 4 大顶级技巧
  9. Spring 5 新增全新的reactive web框架:webflux
  10. String为什么是不可变类型?