python爬虫练习--爬取猫眼top100电影信息

#! /usr/bin/env python
# coding: utf-8
#环境要求：python3
#抓取猫眼电影top100
'''
抓取的目标网站为：http://maoyan.com/board/4
页面中显示的有效信息有影片名称、主演、上映时间、上映地区、评分、图片等信息
点击下一页发现url会变成http://maoyan.com/board/4?offset=30，主要增加了offset参数，
且规律是0，10，20，30
'''import json
import requests
from requests.exceptions import RequestException
import re
import time#抓取首页
def get_one_page(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef parse_one_page(html):pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)items = re.findall(pattern, html)for item in items:yield {'index': item[0],'image': item[1],'title': item[2],'actor': item[3].strip()[3:],'time': item[4].strip()[5:],'score': item[5] + item[6]}def write_to_file(content):with open('result.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + '\n')def main(offset):url = 'http://maoyan.com/board/4?offset=' + str(offset)html = get_one_page(url)for item in parse_one_page(html):print(item)write_to_file(item)if __name__ == '__main__':for i in range(10):main(offset=i * 10)time.sleep(1)

转载于:https://www.cnblogs.com/watchslowly/p/9122486.html

python爬虫练习--爬取猫眼top100电影信息相关推荐

python爬虫：爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
Jupyter notebook爬取猫眼top100电影信息（Xpath）
文章目录 Jupyter notebook 简介代码 Jupyter notebook 简介基于网页交互式运算的应用程序,可以在网页上编写和执行代码.本文将使用Xpath方法获取信息. 代码导入 ...
Python爬虫项目--爬取某宝男装信息
本次爬取用到的知识点有: 1. selenium 2. pymysql 3 pyquery ''' 文章:Python爬虫项目--爬取某宝男装信息作者:Star_Zhao 源自:https://w ...
python爬虫实战--爬取猫眼专业版-实时票房
小白级别的爬虫入门最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前我们先来看看猫眼专业版- ...
python爬虫之--爬取当当网商品信息
python爬虫之--爬取当当网图商品信息 ...
python爬虫，爬取猫眼电影1（正则表达式）
本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...
【Python爬虫】爬取猫眼电影排行榜并存放至csv文件
在进行本节实战之前,希望您对requests库以及正则表达式有所了解. 运行平台:windows **Python版本: Python3.x ** 一.依赖库的安装在本节实战之前,请确保已经正确安装 ...
【Python爬虫】爬取猫眼电影票房
题记本文旨在记录爬取猫眼电影国内票房榜单的过程,以及对脚本内字体文件反爬函数的说明. 环境系统: Windows 10 Python版本: Python 3.7 爬取时间: 2019.3.19 难 ...
Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息
爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影之后点击菜单栏的榜单并在下面选择 TOP100榜接着右击检查并刷新界面,在Network中找到4 ...

python爬虫练习--爬取猫眼top100电影信息

python爬虫练习--爬取猫眼top100电影信息相关推荐

最新文章

热门文章