文章目录

1. 利用 requests 库和正则表达式抓取猫眼电影 TOP100 的相关内容
- （1）[猫眼电影网址](https://maoyan.com/board/4?offset=0)如下，共10页。
- （2）定义get_one_page(url)方法，获取指定网页的源代码。
- （3）定义parse_one_page(html)方法，解析源代码，获取每条电影信息。
- （4）定义write_to_file(content)方法，将电影信息写入Excel文件中。
- （5）定义main(offset)方法，总合所有方法。
- （6）使用for循环遍历所有网址。

1. 利用 requests 库和正则表达式抓取猫眼电影 TOP100 的相关内容

（1）猫眼电影网址如下，共10页。

https://maoyan.com/board/4?offset=0
https://maoyan.com/board/4?offset=10
…
https://maoyan.com/board/4?offset=90

import re
import json
import time
import requests
from requests.exceptions import RequestException
#from fake_useragent import UserAgent

（2）定义get_one_page(url)方法，获取指定网页的源代码。

def get_one_page(url):"""发送请求，获取响应！:param url::return:"""try:headers = {'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'}response = requests.get(url,timeout=30, headers=headers)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return None

（3）定义parse_one_page(html)方法，解析源代码，获取每条电影信息。

def parse_one_page(html):"""利用正则表达式提取响应里的电影信息，并形成结构化数据！:param html::return:"""pattern = re.compile('<dd>''.*?board-index.*?>(.*?)</i>'#index'.*?data-src="(.*?)"'#image'.*?name.*?a.*?>(.*?)</a>'#title'.*?star.*?>(.*?)</p>'#主演'.*?releasetime.*?>(.*?)</p>'#上映时间'.*?integer.*?>(.*?)</i>'#评分 整数部分'.*?fraction.*?>(.*?)</i>'#评分 小数部分'.*?</dd>', re.S)items = re.findall(pattern, str(html))for item in items:yield {'index': item[0],'image': item[1],'title': item[2].strip(),'actor': item[3].strip()[3:] if len(item[3]) > 3 else '','time' : item[4].strip()[5:] if len(item[4]) > 5 else '','score': item[5].strip() + item[6].strip()}

（4）定义write_to_file(content)方法，将电影信息写入Excel文件中。

def write_to_file(content):"""存储数据，通过JSON库的dumps()方法实现字典的序列化，写入到一个文本文件！:param content::return:"""with open('result.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + ',\n')

（5）定义main(offset)方法，总合所有方法。

def main(offset):"""通过构造URL中的offset参数（偏移量值），实现TOP100十页数据的爬取！:param offset::return:"""url = "http://maoyan.com/board/4?offset=" + str(offset)html = get_one_page(url)for item in parse_one_page(html):print(item)write_to_file(item)

（6）使用for循环遍历所有网址。

if __name__ == '__main__':for i in range(9):main(offset=i * 10)time.sleep(5)

import re
import json
import time
import requests
from requests.exceptions import RequestException
#from fake_useragent import UserAgentdef get_one_page(url):"""发送请求，获取响应！:param url::return:"""try:headers = {'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'}response = requests.get(url,timeout=30, headers=headers)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef parse_one_page(html):"""利用正则表达式提取响应里的电影信息，并形成结构化数据！:param html::return:"""pattern = re.compile('<dd>.*?board-index.*?>(.*?)''</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)''</a>.*?star.*?>(.*?)''</p>.*?releasetime.*?>(.*?)''</p>.*?integer.*?>(.*?)''</i>.*?fraction.*?>(.*?)''</i>.*?</dd>',re.S)items = re.findall(pattern, str(html))for item in items:yield {'index': item[0],'image': item[1],'title': item[2].strip(),'actor': item[3].strip()[3:] if len(item[3]) > 3 else '','time' : item[4].strip()[5:] if len(item[4]) > 5 else '','score': item[5].strip() + item[6].strip()}def write_to_file(content):"""存储数据，通过JSON库的dumps()方法实现字典的序列化，写入到一个文本文件！:param content::return:"""with open('result.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + ',\n')def main(offset):"""通过构造URL中的offset参数（偏移量值），实现TOP100十页数据的爬取！:param offset::return:"""url = "http://maoyan.com/board/4?offset=" + str(offset)html = get_one_page(url)for item in parse_one_page(html):print(item)write_to_file(item)if __name__ == '__main__':for i in range(1):main(offset=i * 10)time.sleep(5)

import re
import time
import requests
from requests.exceptions import RequestException
import xlwings as xw
#from fake_useragent import UserAgentdef getHTML(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}response = requests.get(url,timeout=30, headers=headers)response.encoding = response.apparent_encodingif response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef findMaoyan(html):global mlistpattern = re.compile('<dd>''.*?board-index.*?>(.*?)</i>'#index'.*?data-src="(.*?)"'#image'.*?name.*?a.*?>(.*?)</a>'#title'.*?star.*?>(.*?)</p>'#主演'.*?releasetime.*?>(.*?)</p>'#上映时间'.*?integer.*?>(.*?)</i>'#评分 整数部分'.*?fraction.*?>(.*?)</i>'#评分 小数部分'.*?</dd>', re.S)items = re.findall(pattern,str(html))for item in items:mlist.append([item[0],#indexitem[1],#imageitem[2].strip(),#titleitem[3].strip()[3:] if len(item[3]) > 3 else '',#主演item[4].strip()[5:] if len(item[4]) > 5 else '',#上映时间item[5].strip() + item[6].strip()])#评分#print(mlist)return mlistdef main():global mlistmlist = [['index', 'image', 'title', '主演', '上映时间', '评分']]for i in range(10):url = "http://maoyan.com/board/4?offset=" + str(i*10)html = getHTML(url)findMaoyan(html)time.sleep(1)# 写入Excel文件wb = xw.Book()sht = wb.sheets('Sheet1')sht.range('a1').value = mlist  # 将数据添加到表格中if __name__ == '__main__':main()

Python 抓取猫眼电影TOP100数据相关推荐

Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)...
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
抓取猫眼电影实时数据
抓取猫眼电影实时数据我又回来了,guys!最近也是看到流浪地球,飞驰人生,疯狂的外星人的票房大卖,于是就想着利用python对猫眼做一下票房的数据统计.下面就开始我的表演: 环境: python3. ...
Python爬取猫眼电影TOP100榜
Python爬取猫眼电影TOP100榜兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...
抓取猫眼电影top100
一.目标运用requests+正则表达式爬取猫眼电影top100的电影图片.名称.时间.评分等信息,提取站点的url为"http://maoyan.com/board/4",提取 ...
python 爬取猫眼电影网站数据
完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/maoyan python 爬取 movie.douban.com 网站 ...
详解用爬虫批量抓取猫眼电影票房数据
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取.管理和处理. "大数据"首先是指数据体量(volume ...
python抓取猫眼电影评论，200多行代码，哈哈
先展示,结果,爬取保存的txt. 先把评论给抓下来,后面再做jieba云词分析,geo评论区域分布直接上接口api,不犯法吧.大家都知道~~~ http://m.maoyan.com/mmdb/c ...
抓取猫眼电影top100的正则、bs4、pyquery、xpath实现方法
import requests import re import json import time from bs4 import BeautifulSoup from pyquery import ...
python 抓取猫眼电影评分
目标网页完整代码: from selenium import webdriver from PIL import Image from io import BytesIO import time i ...

Python 抓取猫眼电影TOP100数据

文章目录

1. 利用 requests 库和正则表达式抓取猫眼电影 TOP100 的相关内容

（1）猫眼电影网址如下，共10页。

（2）定义get_one_page(url)方法，获取指定网页的源代码。

（3）定义parse_one_page(html)方法，解析源代码，获取每条电影信息。

（4）定义write_to_file(content)方法，将电影信息写入Excel文件中。

（5）定义main(offset)方法，总合所有方法。

（6）使用for循环遍历所有网址。

Python 抓取猫眼电影TOP100数据相关推荐

最新文章

热门文章