利用爬虫获取猫眼电影热门前100数据

实现方法	1:访问网站，获取页面源码
	2:解析页面，得到想要的数据
	3:循环爬取多个页面
	4:把数据写入本地文件

'''
需求：爬取猫眼电影前100的电影信息
实现方法:访问网站，获取页面源码解析页面，得到想要的数据循环爬取多个页面把数据写入本地文件
'''
import requests
from requests.exceptions import RequestException
import re
import json
import vthread
#定义获取单页响应函数
def get_one_page(url):try:headers = {'User-Agent':'Mozilla/5.0'}response = requests.get(url,headers = headers)# 判断是否正常访问if response.status_code == 200:return response.textreturn Noneexcept RequestException:return None
#定义单页正则表达式函数
def regular_one_page(html, regular_method=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>',re.S)):istr = re.findall(regular_method,html)
#    print(istr)for istr1 in istr:yield{'index': istr1[0],'title': istr1[2],'pic':istr1[1],'star':istr1[3].strip()[3:],#strip 分割字符'itime':istr1[4],'score':istr1[5]+istr1[6]}
#定义写入文件函数
def write_to_file(content):with open('MaoYanTop100.txt','a',encoding='utf-8') as f:f.write(json.dumps(content,ensure_ascii=False)+'\n')#将字典数据写入     encoding与ensure_ascii=False中文f.close()
#主函数
def main(offset):url = 'https://maoyan.com/board/4?offset=' + str(offset)
#    print(url)html = get_one_page(url)regular_one_page(html)for istr1 in regular_one_page(html):print(istr1)write_to_file(istr1)
if __name__ == '__main__':for i in range(10):main(i*10)

利用爬虫获取猫眼电影热门前100数据相关推荐

爬虫（2）-解析库xpath和beautifulsoup爬取猫眼电影排行榜前100部电影
解析库爬取猫眼电影前100部电影认为有用的话请点赞,码字不易,谢谢. 其他爬虫实战请查看:https://blog.csdn.net/qq_42754919/category_10354544.ht ...
爬虫（1）-正则化表达式爬取猫眼电影排行榜前100部电影
爬取猫眼电影排行榜前100部电影文章目录爬取猫眼电影排行榜前100部电影 1.抓取首页 2.正则化表达式提取信息 3.保存到文件中 4.抓取前100部电影认为有用的话请点赞,码字不易,谢谢. 其 ...
【JAVA爬虫】爬取猫眼电影TOP100并将数据存入数据库
前几天的简单写了个利用JSOUP进行JAVA爬虫,里面有谈到后续版本会更新数据库操作,所以这次来更新了. 版本更新此次的版本里数据爬取部分新增了[电影主演-star]和[电影评分-score]部分, ...
Python语言实现用requests和正则表达式方法爬取猫眼电影排行榜前100部电影
#爬取猫眼电影排名前100的电影 import requests #电脑向服务器发送的请求库 from requests.exceptions import RequestException impo ...
python爬虫实战——猫眼电影案例
python爬虫实战--猫眼电影案例 ·背景笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信 ...
获取猫眼电影所有城市信息
获取猫眼电影所有城市信息做一个关于猫眼电影的爬虫要查看全国的分布,就必须第一步先拿到所有的影院所在城市信息.这个下拉列表不算太好解决,如果只是用requests的话,这里用selenium. 更新: ...
爬虫获取微博首页热搜
爬虫获取微博首页热搜步骤: 打开微博首页 https://s.weibo.com/top/summary? 右键点击检查,分析静态网页将爬取到的内容保存为csv文件格式需要导入的库 import ...
获取猫眼电影所有城市信息2
获取猫眼电影所有城市信息2 感谢 https://blog.csdn.net/weixin_39416561 这位老哥的点拨,让我学会新方法来获取隐藏在js里的信息,学习学习. https://blo ...
爬取猫眼电影网前100的电影排名
爬取猫眼电影网前100的电影排名猫眼电影网:http://maoyan.com/board/4 确定要爬取的数据: 1:排名 2:电影名称 3:主演 4:上映舌尖 5:评分构造下一页url 首页: ...

利用爬虫获取猫眼电影热门前100数据

利用爬虫获取猫眼电影热门前100数据

利用爬虫获取猫眼电影热门前100数据相关推荐

最新文章

热门文章