利用爬虫获取猫眼电影热门前100数据

实现方法 1:访问网站,获取页面源码
2:解析页面 ,得到想要的数据
3:循环爬取多个页面
4:把数据写入本地文件
'''
需求:爬取猫眼电影前100的电影信息
实现方法:访问网站,获取页面源码解析页面,得到想要的数据循环爬取多个页面把数据写入本地文件
'''
import requests
from requests.exceptions import RequestException
import re
import json
import vthread
#定义获取单页响应函数
def get_one_page(url):try:headers = {'User-Agent':'Mozilla/5.0'}response = requests.get(url,headers = headers)# 判断是否正常访问if response.status_code == 200:return response.textreturn Noneexcept RequestException:return None
#定义单页正则表达式函数
def regular_one_page(html, regular_method=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>',re.S)):istr = re.findall(regular_method,html)
#    print(istr)for istr1 in istr:yield{'index': istr1[0],'title': istr1[2],'pic':istr1[1],'star':istr1[3].strip()[3:],#strip 分割字符'itime':istr1[4],'score':istr1[5]+istr1[6]}
#定义写入文件函数
def write_to_file(content):with open('MaoYanTop100.txt','a',encoding='utf-8') as f:f.write(json.dumps(content,ensure_ascii=False)+'\n')#将字典数据写入     encoding与ensure_ascii=False中文f.close()
#主函数
def main(offset):url = 'https://maoyan.com/board/4?offset=' + str(offset)
#    print(url)html = get_one_page(url)regular_one_page(html)for istr1 in regular_one_page(html):print(istr1)write_to_file(istr1)
if __name__ == '__main__':for i in range(10):main(i*10)

利用爬虫获取猫眼电影热门前100数据相关推荐

  1. 爬虫(2)-解析库xpath和beautifulsoup爬取猫眼电影排行榜前100部电影

    解析库爬取猫眼电影前100部电影 认为有用的话请点赞,码字不易,谢谢. 其他爬虫实战请查看:https://blog.csdn.net/qq_42754919/category_10354544.ht ...

  2. 爬虫(1)-正则化表达式爬取猫眼电影排行榜前100部电影

    爬取猫眼电影排行榜前100部电影 文章目录 爬取猫眼电影排行榜前100部电影 1.抓取首页 2.正则化表达式提取信息 3.保存到文件中 4.抓取前100部电影 认为有用的话请点赞,码字不易,谢谢. 其 ...

  3. 【JAVA爬虫】爬取猫眼电影TOP100并将数据存入数据库

    前几天的简单写了个利用JSOUP进行JAVA爬虫,里面有谈到后续版本会更新数据库操作,所以这次来更新了. 版本更新 此次的版本里数据爬取部分新增了[电影主演-star]和[电影评分-score]部分, ...

  4. Python语言实现用requests和正则表达式方法爬取猫眼电影排行榜前100部电影

    #爬取猫眼电影排名前100的电影 import requests #电脑向服务器发送的请求库 from requests.exceptions import RequestException impo ...

  5. python爬虫实战——猫眼电影案例

    python爬虫实战--猫眼电影案例 ·背景   笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信 ...

  6. 获取猫眼电影所有城市信息

    获取猫眼电影所有城市信息 做一个关于猫眼电影的爬虫要查看全国的分布,就必须第一步先拿到所有的影院所在城市信息.这个下拉列表不算太好解决,如果只是用requests的话,这里用selenium. 更新: ...

  7. 爬虫获取微博首页热搜

    爬虫获取微博首页热搜 步骤: 打开微博首页 https://s.weibo.com/top/summary? 右键点击检查,分析静态网页 将爬取到的内容保存为csv文件格式 需要导入的库 import ...

  8. 获取猫眼电影所有城市信息2

    获取猫眼电影所有城市信息2 感谢 https://blog.csdn.net/weixin_39416561 这位老哥的点拨,让我学会新方法来获取隐藏在js里的信息,学习学习. https://blo ...

  9. 爬取猫眼电影网前100的电影排名

    爬取猫眼电影网前100的电影排名 猫眼电影网:http://maoyan.com/board/4 确定要爬取的数据: 1:排名 2:电影名称 3:主演 4:上映舌尖 5:评分 构造下一页url 首页: ...

最新文章

  1. Struts2下创建自定义类型转换器(表单中日期的处理)
  2. jQuery 插件格式 规范
  3. Reading privileged memory with a side-channel
  4. Serv-U FTP Jail Break(越权遍历目录、下载任意文件)
  5. 二叉树:你真的会翻转二叉树么?
  6. 如何查看centos系统版本以及配置信息
  7. 基于Booth算法的64位浮点乘法器的实现
  8. 小程序 房租水电费记录管理_长租公寓管理系统-智慧公寓小程序
  9. excel打不开_2016EXCEL表格打不开,提示格式与文件扩展名指定的格式不一致,这么做!...
  10. Audio Format
  11. FREERTOS打印错误prvTaskExitError,找原因是如下:
  12. Java - io输入输出流 --转换流
  13. Hadoop HA集群配置问题记录
  14. 63 Three.js 将多个网格合并成一个网格
  15. R语言中var的用法
  16. 2020-10-20 任务三(一) RTOS系统初识
  17. Linux内存管理之slab机制(创建slab)
  18. 前端需要了解的颜色模型,RGB、HSL和HSV
  19. 这届年轻人,怎么开始想着吃零食减肥了?
  20. Am335x 平台上GSM 3G/4G modem的一些硬件和软件的杂事

热门文章

  1. matlab中end的用法
  2. 中学计算机教材,中学信息技术课件跟教材.pdf
  3. 、曲线 3 x t 1 y t       在t  2处的切线方程与法线方程
  4. JSON技术的调研报告(四种常见的JSON格式对比及分析)
  5. 视觉中国签约插画图库上传失败 图片显示“缺少分辨率信息”
  6. 机器学习中常用的核函数
  7. Jitsi(SIP communicator)的环境部署和打包发布
  8. 全国最全乡镇边界面矢量、中国最全乡镇、街道级行政区划边界矢量数据-shp面数据-wgs84坐标数据分享
  9. Real Time Data Exchange (RTDE)Guide for 优傲机器人
  10. 古文观止卷七_桃花源記_陶淵明