从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出。欢迎各位前来交流。(部分材料来源网络,若有侵权,立即删除)
本人博客所有文章纯属学习之用,不涉及商业利益。不合适引用,自当删除!
若被用于非法行为,与我本人无关
Python爬虫学习|实例练手|爬取百度翻译
- 情况说明
- 代码
情况说明
- 简简单单爬取就好了
- 正则匹配去除空格和换行符
- 还有就是访问频率过高会被ban,timesleep一下,或者整一个代理ip池就好了
代码
from lxml import etree
import requests
import reheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36','Cookie':''}def get_sina_news_serach():result=[]for i in range(0,11):url = 'https://maoyan.com/board/4?offset={}'.format(i*10)rs = requests.session()r = rs.get(url, headers=headers)r.encoding = 'utf-8'trees = etree.HTML(r.text)for j in range(0,11):data = []name = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/a/img[2]/@alt'.format(j))actor = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[1]/p[2]/text()'.format(j))for Actor in actor:Actor = re.sub('[ \n \\\ n \ n 。 \']]', '', Actor)Actor = re.sub(' ', '', Actor)Actor = re.sub('\n', '', Actor)time = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[1]/p[3]/text()'.format(j))for Time in time:Time = re.sub('[ \n \\\ n \ n 。 \']]', '', Time)Time = re.sub(' ', '',Time)score1 = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[2]/p/i[1]/text()'.format(j))score2 = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[2]/p/i[2]/text()'.format(j))data.append(name[0])data.append(Actor)data.append(Time)data.append(score1[0]+score2[0])print(i*10+j,data)time.sleep(3)if __name__ == "__main__":get_sina_news_serach()
从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码相关推荐
- 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取LOL全英雄信息及技能||异步加载|初级难度反扒处理|寻找消失的API
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- python爬虫菜鸟教程-Python爬虫学习100练001
爬取菜鸟教程最新文章标题以及查看链接并写入excel文件中 -- coding:utf-8 -- 2018年3月24日 爬取菜鸟教程最新文章列表并写入Excel中 导入爬虫库,正则库.Excel库 f ...
- 关于爬虫的日常复习(8)—— 实战:request+正则爬取猫眼榜单top100
转载于:https://www.cnblogs.com/xingnie/p/9407840.html
- 从入门到入土:Python爬虫学习|Selenium自动化模块学习|简单入门|轻松上手|自动操作浏览器进行处理|chrome|PART01
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- python爬虫入门实例-Python爬虫天气预报实例详解(小白入门)
本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 要求是把你所在城市过去一年的历史数据爬出来. 分析网站 我们可以看到,我们需要的天气数据都是放在图表上的,在切换月份的时候,发现只有 ...
最新文章
- 透彻影像王书浩:三易其辙与功不唐捐
- 全球自动驾驶政策概况及特征研究
- java之图形化界面(GUI)
- VLC通信仿真中数字脉冲间隔调制(DPIM)实例
- 如何把winPE装到硬盘隐藏起来
- 光感是什么_Olay5款热门精华:淡斑小白瓶VS光感小白瓶如何选?超A瓶不太A
- CNN中常用的卷积核:锐化卷积核模板
- 【转载】并发操作会带来哪些数据不一致性(数据库)
- 使用SDKMAN包管理器,在BSD-Unix系统上快捷安装软件(MacOS/OpenBSD/Solaris)
- 知道一点怎么设直线方程_直线初步
- python手机版做小游戏代码大全-20行python代码的入门级小游戏的详解
- python 爬取 全网代理 IP 网站 + 破解端口加密混淆
- 面部捕捉技术_一种基于面部捕捉系统的捕捉点定位系统的制作方法
- Word页码从任意页开始设置方法
- OCR手写文字怎么识别
- 【QA】集成高德地图SDK闪退问题
- 事件数据 - EventData
- Numpy:数组对象(Ndarray)的属性
- 计算机翻转课堂教案,“翻转课堂 ”——无线投屏颠覆传统教育
- 【DispNet_CVPR_2016】论文阅读之一