此博客仅用于记录个人学习进度，学识浅薄，若有错误观点欢迎评论区指出。欢迎各位前来交流。（部分材料来源网络，若有侵权，立即删除）
本人博客所有文章纯属学习之用，不涉及商业利益。不合适引用，自当删除！
若被用于非法行为，与我本人无关

Python爬虫学习|实例练手|爬取百度翻译

情况说明
代码

情况说明

简简单单爬取就好了
正则匹配去除空格和换行符
还有就是访问频率过高会被ban，timesleep一下，或者整一个代理ip池就好了

代码

from lxml import etree
import requests
import reheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36','Cookie':''}def get_sina_news_serach():result=[]for i in range(0,11):url = 'https://maoyan.com/board/4?offset={}'.format(i*10)rs = requests.session()r = rs.get(url, headers=headers)r.encoding = 'utf-8'trees = etree.HTML(r.text)for j in range(0,11):data = []name = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/a/img[2]/@alt'.format(j))actor  = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[1]/p[2]/text()'.format(j))for Actor in actor:Actor = re.sub('[ \n   \\\ n \ n 。 \']]', '', Actor)Actor = re.sub(' ', '', Actor)Actor = re.sub('\n', '', Actor)time = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[1]/p[3]/text()'.format(j))for Time in time:Time = re.sub('[ \n   \\\ n \ n 。 \']]', '', Time)Time = re.sub(' ', '',Time)score1 = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[2]/p/i[1]/text()'.format(j))score2 = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[2]/p/i[2]/text()'.format(j))data.append(name[0])data.append(Actor)data.append(Time)data.append(score1[0]+score2[0])print(i*10+j,data)time.sleep(3)if __name__ == "__main__":get_sina_news_serach()

从入门到入土：Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码相关推荐

从入门到入土：Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
从入门到入土：Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
从入门到入土：Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
从入门到入土：Python爬虫学习|实例练手|爬取LOL全英雄信息及技能||异步加载|初级难度反扒处理|寻找消失的API
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
从入门到入土：Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
python爬虫菜鸟教程-Python爬虫学习100练001
爬取菜鸟教程最新文章标题以及查看链接并写入excel文件中 -- coding:utf-8 -- 2018年3月24日爬取菜鸟教程最新文章列表并写入Excel中导入爬虫库,正则库.Excel库 f ...
关于爬虫的日常复习（8）—— 实战：request+正则爬取猫眼榜单top100
转载于:https://www.cnblogs.com/xingnie/p/9407840.html
从入门到入土：Python爬虫学习|Selenium自动化模块学习|简单入门|轻松上手|自动操作浏览器进行处理|chrome|PART01
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
python爬虫入门实例-Python爬虫天气预报实例详解（小白入门）
本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 要求是把你所在城市过去一年的历史数据爬出来. 分析网站我们可以看到,我们需要的天气数据都是放在图表上的,在切换月份的时候,发现只有 ...

从入门到入土：Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

Python爬虫学习|实例练手|爬取百度翻译

情况说明

代码

从入门到入土：Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码相关推荐

最新文章

热门文章