此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出。欢迎各位前来交流。(部分材料来源网络,若有侵权,立即删除)
本人博客所有文章纯属学习之用,不涉及商业利益。不合适引用,自当删除!
若被用于非法行为,与我本人无关

Python爬虫学习|实例练手|爬取百度翻译

  • 情况说明
  • 代码

情况说明

  • 简简单单爬取就好了
  • 正则匹配去除空格和换行符
  • 还有就是访问频率过高会被ban,timesleep一下,或者整一个代理ip池就好了

代码

from lxml import etree
import requests
import reheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36','Cookie':''}def get_sina_news_serach():result=[]for i in range(0,11):url = 'https://maoyan.com/board/4?offset={}'.format(i*10)rs = requests.session()r = rs.get(url, headers=headers)r.encoding = 'utf-8'trees = etree.HTML(r.text)for j in range(0,11):data = []name = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/a/img[2]/@alt'.format(j))actor  = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[1]/p[2]/text()'.format(j))for Actor in actor:Actor = re.sub('[ \n   \\\ n \ n 。 \']]', '', Actor)Actor = re.sub(' ', '', Actor)Actor = re.sub('\n', '', Actor)time = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[1]/p[3]/text()'.format(j))for Time in time:Time = re.sub('[ \n   \\\ n \ n 。 \']]', '', Time)Time = re.sub(' ', '',Time)score1 = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[2]/p/i[1]/text()'.format(j))score2 = trees.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[{}]/div/div/div[2]/p/i[2]/text()'.format(j))data.append(name[0])data.append(Actor)data.append(Time)data.append(score1[0]+score2[0])print(i*10+j,data)time.sleep(3)if __name__ == "__main__":get_sina_news_serach()

从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码相关推荐

  1. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  2. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  3. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  4. 从入门到入土:Python爬虫学习|实例练手|爬取LOL全英雄信息及技能||异步加载|初级难度反扒处理|寻找消失的API

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  5. 从入门到入土:Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. python爬虫菜鸟教程-Python爬虫学习100练001

    爬取菜鸟教程最新文章标题以及查看链接并写入excel文件中 -- coding:utf-8 -- 2018年3月24日 爬取菜鸟教程最新文章列表并写入Excel中 导入爬虫库,正则库.Excel库 f ...

  7. 关于爬虫的日常复习(8)—— 实战:request+正则爬取猫眼榜单top100

    转载于:https://www.cnblogs.com/xingnie/p/9407840.html

  8. 从入门到入土:Python爬虫学习|Selenium自动化模块学习|简单入门|轻松上手|自动操作浏览器进行处理|chrome|PART01

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  9. python爬虫入门实例-Python爬虫天气预报实例详解(小白入门)

    本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 要求是把你所在城市过去一年的历史数据爬出来. 分析网站 我们可以看到,我们需要的天气数据都是放在图表上的,在切换月份的时候,发现只有 ...

最新文章

  1. 透彻影像王书浩:三易其辙与功不唐捐
  2. 全球自动驾驶政策概况及特征研究
  3. java之图形化界面(GUI)
  4. VLC通信仿真中数字脉冲间隔调制(DPIM)实例
  5. 如何把winPE装到硬盘隐藏起来
  6. 光感是什么_Olay5款热门精华:淡斑小白瓶VS光感小白瓶如何选?超A瓶不太A
  7. CNN中常用的卷积核:锐化卷积核模板
  8. 【转载】并发操作会带来哪些数据不一致性(数据库)
  9. 使用SDKMAN包管理器,在BSD-Unix系统上快捷安装软件(MacOS/OpenBSD/Solaris)
  10. 知道一点怎么设直线方程_直线初步
  11. python手机版做小游戏代码大全-20行python代码的入门级小游戏的详解
  12. python 爬取 全网代理 IP 网站 + 破解端口加密混淆
  13. 面部捕捉技术_一种基于面部捕捉系统的捕捉点定位系统的制作方法
  14. Word页码从任意页开始设置方法
  15. OCR手写文字怎么识别
  16. 【QA】集成高德地图SDK闪退问题
  17. 事件数据 - EventData
  18. Numpy:数组对象(Ndarray)的属性
  19. 计算机翻转课堂教案,“翻转课堂 ”——无线投屏颠覆传统教育
  20. 【DispNet_CVPR_2016】论文阅读之一

热门文章

  1. 使用 docker 命令不用加 sudo
  2. Python接通图灵机器人
  3. DB2常用错误代码大全
  4. Altium AD20分屏显示,交叉选择模式使用,原理图和PCB器件的同步选择
  5. ESP32开发 2.添加.c.h并修改CMakeLists,来定制自己的工程
  6. 【运维】vi 和 vim 的区别
  7. HDU - 1757 A Simple Math Problem (矩阵快速幂)
  8. Preferences偏好设置
  9. 【转-Andrew_qian】stm32中断嵌套全攻略
  10. C盘不能新建文件的问题解决办法