此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出。欢迎各位前来交流。(部分材料来源网络,若有侵权,立即删除)
本人博客所有文章纯属学习之用,不涉及商业利益。不合适引用,自当删除!
若被用于非法行为,与我本人无关

Python爬虫学习|实例练手|爬取百度产品列表

  • 代码
  • 运行结果

代码

import requests#引入request库
from lxml import etree#引入xpath定位需要的库headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}#浏览器请求头def get_baidu_more():for i in range(1):#套用的自己以前的模板url = 'https://www.baidu.com/more/'rs = requests.session()#定义对象r = rs.get(url, headers=headers)#get方法传参r.encoding = 'utf-8'#使用utf-8解码,不然会出现乱码trees = etree.HTML(r.text)#解析文本data=[]#储存功能的几种酚类for i in range(1, 9):#看了看一共九种Theclass = trees.xpath('//*[@id="content"]/h3[{}]/text()'.format(i))#定位data.append(Theclass[0])添加到新的列表中#print(data)#输出测试j=0for i in range(1,90):#爬取每一个功能对应的标签name = trees.xpath('//*[@id="content"]/div[{}]/div[2]/a/text()'.format(i))#功能名称link = trees.xpath('//*[@id="content"]/div[{}]/div[2]/a/@href'.format(i))#功能对应的链接what = trees.xpath('//*[@id="content"]/div[{}]/div[2]/span/text()'.format(i))#功能描述if(name==[]):#当标签内容为空则为大类标签的位置,补全分类print(data[j])j=j+1print(" ")else:print(name[0])print(link[0])print(what[0])print(" ")get_baidu_more()

运行结果

从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解相关推荐

  1. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  2. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  3. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  4. 从入门到入土:Python爬虫学习|实例练手|爬取LOL全英雄信息及技能||异步加载|初级难度反扒处理|寻找消失的API

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  5. 从入门到入土:Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. 强化学习教程(四):从PDG到DDPG的原理及tf代码实现详解

    强化学习教程(四):从PDG到DDPG的原理及tf代码实现详解 原创 lrhao 公众号:ChallengeHub 收录于话题 #强化学习教程 前言 在前面强化学习教程(三)中介绍了基于策略「PG」算 ...

  7. python爬虫登录爱奇艺_python实现爱奇艺登陆密码RSA加密的方法示例详解

    前言 通过Python实现对大麦网近期全国演唱会数据进行爬取,通过分析,我们发现大麦网属于Python爬虫策略中"中等型"难度网站,演唱会数据封装在json文件中.因此,我们简单的 ...

  8. python爬虫菜鸟教程-Python爬虫学习100练001

    爬取菜鸟教程最新文章标题以及查看链接并写入excel文件中 -- coding:utf-8 -- 2018年3月24日 爬取菜鸟教程最新文章列表并写入Excel中 导入爬虫库,正则库.Excel库 f ...

  9. 从入门到入土:Python爬虫学习|Selenium自动化模块学习|简单入门|轻松上手|自动操作浏览器进行处理|chrome|PART01

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

最新文章

  1. CentOS 初体验十六:阿里云安装Nexus搭建Maven私有仓库
  2. 我的Java知识复习回顾笔记
  3. .Net Core Razor 预编译,动态编译,混合编译
  4. Jimu : .Net Core 分布式微服务框架介绍
  5. mingw w64 matlab,Matlab安装MinGW-w64问题解决
  6. c++中this指针基本概念和使用
  7. flex布局的一点注意点
  8. RabbitMQ消息确认以及return机制
  9. Drupal 紧急修复已遭利用的严重 0day
  10. 管理感悟:管理人员要不要技术好
  11. stm32实现串口通信和LED灯点亮
  12. AIDA64内存与缓存测试过了算稳定吗_无需XMP默认3200MHz,十铨 开创者 内存开箱简测...
  13. 【Unity Shader】聚光灯体积光效果的简单实现
  14. 给定一个字符类型的数组chas[]
  15. 分享8个前端可以制作360度WebVr全景视图框架
  16. 由浅至深探探webpack(初)
  17. 操作系统题库(选择题部分,带解析)
  18. wps自动图文集 重新编号_如何在Word中创建和使用自动图文集词条
  19. 团队开发中,xshell共享配置文件
  20. QiYuAdmin-metronic首页的js和css介绍(SpringBoot项目实战)

热门文章

  1. 使用MOE进行药效团建模与分析
  2. 一些关于jvm的问题 阿里等大厂面试
  3. 集合 (一) ----- 集合的基本概念与Collection集合详解
  4. 【深入理解JVM】JVM的五大运行时数据区域
  5. 【Android】选项卡使用
  6. 剑指offer.从未到头打印链表
  7. iOS连续上传多张图片
  8. 【Codeforces】Gym 101173B Bipartite Blanket 霍尔定理+状压DP
  9. scala中的特殊字符
  10. StringUtils一些常用方法