最近因为工作比较忙也没有更新随笔。昨天下班因为身体不舒服,代码也没有码多少。说码代码也还算不上,毕竟是自己无聊写点小脚本自娱自乐。

今天这篇主要的知识点是使用Python的BeautifulSoup进行多层的遍历。

笔者闲来无事写了个小爬虫,主要是爬取京东商品分类以及对应的连接

如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。

from bs4 import BeautifulSoup as bsimport requestsheaders = {    "host": "www.jd.com",    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"    }session = requests.session()def get_url():    renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')    for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):        print(i.get_text(),':',i.get('href'))get_url()

运行这段代码以及达到了我们的目的。

我们来解读一下这段代码。首先我们要访问到京东的首页。然后通过BeautifulSoup对访问到的首页进行解析。这个时候,我们就要定位元素,来获取我们需要的东西了。在浏览器中通过F12,我们可以看到下图所示的东西:

我们来看看下面这句代码:

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})这一行代码完全满足我们的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all对该标签下所有的a标签。最后,我想打印出所有的商品分类以及对应的链接,于是,我使用了i.get_text()和i.get('href')的方法终于获取到了商品分类和对应的链接。

其实不是很难,主要是要用对方法。笔者因为是初学方法没有用对。花了差不多两天时间才搞定。这里也是告诉大家,可以使用find().find_all()的方法进行多层的遍历。

转载于:https://www.cnblogs.com/rookie-c/p/5808817.html

爬取京东商品分类和链接相关推荐

  1. Python爬取京东评论(汇编)

    目录 一.爬取京东数据详细链接 (一)爬取京东评论 1.文章一 2.文章二 (二)爬取京东商品信息 1.文章一 二.爬虫过程中遇到的一些问题及解决资料 (一)解决爬虫中Response[200]返回值 ...

  2. python京东商品_Python爬取京东的商品分类与链接

    前言 本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历. 如图所示.只是一个简单的哈,不是爬取里面的隐藏的东西. 示例代码 from bs4 import Beautifu ...

  3. 利用python爬取京东华为旗舰店手机信息(价格、型号、颜色、链接等)

    目 录 第一章.前言 1.1.效果展示 1.2.需要用到的库 1.3.原理分析 第二章.代码分开讲解 2.1.对象的定义及初始化 2.1.1.第一至二行 2.1.2.第三至四行 2.1.3.第五至六行 ...

  4. python-selenium自动爬取京东手机端全部类别数据----“从祖爬到孙”

    一.序言 大家好,我是小龙.今天我们不谈Java相关技术,想和大家分享一波我大学比赛时做项目使用的一个爬虫. 事情是这样的: 比赛项目有一个关于电商的模块,奈何没有数据,然后打算爬取京东,淘宝pc端数 ...

  5. 爬取京东本周热卖商品基本信息存入MySQL

    爬取京东本周热卖商品基本信息存入MySQL 网络爬虫介绍 概述 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或 ...

  6. 爬取京东本周热卖商品所有用户评价存入MySQL

    爬取京东本周热卖商品所有用户评价存入MySQL       说明 本项目是对(爬取京东本周热卖商品基本信息存入MySQL)项目的追加,所以会有一些内容上的衔接,例如工具的使用方法等在此篇就不赘述,大家 ...

  7. python爬虫完整实例-python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

  8. Scrapy练习——爬取京东商城商品信息

    刚刚接触爬虫,花了一段时间研究了一下如何使用scrapy,写了一个比较简单的小程序,主要用于爬取京东商城有关进口牛奶页面的商品信息,包括商品的名称,价格,店铺名称,链接,以及评价的一些信息等.简单记录 ...

  9. Python scrapy爬取京东,百度百科出现乱码,解决方案

    Python scrapy爬取京东 百度百科出现乱码 解决方案 十分想念顺店杂可... 抓取百度百科,出现乱码 把页面源码下载下来之后,发现全是乱码,浏览器打开 但是浏览器链接打开就没有乱码 以下是浏 ...

最新文章

  1. Android客户端捕获http请求包的方法
  2. Windows下更改mysql data目录
  3. 一篇文章带你详解 TCP/IP 协议(上)
  4. JavaScript语言中文参考手册.chm
  5. 刚刚字节跳动发布了1200个java岗位,平均薪资40k
  6. 中文分词_中文分词及其应用
  7. 数据结构--图(Graph)详解(四)
  8. I - Defeat the Enemy UVALive - 7146 二分 + 贪心
  9. HP 3PAR公用存储的妙用
  10. 继爱奇艺后,腾讯视频会员也要涨价了
  11. python提取包含特定字符串的行_python提取具有某种特定字符串的行数据方法
  12. 权限管理su、sudo、限制root远程登录
  13. Android系统框架总结(好文)
  14. PowerDesigner(八)-面向对象模型(用例图,序列图,类图,生成Java源代码及Java源代码生成类图)(转)...
  15. wangEditor-v5使用
  16. adobe flash java_Adobe 发布最后的 Flash 更新:官方强烈建议立即卸载
  17. javascript查看详情与收起详情
  18. 【VBA】Excel 密码管理器
  19. [TI TDA4 J721E] TDA4平台 相关技术文章 汇总
  20. 环宇智行基于NVIDIA TX2的L4级自动驾驶方案

热门文章

  1. 【ARM】ARM汇编程序设计(五) str和ldr
  2. 【Linux】一步一步学Linux——userdel命令(84)
  3. react取消捕获_React 面试指南 (上)
  4. java postdelayed_Android开发使用Handler的PostDelayed方法实现图片轮播功能
  5. Java协作开发,Java开发学习笔记之八:servlet之间的协作
  6. r语言员工离职_HR,你真的会做员工面谈吗?
  7. wangEditor Java富文本的图片上传
  8. Codeforces 793b B. Igor and his way to work 觉得大神写的3维bfs太复杂,突然发现这题是连连看算法。
  9. 删除链表的倒数第N个节点—leetcode19
  10. 归并排序(C++版)