爬取京东商品分类和链接
最近因为工作比较忙也没有更新随笔。昨天下班因为身体不舒服,代码也没有码多少。说码代码也还算不上,毕竟是自己无聊写点小脚本自娱自乐。
今天这篇主要的知识点是使用Python的BeautifulSoup进行多层的遍历。
笔者闲来无事写了个小爬虫,主要是爬取京东商品分类以及对应的连接
如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。
from bs4 import BeautifulSoup as bsimport requestsheaders = { "host": "www.jd.com", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8" }session = requests.session()def get_url(): renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser') for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}): print(i.get_text(),':',i.get('href'))get_url() 运行这段代码以及达到了我们的目的。
我们来解读一下这段代码。首先我们要访问到京东的首页。然后通过BeautifulSoup对访问到的首页进行解析。这个时候,我们就要定位元素,来获取我们需要的东西了。在浏览器中通过F12,我们可以看到下图所示的东西:
我们来看看下面这句代码:
for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})这一行代码完全满足我们的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all对该标签下所有的a标签。最后,我想打印出所有的商品分类以及对应的链接,于是,我使用了i.get_text()和i.get('href')的方法终于获取到了商品分类和对应的链接。 其实不是很难,主要是要用对方法。笔者因为是初学方法没有用对。花了差不多两天时间才搞定。这里也是告诉大家,可以使用find().find_all()的方法进行多层的遍历。
转载于:https://www.cnblogs.com/rookie-c/p/5808817.html
爬取京东商品分类和链接相关推荐
- Python爬取京东评论(汇编)
目录 一.爬取京东数据详细链接 (一)爬取京东评论 1.文章一 2.文章二 (二)爬取京东商品信息 1.文章一 二.爬虫过程中遇到的一些问题及解决资料 (一)解决爬虫中Response[200]返回值 ...
- python京东商品_Python爬取京东的商品分类与链接
前言 本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历. 如图所示.只是一个简单的哈,不是爬取里面的隐藏的东西. 示例代码 from bs4 import Beautifu ...
- 利用python爬取京东华为旗舰店手机信息(价格、型号、颜色、链接等)
目 录 第一章.前言 1.1.效果展示 1.2.需要用到的库 1.3.原理分析 第二章.代码分开讲解 2.1.对象的定义及初始化 2.1.1.第一至二行 2.1.2.第三至四行 2.1.3.第五至六行 ...
- python-selenium自动爬取京东手机端全部类别数据----“从祖爬到孙”
一.序言 大家好,我是小龙.今天我们不谈Java相关技术,想和大家分享一波我大学比赛时做项目使用的一个爬虫. 事情是这样的: 比赛项目有一个关于电商的模块,奈何没有数据,然后打算爬取京东,淘宝pc端数 ...
- 爬取京东本周热卖商品基本信息存入MySQL
爬取京东本周热卖商品基本信息存入MySQL 网络爬虫介绍 概述 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或 ...
- 爬取京东本周热卖商品所有用户评价存入MySQL
爬取京东本周热卖商品所有用户评价存入MySQL 说明 本项目是对(爬取京东本周热卖商品基本信息存入MySQL)项目的追加,所以会有一些内容上的衔接,例如工具的使用方法等在此篇就不赘述,大家 ...
- python爬虫完整实例-python爬虫实战之爬取京东商城实例教程
前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...
- Scrapy练习——爬取京东商城商品信息
刚刚接触爬虫,花了一段时间研究了一下如何使用scrapy,写了一个比较简单的小程序,主要用于爬取京东商城有关进口牛奶页面的商品信息,包括商品的名称,价格,店铺名称,链接,以及评价的一些信息等.简单记录 ...
- Python scrapy爬取京东,百度百科出现乱码,解决方案
Python scrapy爬取京东 百度百科出现乱码 解决方案 十分想念顺店杂可... 抓取百度百科,出现乱码 把页面源码下载下来之后,发现全是乱码,浏览器打开 但是浏览器链接打开就没有乱码 以下是浏 ...
最新文章
- Android客户端捕获http请求包的方法
- Windows下更改mysql data目录
- 一篇文章带你详解 TCP/IP 协议(上)
- JavaScript语言中文参考手册.chm
- 刚刚字节跳动发布了1200个java岗位,平均薪资40k
- 中文分词_中文分词及其应用
- 数据结构--图(Graph)详解(四)
- I - Defeat the Enemy UVALive - 7146 二分 + 贪心
- HP 3PAR公用存储的妙用
- 继爱奇艺后,腾讯视频会员也要涨价了
- python提取包含特定字符串的行_python提取具有某种特定字符串的行数据方法
- 权限管理su、sudo、限制root远程登录
- Android系统框架总结(好文)
- PowerDesigner(八)-面向对象模型(用例图,序列图,类图,生成Java源代码及Java源代码生成类图)(转)...
- wangEditor-v5使用
- adobe flash java_Adobe 发布最后的 Flash 更新:官方强烈建议立即卸载
- javascript查看详情与收起详情
- 【VBA】Excel 密码管理器
- [TI TDA4 J721E] TDA4平台 相关技术文章 汇总
- 环宇智行基于NVIDIA TX2的L4级自动驾驶方案
热门文章
- 【ARM】ARM汇编程序设计(五) str和ldr
- 【Linux】一步一步学Linux——userdel命令(84)
- react取消捕获_React 面试指南 (上)
- java postdelayed_Android开发使用Handler的PostDelayed方法实现图片轮播功能
- Java协作开发,Java开发学习笔记之八:servlet之间的协作
- r语言员工离职_HR,你真的会做员工面谈吗?
- wangEditor Java富文本的图片上传
- Codeforces 793b B. Igor and his way to work 觉得大神写的3维bfs太复杂,突然发现这题是连连看算法。
- 删除链表的倒数第N个节点—leetcode19
- 归并排序(C++版)