python3 爬虫入门 简单爬取京东商品名称案例

编译环境jupyter notebook

利用python3编写了一个很简单的爬虫爬取了京东商品名称

1.准备工作

不多赘述,基本就是打开一个你熟悉的python3的编译器,jupyter,Spyder,pycharm什么的都没问题,然后确定re库和requests库都装了且能调用。

2.得到网页URL

打开京东官网https://www.jd.com/————>点这里也行

直接查询你想要找的商品,这里我以笔记本为例

得到的网址就是我们要找的URL
即https://search.jd.com/Search?keyword=%E7%AC%94%E8%AE%B0%E6%9C%AC&enc=utf-8&spm=2.1.1——————>点这里也可以

3.得到header参数(referer、user-agent、cookie)

首先按键盘上的F12打开开发者工具

在Network标签下按Ctrl+R键,截获到很多文件

将左侧的name栏一直往上翻找到最开始截获的文件,打开,在header标签下寻找

发现其Request URL: https://search.jd.com/Search?keyword=%E7%AC%94%E8%AE%B0%E6%9C%AC&enc=utf-8&spm=2.1.1
这一项和之前找到的URL是一致的,这就是我们要找的文件

将右侧的header栏往下翻,逐个找到我们所需要的referer、user-agent、cookie

分别是
Cookie: shshshfpa=9529b92b-1cf0-6aea-4efb-869908d26320-1577165936; __jdv=122270672|www.sogou.com|-|referral|-|1599113777053; __jdu=1599113777051548192284; areaId=1; ipLoc-djd=1-2901-0-0; shshshfpb=pUb0V0GoYkEqEQAYC78QhtA%3D%3D; rkv=V0600; PCSYCityID=CN_110000_110100_110114; __jda=122270672.1599113777051548192284.1599113777.1599113777.1600269991.2; __jdc=122270672; 3AB9D23F7A4B3C9B=LDSY3E6WRHV3RITCNYJ2HG7E2RVNRUCIX4MWRJTW4EZZENZCTC47O5GJZHSBZUKJM3IOJWMQ6J2YFJAZUCZPW6SOIA; shshshfp=1a3704f42228aa044de34a81ee616ef1; qrsc=3
Referer: https://diannao.jd.com/
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0

4.爬取网页源代码

先调用re和requests两个库

import re
import requests

然后准备好连接网页所需要的URL和header

url='https://search.jd.com/Search?keyword=%E7%AC%94%E8%AE%B0%E6%9C%AC&enc=utf-8&spm=2.1.1'
header = {'referer':'https://diannao.jd.com/','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0','cookie':'shshshfpa=9529b92b-1cf0-6aea-4efb-869908d26320-1577165936; __jdv=122270672|www.sogou.com|-|referral|-|1599113777053; __jdu=1599113777051548192284; areaId=1; ipLoc-djd=1-2901-0-0; shshshfpb=pUb0V0GoYkEqEQAYC78QhtA%3D%3D; rkv=V0600; PCSYCityID=CN_110000_110100_110114; __jda=122270672.1599113777051548192284.1599113777.1599113777.1600269991.2; __jdc=122270672; 3AB9D23F7A4B3C9B=LDSY3E6WRHV3RITCNYJ2HG7E2RVNRUCIX4MWRJTW4EZZENZCTC47O5GJZHSBZUKJM3IOJWMQ6J2YFJAZUCZPW6SOIA; shshshfp=1a3704f42228aa044de34a81ee616ef1; qrsc=3'}

调用requests.get函数爬取网页源代码

r=requests.get(url,headers=header)

此时可以打印出来看看是否成功

print(r.text)

显示如下图即证明爬取源代码成功

5.提取商品名称

由于我们是要寻找笔记本的商品名称,所以光爬取冗长的网页源代码还不够

调用re.findall函数来进行搜索和提取

tlt = re.findall(r'\<em\>.*笔记本.*\<\/em\>', r.text)
print(tlt)
len(tlt)

r’<em>.*笔记本.*</em>'是正则表达式,表示模糊搜索<em>标签中含有……笔记本……的语句
并写入tlt列表
len(tlt)表示输出tlt列表的长度,即代表了找到的元素的个数

运行正确时结果如下

成功得到笔记本商品名称列表

6.完整代码

import re
import requests
url='https://search.jd.com/Search?keyword=%E7%AC%94%E8%AE%B0%E6%9C%AC&enc=utf-8&spm=2.1.1'
header = {'referer':'https://diannao.jd.com/','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0','cookie':'shshshfpa=9529b92b-1cf0-6aea-4efb-869908d26320-1577165936; __jdv=122270672|www.sogou.com|-|referral|-|1599113777053; __jdu=1599113777051548192284; areaId=1; ipLoc-djd=1-2901-0-0; shshshfpb=pUb0V0GoYkEqEQAYC78QhtA%3D%3D; rkv=V0600; PCSYCityID=CN_110000_110100_110114; __jda=122270672.1599113777051548192284.1599113777.1599113777.1600269991.2; __jdc=122270672; 3AB9D23F7A4B3C9B=LDSY3E6WRHV3RITCNYJ2HG7E2RVNRUCIX4MWRJTW4EZZENZCTC47O5GJZHSBZUKJM3IOJWMQ6J2YFJAZUCZPW6SOIA; shshshfp=1a3704f42228aa044de34a81ee616ef1; qrsc=3'}
r=requests.get(url,headers=header)
#r.encoding=r.apparent_encoding
print(r.text)tlt = re.findall(r'\<em\>.*笔记本.*\<\/em\>', r.text)
print(tlt)
len(tlt)

感谢阅读

python3 爬虫入门 简单爬取京东商品名称案例 详细笔记说明相关推荐

  1. Python3爬虫实战之爬取京东图书图片

    假如我们想把京东商城图书类的图片类商品图片全部下载到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用Python网络爬虫实现,这类爬虫称为图片爬虫,接下来,我们将实现该爬虫. 首先,打开要爬 ...

  2. python3 [爬虫入门实战]爬取熊猫直播用户信息

    爬取国内各大直播平台直播信息是以后要做的一个功课,还必须是做成一个系列的,可能远没有其他大神那么厉害,毕竟自己经历过的就是有用的,在此做个记录一下 首先我们需要爬取的内容: 这里我们要爬取的有 直播房 ...

  3. 手机qpython3使用教程爬书_5.Python3爬虫入门实践——爬取名著

    1.准备工作 书写爬虫之前的步骤: 1.从哪爬 where 2.爬什么 what 3.怎么爬 how 4.爬了之后信息如何保存 save 我称之为WWHS,这就是最基本的步骤了. 1.1 从哪爬whe ...

  4. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

  5. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  6. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  7. python爬虫入门(一)爬取钓鱼吧

    python爬虫入门(一)爬取钓鱼吧 # Date : 2022/1/1 17:11 ''' 需求:1.输入贴吧名称:钓鱼吧https://tieba.baidu.com/f?kw=钓鱼吧&p ...

  8. python 爬虫入门--文字爬取

    python 爬虫入门–文字爬取 对于爬虫,相信大家都不陌生,但是如何入门,大家还是停留在了解认知阶段吗?那可以试试下边的方法,一起来试一下. 首先我们试试爬取网页中的***文本信息*** 使用的是我 ...

  9. layui获取input信息_python爬虫—用selenium爬取京东商品信息

    python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...

  10. python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图

    Python 爬虫入门之爬取妹子图 来源:李英杰  链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...

最新文章

  1. 看初中生如何高薪就业
  2. 初学者python用什么开发软件-对于自学python的初学者来说,应该使用什么编辑工具?...
  3. 011_Cascader级联选择器
  4. Spread Studio for .NET 7: 使用现有数据填充单元格
  5. 网络基本功系列:细说网络那些事儿
  6. es6遍历树结构并判断_ES6和ES5中数据结构的遍历
  7. 【福利】周志华教授专著《集成学习:基础与算法》上市,豆瓣满分森林书破解AI实践难题...
  8. 西电计算机学院导师苗启广,Xidian Media Lab
  9. linux 添加重定向域名,Linux系统中Nginx的安装并进行域名认证和重定向
  10. 面向对象编程的两顶帽子
  11. latex表插入的位置不对_VSCode_LaTex_英文amp;中文配置
  12. 4后期盒子叫什么_考研:什么叫跨考专业?跨考专业的4大原因和存在3个方面的困难...
  13. ASP.NET Web API 2框架揭秘
  14. java基于springboot小区水电量电费管理系统
  15. CardView 整理
  16. ubuntu18.04安装dash-to-dock出错的问题
  17. Element DateTimePicker 日期时间选择器 今天日期设置,并获取value值
  18. 智能手环APP有哪些功能,具体解决方案是什么?
  19. css动画走马灯5秒,用animation制作走马灯
  20. npm ERR! code ELIFECYCLE npm ERR! errno 1 npm ERR! platform@1.0.0 start: `node build/dev-server.js`

热门文章

  1. rendered使用效果
  2. Could not fetch URL https://pypi.org/simple/pip/: There was a problem confirming the ssl certificat
  3. Python安装包时遇到There was a problem confirming the ssl certificate…的解决办法
  4. 初中数学分几个模块_初中数学所有概念! 初中数学一共可以分为几个模块,分别是什么?...
  5. python短信验证码_python发送短信验证码
  6. Autocad 2022版本插件开发基础1
  7. Mac 和 Windows 共享一套鼠标键盘
  8. 对于互联网,谈谈自己浅薄的看法
  9. java中isolate时间_Flutter 92: 图解 Dart 单线程实现异步处理之 Isolate (一)
  10. 计算机word文本段落位置互换,word中调换位置 用word怎么使两个段落互换位置