python3 爬虫入门 简单爬取京东商品名称案例 详细笔记说明
python3 爬虫入门 简单爬取京东商品名称案例
编译环境jupyter notebook
利用python3编写了一个很简单的爬虫爬取了京东商品名称
1.准备工作
不多赘述,基本就是打开一个你熟悉的python3的编译器,jupyter,Spyder,pycharm什么的都没问题,然后确定re库和requests库都装了且能调用。
2.得到网页URL
打开京东官网https://www.jd.com/————>点这里也行
直接查询你想要找的商品,这里我以笔记本为例
得到的网址就是我们要找的URL
即https://search.jd.com/Search?keyword=%E7%AC%94%E8%AE%B0%E6%9C%AC&enc=utf-8&spm=2.1.1——————>点这里也可以
3.得到header参数(referer、user-agent、cookie)
首先按键盘上的F12打开开发者工具
在Network标签下按Ctrl+R键,截获到很多文件
将左侧的name栏一直往上翻找到最开始截获的文件,打开,在header标签下寻找
发现其Request URL: https://search.jd.com/Search?keyword=%E7%AC%94%E8%AE%B0%E6%9C%AC&enc=utf-8&spm=2.1.1
这一项和之前找到的URL是一致的,这就是我们要找的文件
将右侧的header栏往下翻,逐个找到我们所需要的referer、user-agent、cookie
分别是
Cookie: shshshfpa=9529b92b-1cf0-6aea-4efb-869908d26320-1577165936; __jdv=122270672|www.sogou.com|-|referral|-|1599113777053; __jdu=1599113777051548192284; areaId=1; ipLoc-djd=1-2901-0-0; shshshfpb=pUb0V0GoYkEqEQAYC78QhtA%3D%3D; rkv=V0600; PCSYCityID=CN_110000_110100_110114; __jda=122270672.1599113777051548192284.1599113777.1599113777.1600269991.2; __jdc=122270672; 3AB9D23F7A4B3C9B=LDSY3E6WRHV3RITCNYJ2HG7E2RVNRUCIX4MWRJTW4EZZENZCTC47O5GJZHSBZUKJM3IOJWMQ6J2YFJAZUCZPW6SOIA; shshshfp=1a3704f42228aa044de34a81ee616ef1; qrsc=3
Referer: https://diannao.jd.com/
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0
4.爬取网页源代码
先调用re和requests两个库
import re
import requests
然后准备好连接网页所需要的URL和header
url='https://search.jd.com/Search?keyword=%E7%AC%94%E8%AE%B0%E6%9C%AC&enc=utf-8&spm=2.1.1'
header = {'referer':'https://diannao.jd.com/','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0','cookie':'shshshfpa=9529b92b-1cf0-6aea-4efb-869908d26320-1577165936; __jdv=122270672|www.sogou.com|-|referral|-|1599113777053; __jdu=1599113777051548192284; areaId=1; ipLoc-djd=1-2901-0-0; shshshfpb=pUb0V0GoYkEqEQAYC78QhtA%3D%3D; rkv=V0600; PCSYCityID=CN_110000_110100_110114; __jda=122270672.1599113777051548192284.1599113777.1599113777.1600269991.2; __jdc=122270672; 3AB9D23F7A4B3C9B=LDSY3E6WRHV3RITCNYJ2HG7E2RVNRUCIX4MWRJTW4EZZENZCTC47O5GJZHSBZUKJM3IOJWMQ6J2YFJAZUCZPW6SOIA; shshshfp=1a3704f42228aa044de34a81ee616ef1; qrsc=3'}
调用requests.get函数爬取网页源代码
r=requests.get(url,headers=header)
此时可以打印出来看看是否成功
print(r.text)
显示如下图即证明爬取源代码成功
5.提取商品名称
由于我们是要寻找笔记本的商品名称,所以光爬取冗长的网页源代码还不够
调用re.findall函数来进行搜索和提取
tlt = re.findall(r'\<em\>.*笔记本.*\<\/em\>', r.text)
print(tlt)
len(tlt)
r’<em>.*笔记本.*</em>'是正则表达式,表示模糊搜索<em>标签中含有……笔记本……的语句
并写入tlt列表
len(tlt)表示输出tlt列表的长度,即代表了找到的元素的个数
运行正确时结果如下
成功得到笔记本商品名称列表
6.完整代码
import re
import requests
url='https://search.jd.com/Search?keyword=%E7%AC%94%E8%AE%B0%E6%9C%AC&enc=utf-8&spm=2.1.1'
header = {'referer':'https://diannao.jd.com/','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0','cookie':'shshshfpa=9529b92b-1cf0-6aea-4efb-869908d26320-1577165936; __jdv=122270672|www.sogou.com|-|referral|-|1599113777053; __jdu=1599113777051548192284; areaId=1; ipLoc-djd=1-2901-0-0; shshshfpb=pUb0V0GoYkEqEQAYC78QhtA%3D%3D; rkv=V0600; PCSYCityID=CN_110000_110100_110114; __jda=122270672.1599113777051548192284.1599113777.1599113777.1600269991.2; __jdc=122270672; 3AB9D23F7A4B3C9B=LDSY3E6WRHV3RITCNYJ2HG7E2RVNRUCIX4MWRJTW4EZZENZCTC47O5GJZHSBZUKJM3IOJWMQ6J2YFJAZUCZPW6SOIA; shshshfp=1a3704f42228aa044de34a81ee616ef1; qrsc=3'}
r=requests.get(url,headers=header)
#r.encoding=r.apparent_encoding
print(r.text)tlt = re.findall(r'\<em\>.*笔记本.*\<\/em\>', r.text)
print(tlt)
len(tlt)
感谢阅读
python3 爬虫入门 简单爬取京东商品名称案例 详细笔记说明相关推荐
- Python3爬虫实战之爬取京东图书图片
假如我们想把京东商城图书类的图片类商品图片全部下载到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用Python网络爬虫实现,这类爬虫称为图片爬虫,接下来,我们将实现该爬虫. 首先,打开要爬 ...
- python3 [爬虫入门实战]爬取熊猫直播用户信息
爬取国内各大直播平台直播信息是以后要做的一个功课,还必须是做成一个系列的,可能远没有其他大神那么厉害,毕竟自己经历过的就是有用的,在此做个记录一下 首先我们需要爬取的内容: 这里我们要爬取的有 直播房 ...
- 手机qpython3使用教程爬书_5.Python3爬虫入门实践——爬取名著
1.准备工作 书写爬虫之前的步骤: 1.从哪爬 where 2.爬什么 what 3.怎么爬 how 4.爬了之后信息如何保存 save 我称之为WWHS,这就是最基本的步骤了. 1.1 从哪爬whe ...
- Python爬虫入门(爬取豆瓣电影信息小结)
Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...
- Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/ 1.爬取租房标题 ...
- Python爬虫入门 | 4 爬取豆瓣TOP250图书信息
先来看看页面长啥样的:https://book.douban.com/top250 我们将要爬取哪些信息:书名.链接.评分.一句话评价-- 1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...
- python爬虫入门(一)爬取钓鱼吧
python爬虫入门(一)爬取钓鱼吧 # Date : 2022/1/1 17:11 ''' 需求:1.输入贴吧名称:钓鱼吧https://tieba.baidu.com/f?kw=钓鱼吧&p ...
- python 爬虫入门--文字爬取
python 爬虫入门–文字爬取 对于爬虫,相信大家都不陌生,但是如何入门,大家还是停留在了解认知阶段吗?那可以试试下边的方法,一起来试一下. 首先我们试试爬取网页中的***文本信息*** 使用的是我 ...
- layui获取input信息_python爬虫—用selenium爬取京东商品信息
python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...
- python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图 来源:李英杰 链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
最新文章
- 看初中生如何高薪就业
- 初学者python用什么开发软件-对于自学python的初学者来说,应该使用什么编辑工具?...
- 011_Cascader级联选择器
- Spread Studio for .NET 7: 使用现有数据填充单元格
- 网络基本功系列:细说网络那些事儿
- es6遍历树结构并判断_ES6和ES5中数据结构的遍历
- 【福利】周志华教授专著《集成学习:基础与算法》上市,豆瓣满分森林书破解AI实践难题...
- 西电计算机学院导师苗启广,Xidian Media Lab
- linux 添加重定向域名,Linux系统中Nginx的安装并进行域名认证和重定向
- 面向对象编程的两顶帽子
- latex表插入的位置不对_VSCode_LaTex_英文amp;中文配置
- 4后期盒子叫什么_考研:什么叫跨考专业?跨考专业的4大原因和存在3个方面的困难...
- ASP.NET Web API 2框架揭秘
- java基于springboot小区水电量电费管理系统
- CardView 整理
- ubuntu18.04安装dash-to-dock出错的问题
- Element DateTimePicker 日期时间选择器 今天日期设置,并获取value值
- 智能手环APP有哪些功能,具体解决方案是什么?
- css动画走马灯5秒,用animation制作走马灯
- npm ERR! code ELIFECYCLE npm ERR! errno 1 npm ERR! platform@1.0.0 start: `node build/dev-server.js`
热门文章
- rendered使用效果
- Could not fetch URL https://pypi.org/simple/pip/: There was a problem confirming the ssl certificat
- Python安装包时遇到There was a problem confirming the ssl certificate…的解决办法
- 初中数学分几个模块_初中数学所有概念! 初中数学一共可以分为几个模块,分别是什么?...
- python短信验证码_python发送短信验证码
- Autocad 2022版本插件开发基础1
- Mac 和 Windows 共享一套鼠标键盘
- 对于互联网,谈谈自己浅薄的看法
- java中isolate时间_Flutter 92: 图解 Dart 单线程实现异步处理之 Isolate (一)
- 计算机word文本段落位置互换,word中调换位置 用word怎么使两个段落互换位置