python爬淘宝的退货信息_Python——淘宝商品信息定向爬虫（requests+re）

有点崩，现在好像爬取不到任何东西了

目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格

理解：

1.怎样去通过程序向淘宝提交请求，并获得提取的结果

2.怎样展示翻页的处理

首先我们要查看淘宝网的robots协议，查看那一部分是我们可以爬取的(查看一个网站的robots就是在这个网站的根目录后加上 /robots.txt 就可以了)

这里淘宝的robots 协议表明我们是不能爬取任何东西的,但这里的操作和正常的访问相似的，而且不是恶意的爬取，所以可以继续操作

具体步骤：

1.提交商品搜索请求，循环获取页面

2.对于每个页面，提取商品名称和价格信息

(这里我们通过查看原网站的源代码查看我们想要获得的信息在源代码的位置或者对应标记。这个实例中我们发现在源代码中商品的价格都出现在‘view_price’后，这就是对应的标记)

3.将信息输出到屏幕上

import requests

import re

def getHTMLText(url):

try:

r = requests.get(url,timeout = 30)

r.raise_for_status()

r.endcoding = r.apparent_encoding

return r.text

except:

return ""

def parsePage(ilt,html):

try:

plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)#用正则表达式匹配信息

tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)

for i in range(len(plt)):

price = eval(plt[i].spilt(':')[1])

titlt = eval(tlt[i].spilt(':')[1])

ilt.append([price,title])

except:

print("")

def printGoodsList(ilt):#打印获得的信息

tplt = "{:4}\t{:8}\t{:16}"

print(tplt.format("序号","价格","商品名称"))

count = 0

for g in ilt:

count = count+1

print(tplt.format(count,g[0],g[1]))

def main():

goods = '书包'#搜索关键词

depth = 2; #爬取的深度

start_url = 'http://s.taobao.com/search?q='+ goods

infoList = []

for i in range(depth): #对每一个页面进行单独的操作

try:

url = start_url + '&s=' +str(44*i)

html = getHTMLText(url)

parsePage(infoList,html)

except:

continue

printGoodsList(infoList)

main()

python爬淘宝的退货信息_Python——淘宝商品信息定向爬虫（requests+re）相关推荐

在当当买了python怎么下载源代码-Python爬取当当、京东、亚马逊图书信息代码实例...
注:1.本程序采用MSSQLserver数据库存储,请运行程序前手动修改程序开头处的数据库链接信息 2.需要bs4.requests.pymssql库支持 3.支持多线程 from bs4 impor ...
python 爬取菜鸟教程python100题，百度贴吧图片反爬虫下载，批量下载
每天一点点,记录学习 python 爬取菜鸟教程python100题近期爬虫项目,看完请点赞哦: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:pytho ...
Java学习_根据用户信息查看浏览过商品信息
学习内容: 通过用户类和商品类来设置和查询相关信息学习代码: package Example; //新建一个用户类 class User{private String uid; //用户idpriv ...
python爬取网页书籍名称代码_python爬取亚马逊书籍信息代码分享
我有个需求就是抓取一些简单的书籍信息存储到mysql数据库,例如,封面图片,书名,类型,作者,简历,出版社,语种. 我比较之后,决定在亚马逊来实现我的需求. 我分析网站后发现,亚马逊有个高级搜索的功能 ...
python 爬取道客巴巴文档_Python常用的几个高效率的爬虫框架
1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中.用这个框架可以轻松爬下来如亚马逊商品信息之类的数 ...
python爬取饿了么评论_python爬取饿了么的实例
python爬取饿了么的实例发布时间:2020-11-17 10:55:40 来源:亿速云阅读:85 作者:小新小编给大家分享一下python爬取饿了么的实例,相信大部分人都还不怎么了解,因此分 ...
python爬取豆瓣电影并分析_Python实战之如何爬取豆瓣电影？本文教你
爬虫又称为网页蜘蛛,是一种程序或脚本. 但重点在于,它能够按照一定的规则,自动获取网页信息. 爬虫的基本原理--通用框架 1.挑选种子URL: 2.讲这些URL放入带抓取的URL列队: 3.取出带抓取 ...
python爬取酷狗付费音乐_python爬蟲教程：爬取酷狗音樂
在常見的幾個音樂網站里,酷狗可以說是最好爬取的啦,什么彎都沒有,也沒加密啥的,所以最適合小白入門爬蟲本篇針對爬蟲零基礎的小白,所以每一步驟我都截圖並詳細解釋了,其實我自己看着都啰嗦,歸根到底就是兩個 ...
淘宝/天猫API：item_list_weight-批量获取商品信息
万邦淘宝/天猫批量获取商品信息 API 返回值说明 item_list_weight-批量获取商品信息 onebound.taobao.item_list_weight 公共参数请求地址: http ...
python爬取微博数据存入数据库_Python爬取新浪微博评论数据，写入csv文件中
因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...

python爬淘宝的退货信息_Python——淘宝商品信息定向爬虫（requests+re）

python爬淘宝的退货信息_Python——淘宝商品信息定向爬虫（requests+re）相关推荐

最新文章

热门文章