有点崩,现在好像爬取不到任何东西了

目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格

理解:

1.怎样去通过程序向淘宝提交请求,并获得提取的结果

2.怎样展示翻页的处理

首先我们要查看淘宝网的robots协议,查看那一部分是我们可以爬取的(查看一个网站的robots就是在这个网站的根目录后加上   /robots.txt   就可以了)

这里淘宝的robots 协议表明我们是不能爬取任何东西的,但这里的操作和正常的访问相似的,而且不是恶意的爬取,所以可以继续操作

具体步骤:

1.提交商品搜索请求,循环获取页面

2.对于每个页面,提取商品名称和价格信息

(这里我们通过查看原网站的源代码查看我们想要获得的信息在源代码的位置或者对应标记。这个实例中我们发现在源代码中商品的价格都出现在‘view_price’后,这就是对应的标记)

3.将信息输出到屏幕上

import requests

import re

def getHTMLText(url):

try:

r = requests.get(url,timeout = 30)

r.raise_for_status()

r.endcoding = r.apparent_encoding

return r.text

except:

return ""

def parsePage(ilt,html):

try:

plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)#用正则表达式匹配信息

tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)

for i in range(len(plt)):

price = eval(plt[i].spilt(':')[1])

titlt = eval(tlt[i].spilt(':')[1])

ilt.append([price,title])

except:

print("")

def printGoodsList(ilt):#打印获得的信息

tplt = "{:4}\t{:8}\t{:16}"

print(tplt.format("序号","价格","商品名称"))

count = 0

for g in ilt:

count = count+1

print(tplt.format(count,g[0],g[1]))

def main():

goods = '书包'#搜索关键词

depth = 2; #爬取的深度

start_url = 'http://s.taobao.com/search?q='+ goods

infoList = []

for i in range(depth): #对每一个页面进行单独的操作

try:

url = start_url + '&s=' +str(44*i)

html = getHTMLText(url)

parsePage(infoList,html)

except:

continue

printGoodsList(infoList)

main()

python爬淘宝的退货信息_Python——淘宝商品信息定向爬虫(requests+re)相关推荐

  1. 在当当买了python怎么下载源代码-Python爬取当当、京东、亚马逊图书信息代码实例...

    注:1.本程序采用MSSQLserver数据库存储,请运行程序前手动修改程序开头处的数据库链接信息 2.需要bs4.requests.pymssql库支持 3.支持多线程 from bs4 impor ...

  2. python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载

    每天一点点,记录学习 python 爬取菜鸟教程python100题 近期爬虫项目,看完请点赞哦: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:pytho ...

  3. Java学习_根据用户信息查看浏览过商品信息

    学习内容: 通过用户类和商品类来设置和查询相关信息 学习代码: package Example; //新建一个用户类 class User{private String uid; //用户idpriv ...

  4. python爬取网页书籍名称代码_python爬取亚马逊书籍信息代码分享

    我有个需求就是抓取一些简单的书籍信息存储到mysql数据库,例如,封面图片,书名,类型,作者,简历,出版社,语种. 我比较之后,决定在亚马逊来实现我的需求. 我分析网站后发现,亚马逊有个高级搜索的功能 ...

  5. python 爬取道客巴巴文档_Python常用的几个高效率的爬虫框架

    1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中.用这个框架可以轻松爬下来如亚马逊商品信息之类的数 ...

  6. python爬取饿了么评论_python爬取饿了么的实例

    python爬取饿了么的实例 发布时间:2020-11-17 10:55:40 来源:亿速云 阅读:85 作者:小新 小编给大家分享一下python爬取饿了么的实例,相信大部分人都还不怎么了解,因此分 ...

  7. python爬取豆瓣电影并分析_Python实战之如何爬取豆瓣电影?本文教你

    爬虫又称为网页蜘蛛,是一种程序或脚本. 但重点在于,它能够按照一定的规则,自动获取网页信息. 爬虫的基本原理--通用框架 1.挑选种子URL: 2.讲这些URL放入带抓取的URL列队: 3.取出带抓取 ...

  8. python爬取酷狗付费音乐_python爬蟲教程:爬取酷狗音樂

    在常見的幾個音樂網站里,酷狗可以說是最好爬取的啦,什么彎都沒有,也沒加密啥的,所以最適合小白入門爬蟲 本篇針對爬蟲零基礎的小白,所以每一步驟我都截圖並詳細解釋了,其實我自己看着都啰嗦,歸根到底就是兩個 ...

  9. 淘宝/天猫API:item_list_weight-批量获取商品信息

    万邦淘宝/天猫批量获取商品信息 API 返回值说明 item_list_weight-批量获取商品信息 onebound.taobao.item_list_weight 公共参数 请求地址: http ...

  10. python爬取微博数据存入数据库_Python爬取新浪微博评论数据,写入csv文件中

    因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式 操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...

最新文章

  1. P2801 教主的魔法(分块入门)
  2. Python3学习笔记----环境安装及文本编辑器的选择
  3. iOS开发UI篇—ios应用数据存储方式(XML属性列表-plist)
  4. linux传输文件到linux速度慢,linux中往nand(jffs2)中拷贝文件时速度慢的问题
  5. 基础网络和关键基础设施
  6. html基于web2.0标准,晕倒:“用web2.0来制作符合标准的页面”
  7. 从零开始netty学习笔记之BIO
  8. 玩玩Xamarin Evolve 2016带来的新特性(一)-iOS Simulator(for Windows)
  9. extjs 提交表单给php,JavaScript_Extjs学习笔记之二 初识Extjs之Form,Extjs中的表单组件是Ext.form.Basic - phpStudy...
  10. linux basename学习
  11. android创建桌面快捷键shortcut
  12. amd k14主板参数_R5 1400配什么主板好?R5-1400主板搭配与参数详解 (全文)
  13. android百度输入法表情符号,表情符号怎么打?百度输入法打表情符号的方法
  14. 云终端服务器属于计算机设备吗,云终端不等于云电脑
  15. 题:斐波那契数列(Fibonacci数列)——一个数最少几步变成斐波那契数列的数
  16. 什么电脑录音软件是最好用的
  17. TSINGSEE青犀视频云-边-端架构视频智能分析平台EasyNVR如何实现直播地址和录像地址统一
  18. AWS为什么能成功?
  19. 【踩坑日记】阿里云表格存储
  20. 量化系统工程师需要学什么?

热门文章

  1. 树莓派3B读取PMW3901光流模块摘要
  2. 表单的2个字和4个字对齐
  3. 黑龙江省2017年执业药师考试准考证打印时间
  4. 27.Linux网络编程socket变成 tcp 高并发 线程池 udp
  5. 让make最快速度的编译
  6. 消防也有大“智慧”,智慧消防助力传统消防产业升级
  7. Android中inflate方法的用法
  8. python控制ie_【Python PAMIE模块实现IE自动化】
  9. linux鼠标中键不能粘贴,解决Ubuntu 20.04在Thinkpad上的鼠标中键的粘贴问题
  10. could not broadcast input array from shape (64,64,3) into shape (64,64,4)