爬虫9-淘宝商品信息定向爬虫

功能描述：

目标　　获取淘宝搜索页面的信息，提取其中的商品信息名称和价格

理解　　淘宝的搜索接口翻页的处理

技术路线　　requests re

当我们在淘宝上搜索书包时：

观察淘宝页面可知每一页共44个商品。

同时通过robots协议，发现不支持爬取。

程序的结构设计：

1、提交商品搜索需求，循环获取页面

2、对于每个页面，提取商品名称和价格信息

3、将信息输出在屏幕上

import requests
import redef getHTMLText(url):print('')def parserPage(ilt,html):print('')def printGoodList(ilt):print('')def main():goods='书包'#搜索关键词depth=2#爬取深度start_url='https://s.taobao.com/search?q='+goods#初始链接infoList=[]#输出列表for i in range(depth):try:url=start_url+'&s='+str(44*i)html=getHTMLText(url)parserPage(infoList,html)except:continueprintGoodList(infoList)
main()

代码编写习惯，先写框架，再填充丰满。

完整程序：

import requests
import redef getHTMLText(url):try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.textexcept:return ''def parserPage(ilt,html):try:plt=re.findall(r'\"view_price\"\:\"[\d\.]*"',html)tlt=re.findall(r'\"raw_title\"\:\".*?"',html)#加问号最小匹配for i in range(len(plt)):#eval函数去掉最外层的单引号 双引号price=eval(plt[i].split(':')[1])#只保留键值对中的数字部分title=eval(tlt[i].split(':')[1])ilt.append([price,title])except:print('')def printGoodList(ilt):#打印模板tplt='{:4}\t{:8}\t{:16}'print(tplt.format('序号','价格','商品名称'))count=0for q in ilt:count=count+1print(tplt.format(count,q[0],q[1]))def main():goods='书包'#搜索关键词depth=2#爬取深度start_url='https://s.taobao.com/search?q='+goods#初始链接infoList=[]#输出列表for i in range(depth):try:url=start_url+'&s='+str(44*i)html=getHTMLText(url)parserPage(infoList,html)except:continueprintGoodList(infoList)
main()

输出;

转载于:https://www.cnblogs.com/rayshaw/p/8620920.html

爬虫9-淘宝商品信息定向爬虫相关推荐

Python爬虫学习笔记(实例：淘宝商品信息定向爬虫)
淘宝商品信息定向爬虫先贴代码,后看解析: #淘宝商品信息定向爬虫 import requests import re#获得页面 def getHTMLText(url):try:#headers = ...
中国大学MOOC“淘宝商品信息定向爬虫”实例（2022版）
目标: 获取淘宝搜索页面的信息提取其中的商品名称和价格 (一)程序的结构设计: 1:提交商品搜索请求,循环获取页面 2:对于每个页面,提取商品名称和价格信息 3:将信息输出到屏幕上 (二)代码实现: ...
淘宝商品信息定向爬虫
只用来学习请勿无限制使用爬虫功能描述目标:获取淘宝搜索页面的信息媒体去其中的商品名称和价格程序的结构设计步骤1:提交商品搜索请求,循环获取页面步骤2:对每个页面,提取商品名称和价格信息步骤 ...
淘宝商品信息定向爬虫实例
1.说明获得淘宝的搜索接口淘宝搜索页面不允许爬虫爬取不要不加限制的爬取次网站 2.代码 import re import requestsdef getHTMLText(url):try:hea ...
python爬淘宝的退货信息_Python——淘宝商品信息定向爬虫（requests+re）
有点崩,现在好像爬取不到任何东西了目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格理解: 1.怎样去通过程序向淘宝提交请求,并获得提取的结果 2.怎样展示翻页的处理首先我们要查看淘宝网的r ...
Python爬虫淘宝商品信息定向爬虫
代码: import requests import redef getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_s ...
Python爬虫入门实例五之淘宝商品信息定向爬取(优化版)
文章目录写在前面一.爬取原页面二.编程思路 1.功能描述 2.程序的结构设计三.编程过程 1.解决翻页问题 2.编写getHTMLText()函数 3.编写parsePage()函数 (1). ...
网络爬虫实战||淘宝、股票定向爬虫
正则表达式的概念 regular expression regex RE 正则表达式是用来简洁表达一组字符串的表达式. 正则表达式的优势:简洁正则表达式的语法 ...
网络定向爬虫实例---淘宝商品信息比价
目录一.前言: 二.前期准备: 1.如何绕过防爬虫 2.一些常见的问题及处理方法: 三.爬虫实例结构分析: 1.主体结构: 2.分析: (1)爬虫可行性: (2)网站数据结构四.爬虫实例展示: 1 ...

爬虫9-淘宝商品信息定向爬虫

爬虫9-淘宝商品信息定向爬虫相关推荐

最新文章

热门文章