关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息

python小白最近看老师课程，发现淘宝网页升级了，用以前的代码爬不了，查找了很多资料后发现了一些缺陷，在此分享给大家

老师的代码大体上没问题，就是需要加一个headers
这里我们可以用https://curl.trillworks.com/#这个来获取headers

首先来到书包首页，按F12，然后按照图示步骤操纵
复制完cURL(bash)后点击这个链接：https://curl.trillworks.com/#，然后把内容复制到左边窗口，在获取右边窗口的headers信息就行了
最后在getHTNLText()函数中加上headers就行了

附上代码：

import requests
import redef getHTMLText(url):try:#在这里添加headersheader = {'authority': 's.taobao.com','cache-control': 'max-age=0','upgrade-insecure-requests': '1','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.72 Safari/537.36 Edg/89.0.774.45','accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','sec-fetch-site': 'same-origin','sec-fetch-mode': 'navigate','sec-fetch-user': '?1','sec-fetch-dest': 'document','referer': '*******','accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6,ja;q=0.5','cookie': '*******',}#这里我把cookie和referer改了，大家可以直接按照操作获取r = requests.get(url,headers = header, timeout = 30)  #这里别忘了把headers加进去r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def parsePage(ilt, html):try:plt = re.findall(r'"view_price":"[\d.]*"', html) #其实老师这里加了'\'来进行转义，但其实不加也行，加了更好tlt = re.findall(r'"raw_title":".*?"', html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])ilt.append([price, title])except:print("")def printGoodsList(ilt):tplt = "{:4}\t{:8}\t{:16}"print(tplt.format("序号", "价格", "商品名称"))count = 0for g in ilt:count = count + 1print(tplt.format(count, g[0], g[1]))def main():goods = '书包'depth = 3   #爬取深度start_url = 'https://s.taobao.com/search?q=' + goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' + str(44 * i)html = getHTMLText(url)parsePage(infoList, html)except:continueprintGoodsList(infoList)main()

其实这篇文章和我上次那个爬取大学排名文章的处理方法很类似，只不过这个更麻烦，最后还是提醒以下，不要不加限制的爬取这个网页

最后附上爬取大学排名文章的链接：https://blog.csdn.net/wzy1414/article/details/114599525

关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息相关推荐

通过requests库re库进行淘宝商品爬虫爬取（对中国大学mooc嵩天老师爬虫进行修改）
中国大学mooc上的爬取淘宝页面商品已经因为淘宝的维护而无法爬取比如,只出现个表头: 这是我按照嵩天老师代码学习,遇到的问题. 原代码如下: import requests import re de ...
定向爬取淘宝商品名称和价格（嵩天老师）
嵩天老师的代码不能爬取现在的淘宝,那是因为现在淘宝的反扒技术升级了解决方法:我们要将headers中的cookie替换成淘宝的(每个人的cookie值是不同的) 具体方法参考:通过requests库 ...
使用计算机要遵循哪些规则,中国大学MOOC:\\\在计算机网络的定义中，把众多计算机有机连接起来要遵循规定的约定和规则，称之为（）。\\\;...
问题:中国大学MOOC:\\\"在计算机网络的定义中,把众多计算机有机连接起来要遵循规定的约定和规则,称之为( ).\\\"; 更多相关问题在地方性分异因素作用下,土地类型的分布 ...
python合法的变量名有哪些_中国大学MOOC: 以下不是Python中合法变量名的是______。...
中国大学MOOC: 以下不是Python中合法变量名的是______. 答:5MyGod "32位微型计算机"中的32指的是( ) 答:机器字长以下是细胞因子治疗肿瘤的特点的是: ...
python语言程序设计是什么课文_中国大学MOOC有哪些优质课程？
说到学习,相信很多人囤了一堆自学网站吧?囤完之后,是不是依然不知道要学什么? 因为免费的网络课程,质量参差不齐,试错成本太高. 所以小叶子帮大家做了这样一件事,直接帮你从中国大学MOOC里挑选了25门 ...
七步爬取淘宝天猫bra销售数据，分析中国女性胸部大小分布比例
这是一个有趣的项目,关于bra销售数据分析的.是网络爬虫和数据分析的综合应用项目.从淘宝抓取bra销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句.Pandas ...
python中国大学排名爬虫写明详细步骤-python爬虫爬取2020年中国大学排名
from bs4 import BeautifulSoup # 网页解析获取数据 import re # 正则表达式进行文字匹配 import urllib.request, urllib.err ...
史上最细，Charles抓包工具的基本配置、查找接口的方法、爬取中国大学Mooc整门课程
今天给大家分享Charles这个软件,讲解基本配置和接口查询操作,最后用一个中国大学mooc的示例来展示Charles在Windows端的用法.内容丰富,技术要点详细,站里面搜索中国大学MOOC爬虫的 ...
linux 文件在哪个硬盘,中国大学MOOC: 在Linux文件系统中，文件名也存放在磁盘上，存放于磁盘的下述哪个区域答案：文件存储区...
相关问题中国大学MOOC:"唐蕃会盟碑又称为甥舅会盟碑,对吗?"; 中国大学MOOC:"If students plan to study in a second la ...

关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息

关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息

关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息相关推荐

最新文章

热门文章