关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息
关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息
python小白最近看老师课程,发现淘宝网页升级了,用以前的代码爬不了,查找了很多资料后发现了一些缺陷,在此分享给大家
老师的代码大体上没问题,就是需要加一个headers
这里我们可以用https://curl.trillworks.com/#这个来获取headers
- 首先来到书包首页,按F12,然后按照图示步骤操纵
- 复制完cURL(bash)后点击这个链接:https://curl.trillworks.com/#,然后把内容复制到左边窗口,在获取右边窗口的headers信息就行了
- 最后在getHTNLText()函数中加上headers就行了
附上代码:
import requests
import redef getHTMLText(url):try:#在这里添加headersheader = {'authority': 's.taobao.com','cache-control': 'max-age=0','upgrade-insecure-requests': '1','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.72 Safari/537.36 Edg/89.0.774.45','accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','sec-fetch-site': 'same-origin','sec-fetch-mode': 'navigate','sec-fetch-user': '?1','sec-fetch-dest': 'document','referer': '*******','accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6,ja;q=0.5','cookie': '*******',}#这里我把cookie和referer改了,大家可以直接按照操作获取r = requests.get(url,headers = header, timeout = 30) #这里别忘了把headers加进去r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def parsePage(ilt, html):try:plt = re.findall(r'"view_price":"[\d.]*"', html) #其实老师这里加了'\'来进行转义,但其实不加也行,加了更好tlt = re.findall(r'"raw_title":".*?"', html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])ilt.append([price, title])except:print("")def printGoodsList(ilt):tplt = "{:4}\t{:8}\t{:16}"print(tplt.format("序号", "价格", "商品名称"))count = 0for g in ilt:count = count + 1print(tplt.format(count, g[0], g[1]))def main():goods = '书包'depth = 3 #爬取深度start_url = 'https://s.taobao.com/search?q=' + goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' + str(44 * i)html = getHTMLText(url)parsePage(infoList, html)except:continueprintGoodsList(infoList)main()
其实这篇文章和我上次那个爬取大学排名文章的处理方法很类似,只不过这个更麻烦,最后还是提醒以下,不要不加限制的爬取这个网页
最后附上爬取大学排名文章的链接:https://blog.csdn.net/wzy1414/article/details/114599525
关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息相关推荐
- 通过requests库re库进行淘宝商品爬虫爬取(对中国大学mooc嵩天老师爬虫进行修改)
中国大学mooc上的爬取淘宝页面商品已经因为淘宝的维护而无法爬取 比如,只出现个表头: 这是我按照嵩天老师代码学习,遇到的问题. 原代码如下: import requests import re de ...
- 定向爬取淘宝商品名称和价格(嵩天老师)
嵩天老师的代码不能爬取现在的淘宝,那是因为现在淘宝的反扒技术升级了 解决方法:我们要将headers中的cookie替换成淘宝的(每个人的cookie值是不同的) 具体方法参考:通过requests库 ...
- 使用计算机要遵循哪些规则,中国大学MOOC:\\\在计算机网络的定义中,把众多计算机有机连接起来要遵循规定的约定和规则,称之为( )。\\\;...
问题:中国大学MOOC:\\\"在计算机网络的定义中,把众多计算机有机连接起来要遵循规定的约定和规则,称之为( ).\\\"; 更多相关问题 在地方性分异因素作用下,土地类型的分布 ...
- python合法的变量名有哪些_中国大学MOOC: 以下不是Python中合法变量名的是______。...
中国大学MOOC: 以下不是Python中合法变量名的是______. 答:5MyGod "32位微型计算机"中的32指的是( ) 答:机器字长 以下是细胞因子治疗肿瘤的特点的是: ...
- python语言程序设计是什么课文_中国大学MOOC有哪些优质课程?
说到学习,相信很多人囤了一堆自学网站吧?囤完之后,是不是依然不知道要学什么? 因为免费的网络课程,质量参差不齐,试错成本太高. 所以小叶子帮大家做了这样一件事,直接帮你从中国大学MOOC里挑选了25门 ...
- 七步爬取淘宝天猫bra销售数据,分析中国女性胸部大小分布比例
这是一个有趣的项目,关于bra销售数据分析的.是网络爬虫和数据分析的综合应用项目.从淘宝抓取bra销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句.Pandas ...
- python中国大学排名爬虫写明详细步骤-python爬虫爬取2020年中国大学排名
from bs4 import BeautifulSoup # 网页解析 获取数据 import re # 正则表达式 进行文字匹配 import urllib.request, urllib.err ...
- 史上最细,Charles抓包工具的基本配置、查找接口的方法、爬取中国大学Mooc整门课程
今天给大家分享Charles这个软件,讲解基本配置和接口查询操作,最后用一个中国大学mooc的示例来展示Charles在Windows端的用法.内容丰富,技术要点详细,站里面搜索中国大学MOOC爬虫的 ...
- linux 文件在哪个硬盘,中国大学MOOC: 在Linux文件系统中,文件名也存放在磁盘上,存放于磁盘的下述哪个区域 答案:文件存储区...
相关问题 中国大学MOOC:"唐蕃会盟碑又称为甥舅会盟碑,对吗?"; 中国大学MOOC:"If students plan to study in a second la ...
最新文章
- VTK:彩色海拔地图用法实战
- Java基础学习总结(30)——Java 内存溢出问题总结
- 在asp中使用js的encodeURIComponent方法
- 微软Skype即将抛弃Windows Phone 8和8.1用户
- 百度服务器状态异常,百度抓取异常连接超时是什么意思
- 安装远程服务器管理工具(RSAT-Remote Server Administration Tools)
- Linux基本的键盘输入快捷键和一些常用命令
- Unity 获取 两个点的中心点
- safari 调试 打印刚加载界面时缓存的log信息 iOS Safari调试iPhone设备上的网页
- 从执行计划的预估行数看执行计划是否正确
- BufferQueue has been abandoned解决方案
- 1、已知:1公里=2里=1000米,请编写一个程序,输入公里数,将其转换成里和米。要求程序的输入输出如下: 请输入公里数: 3.3 3.30公里=6.60里=3300米
- Pr简介安装教学与素材全家桶
- 20190723 架构师-形成技术体系
- 中国蚁剑下载、安装、使用教程
- 物流团队怎么做阿米巴电商?
- 手写数字识别——算法
- python基础案例:迅雷下载
- jmeter怎么读(jmeter怎么读)
- Linux系统下进程的概念《一》