爬取网页数据(例如淘宝)

现在淘宝商品页面不能直接爬取,需要登录,所以我们得实现模拟登录,如下即可实现模拟登录:

import requests
cookie_str = r'cna=QsJDGKPtOQUCAXlFXn56tO/s; xlly_s=1; l=eBQUzrqIOlT7oVE9BOfZnurza77TIIRAguPzaNbMiOCPOO1p5qNdWZ7huN89CnGVhsNWR3u14VQUBeYBqImRv7aW0XW42kkmn;'
cookies = {}
for line in cookie_str.split(';'):key, value = line.split('=', 1)cookies[key] = value
#resp = requests.get(url, headers = headers, cookies = cookies) #cookies可以在发送请求时这样传过去

cookie来源:
打开淘宝登录页面登录然后打开调试器,点击network中的请求数据链接,查看cookies

爬取数据全部代码:re 模块使 Python 语言拥有全部的正则表达式功能

import re
import requestsurl = 'https://s.taobao.com/search?q=%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%BD%91%E7%BB%9C&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20201126&ie=utf8'
payload = {'q': 'g_page_config','s': '1','ie':'utf8'}  #字典传递url参数
file = open('C:/Users/YHAA-1ED2A3/Desktop/taobao_product.txt','w',encoding='utf-8')
cookie_str = r'cna=QsJDGKPtOQUCAXlFXn56tO/s; xlly_s=1; l=eBQUzrqIOlT7oVE9BOfZnurza77TIIRAguPzaNbMiOCPOO1p5qNdWZ7huN89CnGVhsNWR3u14VQUBeYBqImRv7aW0XW42kkmn;'
cookies = {}
headers = {'User-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}
for line in cookie_str.split(';'):key, value = line.split('=', 1)cookies[key] = value
for k in range(0,1):        #1次,就是1个页的商品数据payload ['s'] = 44*k+1   #数量resp = requests.get(url, headers = headers, cookies = cookies)# print(resp.text)          #打印文本# print(resp.url)          #打印访问的网址resp.encoding = 'utf-8'  #设置编码# file.write(resp.text)title = re.findall(r'"raw_title":"([^"]+)"',resp.text,re.I)  #正则保存所有raw_title的内容,这个是名称price = re.findall(r'"view_price":"([^"]+)"',resp.text,re.I) #价格loc = re.findall(r'"item_loc":"([^"]+)"',resp.text,re.I) #地址x = len(title)           #每一页商品的数量for i in range(0,x) :    #把列表的数据保存到文件中file.write(str(k*44+i+1)+'名称:'+title[i]+'\n'+'价格:'+price[i]+'\n'+'地址:'+loc[i]+'\n\n')print(title[i])
file.close()

python爬取网页数据(例如淘宝)相关推荐

  1. python爬取网页公开数据_如何用Python爬取网页数据

    使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...

  2. 编程python爬取网页数据教程_实例讲解Python爬取网页数据

    一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...

  3. python爬虫教程:实例讲解Python爬取网页数据

    这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧. 一.利用webbrowser.open()打开一个网站: >>> import w ...

  4. Python小姿势 - Python爬取网页数据

    Python爬取网页数据 爬取网页数据是一个比较常见的Python应用场景,有很多第三方库可以帮助我们完成这个任务.这里我们介绍一下urllib库中的一个常用方法:urllib.request.url ...

  5. 如何用python爬取网页数据,python爬取网页详细教程

    大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...

  6. Python爬取网页数据基本步骤

    Python爬取网页数据基本步骤: from urllib import request response = request.urlopen('完整的网址') import requests imp ...

  7. python爬取网页数据流程_Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  8. python爬取网页数据软件_python爬虫入门10分钟爬取一个网站

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  9. python爬虫获取的网页数据为什么要加[0-使用 Python 爬取网页数据

    1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...

最新文章

  1. failed to open mysql_MySql使用全记录5 —–解决Windows下用命令导入sql文件时”Failed to open file”的问题 | 学步园...
  2. 简单查询(1.普通查询2.条件查询3.模糊查询4.排序查询5.统计查询(聚合函数)6.分组查询7.分页查询)...
  3. owncloud 10.0 php,基于Linux云服务器CentOS 7上安装OwnCloud 10.0.8
  4. Android Studio Cmake C++ JNI demo
  5. ognl概念和原理详解
  6. python3调用arcpy地理加权回归_混合地理加权回归python实现代码
  7. 笔记本电脑触摸板操作
  8. Matlab实现基于元胞自动机模拟室内人员疏散的最基本模型
  9. 2011新版车主宝典改进亲体验(Android版)
  10. ubuntu 改屏幕分辨率命令_ubuntu 修改分辨率为自定义分辨率
  11. buuctf web1
  12. 该充电时就充电,电池生命力才会持久,人何尝不是呢?
  13. html 单选 lable,label 标签的用法,点label选中单选、复选框或文本框
  14. 谷歌地图升级后,地图运行一会儿就卡住的ANR分析及解决方法
  15. 火爆全网送给女朋友的微信每日多次消息推送程序来了!多版本多平台!
  16. 计算机信息系统安全的概论,信息安全概论
  17. AC. Anu Has a Function
  18. python opencv windows 快速测试摄像头连接 demo
  19. 抓实“链长制”,维护产业链稳定,推进产业链纵深拓展和升级再造
  20. 软考-软件设计师-复习整理

热门文章

  1. 亚马逊云EC2助力5G产品测试
  2. d3 企业图谱 仿天眼查 企查查
  3. 关于词嵌入(Word Embedding)的一些总结
  4. win32应用程序_winxp不是有效的win32应用程序解决方法
  5. 蓝桥杯 Python 练习题 数列排序
  6. AD7760数据采集系统设计 [FPGA逻辑设计]
  7. 解决面部毛孔粗大的7个小窍门 - 健康程序员,至尚生活!
  8. 关于中小学编程教育的一些看法
  9. APP服务器需要什么样的配置
  10. php生成其他网页截图,php实现网页截图