python对京东评论的爬取_python爬取京东评论(三)
上篇我们只爬了一个牌子的文胸,这次我们来多爬几个牌子的
1.爬取不同牌子的url
得到id
其实可以直接爬那个href,但我发现有的带了https有的没带就索性直接取id拼接了
import requests
import json
import threading
import time
import re
from lxml import etree
class cup:
def __init__(self):
self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
self.url = 'https://item.jd.com/'
def vari_cpu(self):#取到不同类型文胸的评论json
url_list = []
url = 'https://search.jd.com/Search?keyword=%E6%96%87%E8%83%B8&enc=utf-8&spm=2.1.1'
html = requests.get(url,headers = self.headers).text
html = etree.HTML(html)
cpu_link = html.xpath('//div[@class="p-icons"]/@id')
for i in cpu_link:#网页后缀
i = i[6::] #得到数字的部分
Fin_url = f'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv12370&productId={i}'
#format的新用法
url_list.append(Fin_url) #url列表
return url_list
def get_json(self,url):
res = requests.get(url, headers=self.headers).text
s = re.compile(r'fetchJSON_comment.*?\(')
uesless = str(s.findall(res))
jd = json.loads(res.lstrip(uesless).rstrip(');'))
com_list = jd['comments']
for i in com_list:
print(i['productColor'],i['productSize'])
if __name__ == '__main__':
pa = cup()
url_list = pa.vari_cpu()
for j in url_list:
for i in range(3):
js_url = j+'&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&rid=0&fold=1'%i
time.sleep(1)
t = threading.Thread(target=pa.get_json, args=(js_url,))
t.start()
我直接把json的url里面的id换成各自的id了,发现竟然可行,那就可行吧,省的麻烦.
这里还是有不完善的地方,就是那个线程,等会儿去补补线程进程内容,再改进一波,这个不敢爬多,先微微爬点看看,不过我看那一堆玩意儿是贞德多,就不发了
宁外我还发现它的首页竟然还藏着一个ajax,当你不下拉时就30个牌子,一下拉变60个了.....
未完待续
python对京东评论的爬取_python爬取京东评论(三)相关推荐
- python网易云歌词做成词云图_Python爬取李荣浩最短歌曲贝贝的网易云评论并做成词云图...
前言 在18 年的 10 月 17 号,李荣浩发了一张新专辑「耳朵」,专辑里有一首歌「贝贝」,只有 4 秒,歌词也就两个字.而且这首歌的作曲 .作词 .编曲.制作人.和声.录音师.混音师.录音室.混音 ...
- python微博评论抓取_python抓取新浪微博评论并分析
1,实现效果 2,数据库 3.主要步骤 1,输入账号password,模拟新浪微博登陆 2,抓取评论页的内容 3.用正則表達式过滤出username,评论时间和评论内容 4,将得到的内容存入数据库 5 ...
- python爬虫网易云音乐评论最多的歌_Python网易云音乐评论爬虫,歌曲的全部评论...
用过网易云音乐听歌的朋友都知道,网易云音乐每首歌曲后面都有很多评论,热门歌曲的评论更是接近百万或者是超过百万条.现在我就来分享一下如何爬取网易云音乐歌曲的全部评论,由于网易云音乐的评论都做了混淆加密处 ...
- python爬取网易云评论最多的歌_python爬取网易云音乐评论
本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...
- python爬取微博评论超100页_python爬取新浪微博评论-Go语言中文社区
简介 爬取微博m站评论.由于api限制只能爬取前100页,如果想要更全数据需爬pc端. 工具 python 3.5 requests库 re库 步骤 1. 登陆保存cookie 首先,打开m.weib ...
- python爬取京东数据加载失败_python 爬京东数据时,无法登陆。
想使用python爬取京东的快递信息,现在需要解决的首要问题是使用python模拟浏览器登陆,遇到了下面的问题. _t _ntNBMNX ({"username":"\u ...
- python实现qq登录腾讯视频_Python爬取腾讯视频评论的思路详解
一.前提条件 安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器 如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于代理服务器 有Python的编译环境,一般选择Py ...
- python爬取京东数据加载失败_Python爬取京东商品数据
对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,sea ...
- python能不能爬数据库_python爬取数据后不能写入到数据库中
目标:去爬当当网某页内容中的书籍的名称,链接和评论数,然后写入数据库中 pipelins内容如下: import pymysql class DangdangPipeline(object):def ...
- python写彩票抓取_Python|爬取彩票数据
pyhton|爬取彩票数据 背景:作者之前看到过不少朋友介绍利用python环境来爬取彩票数据的文章,方法大致都很类似,今天我也讲一下关于传统方法解析网页获得数据,同时给大家介绍一种可能被大家忽略的方 ...
最新文章
- 实时音视频聊天中超低延迟架构的思考与技术实践
- [Voice communications] 让音乐响起来
- 我们该怎么成为技术尖子生
- 【VS开发】【DSP开发】WinDriver简介(或介绍)
- 万维钢新书《你有你的计划,世界另有计划》_《丑小鸭定理》读书笔记
- 可以直接反编译Mips架构的IDA版本(无需安装脚本)
- proxy connect abort处理方法_Vue 3.0 初探 - Proxy
- 工作314:uni-提交成功加入表单验证
- orcad如何设置模块化设计_这个模块化的办公桌让您设计每一个元素,以创造完美的工作设置...
- Linux 批量创建用户及设置随机密码
- 软件配置管理计划示例
- [超详细] 2021支付宝集五福【攻略】来了-附自动化脚本
- Pillow为图片添加水印
- ICLR 2020 图神经学习论文汇总
- 火狐浏览器Firebug控制台显示本页面不包含 javascript的解决方案 debugger 无效解决方案
- php ucenter home登录,UCenter Home
- [codevs1746][NOI2002] 贪吃的九头龙 树形DP
- 第7章 CustomView绘图进阶
- 5941. 找出知晓秘密的所有专家
- mysql group top_Mysql group by 后取 top N 问题
热门文章
- [我教你学]四步解决微软鼠标单击变双击问题
- 知我者,谓我心忧,不知我者,谓我何求。何必说?
- Photoshop抠图大决战
- 用你的微笑魔力征服下属
- 软件的hil测试,电力电子新能源仿真测试HIL
- php 遍历文件夹并压成zip_将文件夹压缩成zip文件的php代码
- Mybatis出现Mapped Statements collection already contains value for
- 获取classpath(src/main/resources)的绝对路径
- php 499状态如何处理,HTTP499状态码 nginx下499错误及其解决方法
- 在子窗体中点击超级链接,关闭子窗体并刷新打开它的父窗体