上篇我们只爬了一个牌子的文胸,这次我们来多爬几个牌子的

1.爬取不同牌子的url

得到id

其实可以直接爬那个href,但我发现有的带了https有的没带就索性直接取id拼接了

import requests

import json

import threading

import time

import re

from lxml import etree

class cup:

def __init__(self):

self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}

self.url = 'https://item.jd.com/'

def vari_cpu(self):#取到不同类型文胸的评论json

url_list = []

url = 'https://search.jd.com/Search?keyword=%E6%96%87%E8%83%B8&enc=utf-8&spm=2.1.1'

html = requests.get(url,headers = self.headers).text

html = etree.HTML(html)

cpu_link = html.xpath('//div[@class="p-icons"]/@id')

for i in cpu_link:#网页后缀

i = i[6::] #得到数字的部分

Fin_url = f'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv12370&productId={i}'

#format的新用法

url_list.append(Fin_url) #url列表

return url_list

def get_json(self,url):

res = requests.get(url, headers=self.headers).text

s = re.compile(r'fetchJSON_comment.*?\(')

uesless = str(s.findall(res))

jd = json.loads(res.lstrip(uesless).rstrip(');'))

com_list = jd['comments']

for i in com_list:

print(i['productColor'],i['productSize'])

if __name__ == '__main__':

pa = cup()

url_list = pa.vari_cpu()

for j in url_list:

for i in range(3):

js_url = j+'&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&rid=0&fold=1'%i

time.sleep(1)

t = threading.Thread(target=pa.get_json, args=(js_url,))

t.start()

我直接把json的url里面的id换成各自的id了,发现竟然可行,那就可行吧,省的麻烦.

这里还是有不完善的地方,就是那个线程,等会儿去补补线程进程内容,再改进一波,这个不敢爬多,先微微爬点看看,不过我看那一堆玩意儿是贞德多,就不发了

宁外我还发现它的首页竟然还藏着一个ajax,当你不下拉时就30个牌子,一下拉变60个了.....

未完待续

python对京东评论的爬取_python爬取京东评论(三)相关推荐

  1. python网易云歌词做成词云图_Python爬取李荣浩最短歌曲贝贝的网易云评论并做成词云图...

    前言 在18 年的 10 月 17 号,李荣浩发了一张新专辑「耳朵」,专辑里有一首歌「贝贝」,只有 4 秒,歌词也就两个字.而且这首歌的作曲 .作词 .编曲.制作人.和声.录音师.混音师.录音室.混音 ...

  2. python微博评论抓取_python抓取新浪微博评论并分析

    1,实现效果 2,数据库 3.主要步骤 1,输入账号password,模拟新浪微博登陆 2,抓取评论页的内容 3.用正則表達式过滤出username,评论时间和评论内容 4,将得到的内容存入数据库 5 ...

  3. python爬虫网易云音乐评论最多的歌_Python网易云音乐评论爬虫,歌曲的全部评论...

    用过网易云音乐听歌的朋友都知道,网易云音乐每首歌曲后面都有很多评论,热门歌曲的评论更是接近百万或者是超过百万条.现在我就来分享一下如何爬取网易云音乐歌曲的全部评论,由于网易云音乐的评论都做了混淆加密处 ...

  4. python爬取网易云评论最多的歌_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  5. python爬取微博评论超100页_python爬取新浪微博评论-Go语言中文社区

    简介 爬取微博m站评论.由于api限制只能爬取前100页,如果想要更全数据需爬pc端. 工具 python 3.5 requests库 re库 步骤 1. 登陆保存cookie 首先,打开m.weib ...

  6. python爬取京东数据加载失败_python 爬京东数据时,无法登陆。

    想使用python爬取京东的快递信息,现在需要解决的首要问题是使用python模拟浏览器登陆,遇到了下面的问题. _t _ntNBMNX ({"username":"\u ...

  7. python实现qq登录腾讯视频_Python爬取腾讯视频评论的思路详解

    一.前提条件 安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器 如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于代理服务器 有Python的编译环境,一般选择Py ...

  8. python爬取京东数据加载失败_Python爬取京东商品数据

    对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,sea ...

  9. python能不能爬数据库_python爬取数据后不能写入到数据库中

    目标:去爬当当网某页内容中的书籍的名称,链接和评论数,然后写入数据库中 pipelins内容如下: import pymysql class DangdangPipeline(object):def ...

  10. python写彩票抓取_Python|爬取彩票数据

    pyhton|爬取彩票数据 背景:作者之前看到过不少朋友介绍利用python环境来爬取彩票数据的文章,方法大致都很类似,今天我也讲一下关于传统方法解析网页获得数据,同时给大家介绍一种可能被大家忽略的方 ...

最新文章

  1. 实时音视频聊天中超低延迟架构的思考与技术实践
  2. [Voice communications] 让音乐响起来
  3. 我们该怎么成为技术尖子生
  4. 【VS开发】【DSP开发】WinDriver简介(或介绍)
  5. 万维钢新书《你有你的计划,世界另有计划》_《丑小鸭定理》读书笔记
  6. 可以直接反编译Mips架构的IDA版本(无需安装脚本)
  7. proxy connect abort处理方法_Vue 3.0 初探 - Proxy
  8. 工作314:uni-提交成功加入表单验证
  9. orcad如何设置模块化设计_这个模块化的办公桌让您设计每一个元素,以创造完美的工作设置...
  10. Linux 批量创建用户及设置随机密码
  11. 软件配置管理计划示例
  12. [超详细] 2021支付宝集五福【攻略】来了-附自动化脚本
  13. Pillow为图片添加水印
  14. ICLR 2020 图神经学习论文汇总
  15. 火狐浏览器Firebug控制台显示本页面不包含 javascript的解决方案 debugger 无效解决方案
  16. php ucenter home登录,UCenter Home
  17. [codevs1746][NOI2002] 贪吃的九头龙 树形DP
  18. 第7章 CustomView绘图进阶
  19. 5941. 找出知晓秘密的所有专家
  20. mysql group top_Mysql group by 后取 top N 问题

热门文章

  1. [我教你学]四步解决微软鼠标单击变双击问题
  2. 知我者,谓我心忧,不知我者,谓我何求。何必说?
  3. Photoshop抠图大决战
  4. 用你的微笑魔力征服下属
  5. 软件的hil测试,电力电子新能源仿真测试HIL
  6. php 遍历文件夹并压成zip_将文件夹压缩成zip文件的php代码
  7. Mybatis出现Mapped Statements collection already contains value for
  8. 获取classpath(src/main/resources)的绝对路径
  9. php 499状态如何处理,HTTP499状态码 nginx下499错误及其解决方法
  10. 在子窗体中点击超级链接,关闭子窗体并刷新打开它的父窗体