python对京东评论的爬取_python爬取京东评论(三)

上篇我们只爬了一个牌子的文胸，这次我们来多爬几个牌子的

1.爬取不同牌子的url

得到id

其实可以直接爬那个href,但我发现有的带了https有的没带就索性直接取id拼接了

import requests

import json

import threading

import time

import re

from lxml import etree

class cup:

def __init__(self):

self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}

self.url = 'https://item.jd.com/'

def vari_cpu(self):#取到不同类型文胸的评论json

url_list = []

url = 'https://search.jd.com/Search?keyword=%E6%96%87%E8%83%B8&enc=utf-8&spm=2.1.1'

html = requests.get(url,headers = self.headers).text

html = etree.HTML(html)

cpu_link = html.xpath('//div[@class="p-icons"]/@id')

for i in cpu_link:#网页后缀

i = i[6::] #得到数字的部分

Fin_url = f'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv12370&productId={i}'

#format的新用法

url_list.append(Fin_url) #url列表

return url_list

def get_json(self,url):

res = requests.get(url, headers=self.headers).text

s = re.compile(r'fetchJSON_comment.*?\(')

uesless = str(s.findall(res))

jd = json.loads(res.lstrip(uesless).rstrip(');'))

com_list = jd['comments']

for i in com_list:

print(i['productColor'],i['productSize'])

if __name__ == '__main__':

pa = cup()

url_list = pa.vari_cpu()

for j in url_list:

for i in range(3):

js_url = j+'&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&rid=0&fold=1'%i

time.sleep(1)

t = threading.Thread(target=pa.get_json, args=(js_url,))

t.start()

我直接把json的url里面的id换成各自的id了，发现竟然可行，那就可行吧，省的麻烦.

这里还是有不完善的地方，就是那个线程，等会儿去补补线程进程内容，再改进一波，这个不敢爬多，先微微爬点看看，不过我看那一堆玩意儿是贞德多,就不发了

宁外我还发现它的首页竟然还藏着一个ajax,当你不下拉时就30个牌子，一下拉变60个了.....

未完待续

python对京东评论的爬取_python爬取京东评论(三)相关推荐

python网易云歌词做成词云图_Python爬取李荣浩最短歌曲贝贝的网易云评论并做成词云图...
前言在18 年的 10 月 17 号,李荣浩发了一张新专辑「耳朵」,专辑里有一首歌「贝贝」,只有 4 秒,歌词也就两个字.而且这首歌的作曲 .作词 .编曲.制作人.和声.录音师.混音师.录音室.混音 ...
python微博评论抓取_python抓取新浪微博评论并分析
1,实现效果 2,数据库 3.主要步骤 1,输入账号password,模拟新浪微博登陆 2,抓取评论页的内容 3.用正則表達式过滤出username,评论时间和评论内容 4,将得到的内容存入数据库 5 ...
python爬虫网易云音乐评论最多的歌_Python网易云音乐评论爬虫，歌曲的全部评论...
用过网易云音乐听歌的朋友都知道,网易云音乐每首歌曲后面都有很多评论,热门歌曲的评论更是接近百万或者是超过百万条．现在我就来分享一下如何爬取网易云音乐歌曲的全部评论,由于网易云音乐的评论都做了混淆加密处 ...
python爬取网易云评论最多的歌_python爬取网易云音乐评论
本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...
python爬取微博评论超100页_python爬取新浪微博评论-Go语言中文社区
简介爬取微博m站评论.由于api限制只能爬取前100页,如果想要更全数据需爬pc端. 工具 python 3.5 requests库 re库步骤 1. 登陆保存cookie 首先,打开m.weib ...
python爬取京东数据加载失败_python 爬京东数据时，无法登陆。
想使用python爬取京东的快递信息,现在需要解决的首要问题是使用python模拟浏览器登陆,遇到了下面的问题. _t _ntNBMNX ({"username":"\u ...
python实现qq登录腾讯视频_Python爬取腾讯视频评论的思路详解
一.前提条件安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于代理服务器有Python的编译环境,一般选择Py ...
python爬取京东数据加载失败_Python爬取京东商品数据
对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,sea ...
python能不能爬数据库_python爬取数据后不能写入到数据库中
目标:去爬当当网某页内容中的书籍的名称,链接和评论数,然后写入数据库中 pipelins内容如下: import pymysql class DangdangPipeline(object):def ...
python写彩票抓取_Python|爬取彩票数据
pyhton|爬取彩票数据背景:作者之前看到过不少朋友介绍利用python环境来爬取彩票数据的文章,方法大致都很类似,今天我也讲一下关于传统方法解析网页获得数据,同时给大家介绍一种可能被大家忽略的方 ...

python对京东评论的爬取_python爬取京东评论(三)

python对京东评论的爬取_python爬取京东评论(三)相关推荐

最新文章

热门文章