首先打开京东的任意几个商品页面,并观察URL,可以发现都是https://item.jd.com/+数字+.htm的格式,而且数字也随着商品的改变而改变,基本上可以确定这串数字是商品ID

之后我们找到网页的源码并随便复制一句评论,在网页源码中查找,发现并没有找到评论内容,说明jd的评论页面并非静态网页

AJAX:AJAX的全称是Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。ajax不是新的编程语言,而是一种使用现有标准的新方法。ajax是与服务器交换数据并更新部分网页的艺术,在不重新加载整个页面的情况下。ajax是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换。ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。而传统的网页(不使用ajax)如果需要更新内容,必须重载整个网页面。

既然确定是AJAX的方式加载,我们可以直接打开chrome的调试工具,在network中的XHR和JS中寻找保存有评论的文件。注意这里必须先下拉到评论页面使数据文件加载下来,否则会找不到加载的数据文件

我们可以通过两种方式来查找包含评论的文件:1.可以在js和XHR中寻找comment关键字,查看是否有文件符合要求,并对符合要求的结果筛选2.评论在页面的最下方,根据文件的加载顺序可以大致了解到会在后面,从后面开始找即可

最终确定js文件,如下图所示

这样我们就可以确定评论的请求地址并开始抓取

import requests

import json

url='https://item.jd.com/52297931949.html'

jsonurl='https://club.jd.com/comment/productPageComments.action?productId=52297931949&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'

html=requests.get(jsonurl).text

#print(html)

josntext=json.loads(html)

comments= josntext['comments']

for comment in comments:

content = comment['content']

print(content)

这里需要注意一下原始的jsonurl得到的文件并不是标准的json文件格式,我们可以将得到的文本内容复制到https://www.json.cn发现这并不是一个标准的josn文件,所以直接loads()会直接报错:json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0),只要返回的对象不是josn对象就会出现此错误解决的方法有两个,一是将URL中的?callback=fetchJSON_comment98去除,另外一种方法是将返回的文本对象中的fetchJSON_comment98替换为空

得到所需要的json文件后就可以将数据存到sqllite中了sqllite是python内置的关系型数据库,具有以下优点:

不需要一个单独的服务器进程或操作的系统(无服务器的)。

SQLite不需要配置,这意味着不需要安装或管理。

一个完整的SQLite数据库是存储在一个单一的跨平台的磁盘文件。

SQLite是非常小的,是轻量级的,完全配置时小于 400KiB,省略可选功能配置时小于250KiB。

SQLite是自给自足的,这意味着不需要任何外部的依赖。

SQLite事务是完全兼容 ACID 的,允许从多个进程或线程安全访问。

SQLite支持 SQL92(SQL2)标准的大多数查询语言的功能。

SQLite使用 ANSI-C 编写的,并提供了简单和易于使用的 API。

SQLite 在 UNIX(Linux, Mac OS-X, Android,iOS)和 Windows(Win32, WinCE,WinRT)中运行。

python操作SQLite流程与连接其他的数据库相同,大概分为以下五步

通过sqlite3.open()创建与数据库文件的连接对象connection;

通过connection.cursor()创建光标对象cursor;

通过cursor.execute()执行SQL语句;

通过connection.commit()提交当前的事务,或者通过cursor.fetchall()获得查询结果;

通过connection.close()关闭与数据库文件的连接

这一部分代码如下所示

conn=sqlite3.connect("comments.db")#建立连接,数据库存在时,直接连接;不存在时,创建相应数据库

#新建一张表

conn.execute('''CREATE TABLE Comments_jd

(ID text PRIMARY KEY NOT NULL,

comment text );''')

#注意sql语句中使用了格式化输出的占位符%s和%d来表示将要插入的变量,其中%s需要加引号''

for comment in comments:

sql = "insert into Comments_jd(ID,comment) values('%s','%s')" % (comment['id'],comment['content'])

conn.execute(sql)conn.commit()

# 关闭数据库连接

conn.close()

之后检查以下数据是否有问题:

conn=sqlite3.connect("comments.db")

cursor = conn.execute("select * from Comments_jd")

for row in cursor:

print('ID = ', row[0], ' Comment = ', row[1])

conn.close()

得到的结果如下图所示

image.png

这样整个流程就搞定了

最终的代码如下:

import requests

import json

import sqlite3

def get_comments(good_id):

#good_url_template = 'https://item.jd.com/{}.html'.format(good_id)

jsonurl='https://club.jd.com/comment/productPageComments.action?productId={}&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'.format(good_id)

html=requests.get(jsonurl).text

return html

def data_stored(html):

conn = sqlite3.connect("comments.db") # 建立连接,数据库存在时,直接连接;不存在时,创建相应数据库

# 新建一张表

conn.execute('''CREATE TABLE Comments_jd

(ID text PRIMARY KEY NOT NULL,

comment text );''')

josntext=json.loads(html)

comments= josntext['comments']

#注意sql语句中使用了格式化输出的占位符%s和%d来表示将要插入的变量,其中%s需要加引号''

for comment in comments:

sql = "insert into Comments_jd(ID,comment) values('%s','%s')" % (comment['id'],comment['content'])

conn.execute(sql)

conn.commit()

# 关闭数据库连接

conn.close()

if __name__ == '__main__':

html=get_comments(str(52297931949))

data_stored(html)

全部代码已上传至https://github.com/smilecoc/jd_comments_spider

后续准备对获取的数据进行进一步的分析

python爬取京东评论分析_Python爬取京东商品评价(动态网页的爬取)相关推荐

  1. python爬取京东评论分析_Python爬取京东商品评论+制作关键字云+情感分析图

    首先我们要了解一下,我们用requests包爬取的都只是写在HTML页面上的数据,但是呢,现在很多网站的数据都是通过js代码生成的,除非你找到它,不然是爬取不到的. 首先我随意打开一个京东的商品的详情 ...

  2. 网络爬虫从入门到实践(三)————动态网页的爬取

    动态网页的爬取 在动态网页爬取之前,我们要了解一种异步加载更新技术--AJAX(异步的JavaScript 和XML) 他的价值在于通过在后台与服务器进行少量的数据交换就可以使用网页的某部分进行更新 ...

  3. 京东评论接口,item_review - 获得JD商品评论接口接入参数解决方案

    一.京东评论接口,item_review - 获得JD商品评论接口接入解决方案 点击注册获取key和secret测试账号 提取京东商品详情页评论,评论内容,评论日期,评论图片,买家昵称,评论商品属性, ...

  4. python爬取京东评论分析_【实战好文】|爬取京东书籍评论并分析

    原标题:[实战好文]|爬取京东书籍评论并分析 这是菜鸟学Python的粉丝第10篇原创投稿 阅读本文大概需要5分钟 本篇作者:小郑同学 上周的赠书活动中,收到了楼主送的<利用Python进行数据 ...

  5. python爬虫爬取京东商品评价_网络爬虫-爬取京东商品评价数据

    前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...

  6. python微信公众号推送_python爬虫_微信公众号推送信息爬取的实例

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

  7. python爬取豆瓣读书简单_Python用16行代码就搞定了爬取豆瓣读书页面

    点击蓝字"python教程"关注我们哟! 我们一直说Python比较简单,代码体量没有别的程序那么大,对于初学者,尤其是零编程基础的初学者来说,感触没有那么明显,那么今天就让你见识 ...

  8. python爬取豆瓣读书简单_Python用16行代码就搞定了爬取豆瓣读书页面!

    我们一直说Python比较简单,代码体量没有别的程序那么大,对于初学者,尤其是零编程基础的初学者来说,感触没有那么明显,那么今天就让你见识一下:爬取豆瓣读书页面,Python用16行代码就搞定了! p ...

  9. Windows下利用python+selenium+firefox爬取动态网页数据(爬取东方财富网指数行情数据)

    由于之前用urlib和request发现只能获取静态网页数据,目前爬取动态网页有两种方法, (1)分析页面请求 (2)Selenium模拟浏览器行为(霸王硬上弓),本文讲的就是此方法 一.安装sele ...

最新文章

  1. linux ssh -R 代理不同内网主机互连
  2. 反射获取空参数构造方法并运行
  3. Tomcat无需输入项目名,直接用域名访问项目
  4. 【排序算法】python 十大经典排序算法(全网最详)
  5. 充满含金量的一场云原生Meetup,入场券免费发送中……
  6. Hibernate中配置C3P0连接池
  7. lambda java kotlin,Kotlin之Lambda编程
  8. SAS基础-日期时间本质
  9. 腾讯云服务器2003系统,腾讯云服务器windows2003系统续用的说明
  10. 计算机网络中NTFS概念及功能,什么是NTFS
  11. 法语学习笔记——语音
  12. 基于电商直播SDK快速实现一个淘宝直播APP【内附源码】
  13. StarRocks Contributor 人数破百,极速统一,你我协力
  14. 手变小是怎么回事_手小该怎么办呢?如何变大???
  15. Centos 7 装 Steam( 需要:libva-intel-driver(x86-32))
  16. PureMVC使用体会
  17. Jamie求职记--北邮信通小硕--技术类
  18. 关于使用burpsuite时,“安全连接失败,使用了无效的证书”问题【已解决】
  19. 解决“WARN: Establishing SSL connection without server‘s identity verification is not recommended.”问题
  20. [转载]SAP_HUM_HU02里为物料库存更换HU号码的操作

热门文章

  1. azure不支持哪些语句 sql_SQL Azure vs SQL Server
  2. angular.js:13920 Error: [$injector:unpr] Unknown provider: $scopeProvider - $scope - testServe
  3. NAS如何进行磁盘碎片整理?
  4. 【Ubuntu升级报错】“the following signatures couldn’t be verified because the public key is not available”
  5. windows下安装cygwin+swoole教程
  6. 几何光学基础(1):基本定律
  7. [分享] 【强烈推荐】要速度更要方便!75款实用Chrome插件推荐
  8. Unity3D空战游戏模板 Air Warfare Pro
  9. git log查看日志中文乱码的解决方法,绝对好用2021
  10. 自定义view系列---刮刮乐的实现