python爬取网易动态评论

打开网易的一条新闻的源代码后，发现并没有所要得评论内容。
经过学习后发现，源代码只是一个完整页面的“骨架”，而我所需要的内容是它的填充物，这时候需要打开工具里面的开发人员工具，从加载的“骨肉”里找到我所要的评论圈住的是类型
找到之后打开网页，发现json类型的格式，用我已学过的正则，bs都不好闹，于是便去了解了正则，发现把json的格式换化成python的格式后，用列表提取内容是一条明朗的道路。。。
但是在细致分析的时候也发现了问题
从这里获得每条评论时，感觉有点不对，观察发现如果是回复评论的评论会出现他回复那条评论的数据，于是用正则提取了一下
最终的代码如下：

#coding=utf-8
__author__ = 'kongmengfan123'import urllib
import re
import json
import timedef gethothtml(url):#最热评论page=urllib.urlopen(url)html=page.read()get_json(html)def gethnewtml():#最新评论有5页for i in range(1,6):url = 'http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/newList?offset=%d&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc&_=1478010624978'%i*30page = urllib.urlopen(url)html=page.read()time.sleep(1)get_json(html)def get_json(json_):end_=re.compile(r'\);')#将json网页转化成python数据begain=re.compile(r'getData\(')json_=begain.sub('',json_)json_=end_.sub('',json_)ajson=json.loads(json_)lis=ajson["commentIds"]#获得每条评论的键n=0for i in range(1,len(lis)):try:xulie=re.compile('\d{10,}')#取得准确评论的键（去掉回复）bia=re.findall(xulie,lis[n])w.write(ajson['comments'][bia[len(bia)-1]]['user']['nickname'].encode('utf-8')+'|')except KeyError:w.write(ajson['comments'][bia[len(bia)-1]]['user']['location'].encode('utf-8')+'|')if (len(lis[n])>13):xulie=re.compile('\d{10,}')bia=re.findall(xulie,lis[n])w.write(ajson['comments'][bia[len(bia)-1]]['content'].encode('utf-8')+'\n')else:w.write(ajson['comments'][lis[n]]['content'].encode('utf-8')+'\n')n=n+1return lisw=open('wangyi.txt','w')
w.write('用户名'+'|'+'热门评论'+'\n')
hot_=gethothtml('http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/hotList?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc')
w.write('用户名'+'|'+'最新评论'+'\n')
gethnewtml()
w.close()

成功。。。

python爬取网易动态评论相关推荐

Python爬取新闻动态评论
四年前的文章了,现在才看见没通过....当初明明过了的... 1.前些天打开网易新闻,于是点开爬取该新闻的评论. 2.以前爬取的网页都是静态的,都是源代码中直接就有,一眼就可以观察到的,而这次打开却不 ...
通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据
本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...
python爬取爱情公寓电影评论并制作词云
python爬取爱情公寓电影评论并制作词云前言: 一直想研究研究如何生成词云,今天抽点时间给大家分享一下制作词云的过程,本文重在研究词云如何制作,由于时间仓促,至于爬取的数据量不大,大家可自 ...
Python爬取京东商品评论
京东商城的页面不是静态页面,其评论信息存放于json文件中,由ajax控制,所以我们在浏览器上看到的网页源代码和用Python爬下来的是不一样的,所以我们真正要爬取的是评论数据所存放的json文件. ...
Python爬取京东商品评论和图片下载
Python爬取京东商品评论和图片下载代码仅供学习使用,切勿扩散并且频繁爬取网站贴上代码和注释,方便自己下次看 import requests import time import json im ...
python爬取股票信息_利用Python爬取网易上证所有股票数据（代码
利用Python爬取网易上证所有股票数据(代码发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...
python爬取B站评论制作词云
python爬取B站评论制作词云江山代有才人出,B站评论占一半废话不多说,咱们直接上代码` import imageio import jieba import wordcloud import ...
python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据（写在记事本）
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...
Python - 爬取豆瓣短评评论
Python - 爬取豆瓣短评评论 import requests from bs4 import BeautifulSoup import re import time# 保存豆瓣评分 source ...
用python爬取天猫商品评论并分析（2）
用python爬取天猫商品评论并分析(2) 之前介绍过天猫数据的爬取和数据初步处理,今天介绍下将采集的评论进行文本分析!下面是总流程: 0. 主要流程 0. 数据采集这一步参考网址:https:/ ...

python爬取网易动态评论

python爬取网易动态评论相关推荐

最新文章

热门文章