python爬取网易动态评论
打开网易的一条新闻的源代码后,发现并没有所要得评论内容。
经过学习后发现,源代码只是一个完整页面的“骨架”,而我所需要的内容是它的填充物,这时候需要打开工具里面的开发人员工具,从加载的“骨肉”里找到我所要的评论圈住的是类型
找到之后打开网页,发现json类型的格式,用我已学过的正则,bs都不好闹,于是便去了解了正则,发现把json的格式换化成python的格式后,用列表提取内容是一条明朗的道路。。。
但是在细致分析的时候也发现了问题
从这里获得每条评论时,感觉有点不对,观察发现如果是回复评论的评论会出现他回复那条评论的数据,于是用正则提取了一下
最终的代码如下:
#coding=utf-8
__author__ = 'kongmengfan123'import urllib
import re
import json
import timedef gethothtml(url):#最热评论page=urllib.urlopen(url)html=page.read()get_json(html)def gethnewtml():#最新评论有5页for i in range(1,6):url = 'http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/newList?offset=%d&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc&_=1478010624978'%i*30page = urllib.urlopen(url)html=page.read()time.sleep(1)get_json(html)def get_json(json_):end_=re.compile(r'\);')#将json网页转化成python数据begain=re.compile(r'getData\(')json_=begain.sub('',json_)json_=end_.sub('',json_)ajson=json.loads(json_)lis=ajson["commentIds"]#获得每条评论的键n=0for i in range(1,len(lis)):try:xulie=re.compile('\d{10,}')#取得准确评论的键(去掉回复)bia=re.findall(xulie,lis[n])w.write(ajson['comments'][bia[len(bia)-1]]['user']['nickname'].encode('utf-8')+'|')except KeyError:w.write(ajson['comments'][bia[len(bia)-1]]['user']['location'].encode('utf-8')+'|')if (len(lis[n])>13):xulie=re.compile('\d{10,}')bia=re.findall(xulie,lis[n])w.write(ajson['comments'][bia[len(bia)-1]]['content'].encode('utf-8')+'\n')else:w.write(ajson['comments'][lis[n]]['content'].encode('utf-8')+'\n')n=n+1return lisw=open('wangyi.txt','w')
w.write('用户名'+'|'+'热门评论'+'\n')
hot_=gethothtml('http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/hotList?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc')
w.write('用户名'+'|'+'最新评论'+'\n')
gethnewtml()
w.close()
成功。。。
python爬取网易动态评论相关推荐
- Python爬取新闻动态评论
四年前的文章了,现在才看见没通过....当初明明过了的... 1.前些天打开网易新闻,于是点开爬取该新闻的评论. 2.以前爬取的网页都是静态的,都是源代码中直接就有,一眼就可以观察到的,而这次打开却不 ...
- 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据
本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...
- python爬取爱情公寓电影评论并制作词云
python爬取爱情公寓电影评论并制作词云 前言: 一直想研究研究如何生成词云,今天抽点时间给大家分享一下制作词云的过程,本文重在研究词云如何制作,由于时间仓促,至于爬取的数据量不大,大家可自 ...
- Python爬取京东商品评论
京东商城的页面不是静态页面,其评论信息存放于json文件中,由ajax控制,所以我们在浏览器上看到的网页源代码和用Python爬下来的是不一样的,所以我们真正要爬取的是评论数据所存放的json文件. ...
- Python爬取京东商品评论和图片下载
Python爬取京东商品评论和图片下载 代码仅供学习使用,切勿扩散并且频繁爬取网站 贴上代码和注释,方便自己下次看 import requests import time import json im ...
- python爬取股票信息_利用Python爬取网易上证所有股票数据(代码
利用Python爬取网易上证所有股票数据(代码 发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...
- python爬取B站评论制作词云
python爬取B站评论制作词云 江山代有才人出,B站评论占一半 废话不多说,咱们直接上代码` import imageio import jieba import wordcloud import ...
- python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...
- Python - 爬取豆瓣短评评论
Python - 爬取豆瓣短评评论 import requests from bs4 import BeautifulSoup import re import time# 保存豆瓣评分 source ...
- 用python爬取天猫商品评论并分析(2)
用python爬取天猫商品评论并分析(2) 之前介绍过天猫数据的爬取和数据初步处理,今天介绍下 将采集的评论进行文本分析!下面是总流程: 0. 主要流程 0. 数据采集 这一步参考网址:https:/ ...
最新文章
- 告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了
- 感谢有您--我的51CTO【与51CTO的故事】
- Swift 3.1新改动
- oracle 默认 服务器,Oracle的默认用户密码
- oracle迁移父子数据
- vim模板插件vim-template的使用
- 【分享】纯js的n级联动列表框 —— 基于jQuery,支持下拉列表框和列表框,最重要的是n级,当然还有更重要的...
- (208)ASIC开发总结
- SpringBoot整合freemarker中自定义标签获取字典表的数据
- 最小生成树原理及Kruskal算法的js实现
- linux date 得到指定 datemonth 月的 开始一天 结束一天
- Machine Learning for Communication Networks
- c语言程序最简单例子,简单C语言程序的例子
- Android MVP 实践之路(理解篇)
- java 中文大写金额_java编写的金额转中文大写
- Vue3简易购物车--添加和删除商品,计算购买商品总价
- 我奋斗了18年才和你坐在一起喝咖啡与我奋斗了18年不是为了和你一起喝咖啡
- 接线端子01——常见接线端子介绍
- 面向服务的WCF编程(三)
- 计算机考试老师怎么评卷,你写的字VS电脑阅卷呈现的字,两者相差悬殊,网友:机器尽力了...