打开网易的一条新闻的源代码后,发现并没有所要得评论内容。
经过学习后发现,源代码只是一个完整页面的“骨架”,而我所需要的内容是它的填充物,这时候需要打开工具里面的开发人员工具,从加载的“骨肉”里找到我所要的评论圈住的是类型
找到之后打开网页,发现json类型的格式,用我已学过的正则,bs都不好闹,于是便去了解了正则,发现把json的格式换化成python的格式后,用列表提取内容是一条明朗的道路。。。
但是在细致分析的时候也发现了问题
从这里获得每条评论时,感觉有点不对,观察发现如果是回复评论的评论会出现他回复那条评论的数据,于是用正则提取了一下
最终的代码如下:

#coding=utf-8
__author__ = 'kongmengfan123'import urllib
import re
import json
import timedef gethothtml(url):#最热评论page=urllib.urlopen(url)html=page.read()get_json(html)def gethnewtml():#最新评论有5页for i in range(1,6):url = 'http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/newList?offset=%d&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc&_=1478010624978'%i*30page = urllib.urlopen(url)html=page.read()time.sleep(1)get_json(html)def get_json(json_):end_=re.compile(r'\);')#将json网页转化成python数据begain=re.compile(r'getData\(')json_=begain.sub('',json_)json_=end_.sub('',json_)ajson=json.loads(json_)lis=ajson["commentIds"]#获得每条评论的键n=0for i in range(1,len(lis)):try:xulie=re.compile('\d{10,}')#取得准确评论的键(去掉回复)bia=re.findall(xulie,lis[n])w.write(ajson['comments'][bia[len(bia)-1]]['user']['nickname'].encode('utf-8')+'|')except KeyError:w.write(ajson['comments'][bia[len(bia)-1]]['user']['location'].encode('utf-8')+'|')if (len(lis[n])>13):xulie=re.compile('\d{10,}')bia=re.findall(xulie,lis[n])w.write(ajson['comments'][bia[len(bia)-1]]['content'].encode('utf-8')+'\n')else:w.write(ajson['comments'][lis[n]]['content'].encode('utf-8')+'\n')n=n+1return lisw=open('wangyi.txt','w')
w.write('用户名'+'|'+'热门评论'+'\n')
hot_=gethothtml('http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/hotList?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc')
w.write('用户名'+'|'+'最新评论'+'\n')
gethnewtml()
w.close()

成功。。。

python爬取网易动态评论相关推荐

  1. Python爬取新闻动态评论

    四年前的文章了,现在才看见没通过....当初明明过了的... 1.前些天打开网易新闻,于是点开爬取该新闻的评论. 2.以前爬取的网页都是静态的,都是源代码中直接就有,一眼就可以观察到的,而这次打开却不 ...

  2. 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据

    本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...

  3. python爬取爱情公寓电影评论并制作词云

    python爬取爱情公寓电影评论并制作词云 前言:     一直想研究研究如何生成词云,今天抽点时间给大家分享一下制作词云的过程,本文重在研究词云如何制作,由于时间仓促,至于爬取的数据量不大,大家可自 ...

  4. Python爬取京东商品评论

    京东商城的页面不是静态页面,其评论信息存放于json文件中,由ajax控制,所以我们在浏览器上看到的网页源代码和用Python爬下来的是不一样的,所以我们真正要爬取的是评论数据所存放的json文件. ...

  5. Python爬取京东商品评论和图片下载

    Python爬取京东商品评论和图片下载 代码仅供学习使用,切勿扩散并且频繁爬取网站 贴上代码和注释,方便自己下次看 import requests import time import json im ...

  6. python爬取股票信息_利用Python爬取网易上证所有股票数据(代码

    利用Python爬取网易上证所有股票数据(代码 发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...

  7. python爬取B站评论制作词云

    python爬取B站评论制作词云 江山代有才人出,B站评论占一半 废话不多说,咱们直接上代码` import imageio import jieba import wordcloud import ...

  8. python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...

  9. Python - 爬取豆瓣短评评论

    Python - 爬取豆瓣短评评论 import requests from bs4 import BeautifulSoup import re import time# 保存豆瓣评分 source ...

  10. 用python爬取天猫商品评论并分析(2)

    用python爬取天猫商品评论并分析(2) 之前介绍过天猫数据的爬取和数据初步处理,今天介绍下 将采集的评论进行文本分析!下面是总流程: 0. 主要流程 0. 数据采集 这一步参考网址:https:/ ...

最新文章

  1. 告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了
  2. 感谢有您--我的51CTO【与51CTO的故事】
  3. Swift 3.1新改动
  4. oracle 默认 服务器,Oracle的默认用户密码
  5. oracle迁移父子数据
  6. vim模板插件vim-template的使用
  7. 【分享】纯js的n级联动列表框 —— 基于jQuery,支持下拉列表框和列表框,最重要的是n级,当然还有更重要的...
  8. (208)ASIC开发总结
  9. SpringBoot整合freemarker中自定义标签获取字典表的数据
  10. 最小生成树原理及Kruskal算法的js实现
  11. linux date 得到指定 datemonth 月的 开始一天 结束一天
  12. Machine Learning for Communication Networks
  13. c语言程序最简单例子,简单C语言程序的例子
  14. Android MVP 实践之路(理解篇)
  15. java 中文大写金额_java编写的金额转中文大写
  16. Vue3简易购物车--添加和删除商品,计算购买商品总价
  17. 我奋斗了18年才和你坐在一起喝咖啡与我奋斗了18年不是为了和你一起喝咖啡
  18. 接线端子01——常见接线端子介绍
  19. 面向服务的WCF编程(三)
  20. 计算机考试老师怎么评卷,你写的字VS电脑阅卷呈现的字,两者相差悬殊,网友:机器尽力了...

热门文章

  1. c# DevExpress Gridview 设置表格背景颜色
  2. 差分技术:LVDS(低电压差分信号)
  3. Hibernate HHH000179警告和narrow proxy
  4. Flutter Package 插件开发
  5. .Net Core开发学习(一) ——Startup 类
  6. Steamwoks上传游戏及提交审核指南
  7. 降雨量等值线图(一)——底图整饬
  8. 无法查看MSN聊天记录 总弹出下载.xml文件的对话框
  9. 【CQF Finance Class 3 债券】
  10. GPU卡的主流调度平台