爬取知乎评论的代码,可通过更换代码中referer,和url来爬取自己想爬取的知乎问题下的评论。

网页链接:https://www.zhihu.com/question/36955568/answer/70039060

代码:

import requests
from bs4 import BeautifulSoup
import json
import re
REG = re.compile('<[^>]*>')
def extract_answer(s):temp_list = REG.sub("", s).replace("\n", "").replace(" ","")return temp_list
headers = {'accept-language': 'zh-CN,zh;q=0.9','origin': 'https://www.zhihu.com','referer': 'https://www.zhihu.com/question/36955568/answer/70039060','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
start_url = 'https://www.zhihu.com/api/v4/questions/36955568/answers?include=data%5B*%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_labeled%2Cis_recognized%2Cpaid_info%2Cpaid_info_content%3Bdata%5B*%5D.mark_infos%5B*%5D.url%3Bdata%5B*%5D.author.follower_count%2Cbadge%5B*%5D.topics&offset=&limit=3&sort_by=default&platform=desktop'
next_url = [start_url]
answers = []
for url in next_url:html = requests.get(url, headers=headers)html.encoding = html.apparent_encodingsoup = BeautifulSoup(html.text, "lxml")content = str(soup.p).split("<p>")[1].split("</p>")[0]c = json.loads(content)answers += [extract_answer(item["content"]) for item in c["data"] if extract_answer(item["content"]) != ""]next_url.append(c["paging"]["next"])if c["paging"]["is_end"]:break
for item in answers:print(item)print(len(answers))

爬虫结果:

python爬虫实战三:爬取知乎评论相关推荐

  1. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

  2. python爬虫实战之爬取知乎帖子

     刚开始学习python爬虫,参考代码:https://github.com/lijaha/web-spider/blob/master/Get_ZhiHu_question.py  相关教程http ...

  3. Python 网络爬虫实战:爬取知乎回答中的全部图片

    平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...

  4. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  5. Python爬虫实战之爬取网站全部图片(一)

    Python爬虫实战之爬取网站全部图片(二) Python爬虫实战之通过ajax获得图片地址实现全站图片下载(三) 一.获得图片地址 和 图片名称 1.进入网址之后 按F12  打开开发人员工具点击e ...

  6. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

  7. Python爬虫实战之爬取百度贴吧帖子

    Python爬虫实战之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的 ...

  8. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  9. Python爬虫实战:爬取解放日报新闻文章

    上一篇<Python 网络爬虫实战:爬取人民日报新闻文章>发布之后,确实帮到了不少朋友. 前几天,我好哥们问我:我想爬另一个日报新闻网站,网页结构几乎跟人民日报几乎一模一样,但是我用你的那 ...

  10. Python爬虫实战之 爬取全国理工类大学数量+数据可视化

    上次爬取高考分数线这部分收了个尾,今天咱们来全面爬取全国各省有多少所理工类大学,并简单实现一个数据可视化.话不多说,咱们开始吧. 第一步,拿到url地址 第二步,获取高校数据 第三步,地图可视化 第四 ...

最新文章

  1. VTK修炼之道16:图像处理_窗口分割和图像融合(ViewportvtkImageBlend)
  2. python 中的 for-else 和 while-else 语句
  3. 1452.接水问题(思维)
  4. c++ 虚继承与继承的差异
  5. 九大排序算法Java实现
  6. 2017年,软件开发全过程,描述得不能再详细了
  7. longtext长度为0是什么意思_为什么 HashMap 中链表长度大于 8 才转化为红黑树?
  8. Android onActivityResult中requestCode与resultCode区别
  9. C#移除HTML标记
  10. list control 应用(转载)
  11. Linux下OneinStack一键安装JAVA+PHP+Tomcat+Nginx+MySQL网站环境
  12. HashMap源码阅读
  13. 服务器tcpip修复工具,tcpip协议修复工具winsockfix
  14. web漏洞扫描器-awvs
  15. echarts 圆饼图空心中间加文字
  16. FlashFXP、LeapFTP、CuteFTP 等FTP软件二进制上传或下载方法
  17. 分析Kvaser驱动安装到Linux系统——Kvaser安装到嵌入式Ubuntu系统的开发板IMX6Q不成功记录
  18. C语言-快速排序算法-原理-详解(完整代码)
  19. python提取图像像素值 行号列号,x,y坐标关系
  20. 计算机毕业设计的步骤

热门文章

  1. 一些相见恨晚的 JavaScript 技巧 脚本之家
  2. 介绍Python的@property装饰器的用法_python_脚本之家
  3. 谷粒学院16万字笔记+1600张配图(十八)——统计分析
  4. 电商促销都是套路,长盛不衰的零售之道在哪儿?
  5. 时空动力学是大脑和思维的“共同货币”吗?
  6. Vj程序设计作业H3
  7. java游戏叫什么伏魔录_东方伏魔录-东方伏魔录游戏-东方伏魔录游戏下载v2.0.6-快猴网...
  8. “字母公司”名字的“真相”
  9. OSC 在线更改表结构
  10. kafka日志对象(一)—— Log Segment