爬虫之初级实战项目:爬取知乎任一作者的文章练手

在正式上代码之前,先过一遍之前所学知识的框架内容,温故而知新!!!

接下来我们直接上代码,一定要手敲代码、手敲代码、手敲代码!!!

import requests,csv

csv_file = open('知乎-收录.csv','w',newline = '',encoding = 'utf-8')

#加newline=' '参数的原因是,可以避免csv文件出现两倍的行距(就是能避免表格的行与行之间出现空白行);

#加encoding='utf-8',可以避免编码问题导致的报错或乱码。

writer = csv.writer(csv_file)

writer.writerow(['标题','摘要','链接'])

url ='https://www.zhihu.com/api/v4/members/zhang-jia-wei/included-articles?'

headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

offset = 0

while True:

params = {

'include': 'data[*].comment_count,suggest_edit,is_normal,thumbnail_extra_info,thumbnail,can_comment,comment_permission,admin_closed_comment,content,voteup_count,created,updated,upvoted_followees,voting,review_info,is_labeled,label_info;data[*].author.badge[?(type=best_answerer)].topics',

'offset': str(offset),

'limit': '10',

'sort_by': 'included'

}

res = requests.get(url,headers = headers)

js_zh = res.json()

zhihu = js_zh['data']

for i in zhihu:

list1 = [i['title'],i['excerpt'],i['url']]

writer.writerow(list1)

offset = offset + 10 #利用offset对循环进行控制

if offset > 50:

break

csv_file.close()

标签:练手,comment,知乎,Python,代码,writer,offset,csv

知乎python练手的_Python—爬虫之初级实战项目:爬取知乎任一作者的文章练手相关推荐

  1. python爬京东联盟_python爬虫框架scrapy实战之爬取京东商城进阶篇

    前言 之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧 ...

  2. python精彩小视频_Python爬虫:全民小视频爬取,你想到了什么?

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本次目标 爬取全民小视频 在这里插入图片描述 选择影视类目 在这里插入图片描 ...

  3. Python 网络爬虫实战:爬取知乎回答中的全部图片

    平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...

  4. Python爬虫初探(九)——爬虫之Beautifulsoup4实战(爬取豆瓣信息)

    前面两章咱们介绍了Beautifuisoup4模块的简单使用,今天就用它来爬取豆瓣信息.话不多说,咱们开始吧. 一.拿到url地址 二.获取豆瓣数据 三.保存文件 需求: 爬取标题.评分.详情页的地址 ...

  5. [python爬虫] BeautifulSoup和Selenium简单爬取知网信息测试

    作者最近在研究复杂网络和知识图谱内容,准备爬取知网论文相关信息进行分析,包括标题.摘要.出版社.年份.下载数和被引用数.作者信息等.但是在爬取知网论文时,遇到问题如下:   1.爬取内容总为空,其原因 ...

  6. python爬虫影评_Python爬虫(二十)_动态爬取影评信息

    本案例介绍从JavaScript中采集加载的数据.更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import requests import re import t ...

  7. go爬虫和python爬虫哪个好_python 爬虫实战项目--爬取京东商品信息(价格、优惠、排名、好评率等)-Go语言中文社区...

    利用splash爬取京东商品信息 一.环境 window7 python3.5 pycharm scrapy scrapy-splash MySQL 二.简介 为了体验scrapy-splash 的动 ...

  8. python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据

    python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...

  9. python爬取豆瓣电影信息可行性分析_Python爬虫实现的根据分类爬取豆瓣电影信息功能示例...

    本文实例讲述了Python爬虫实现的根据分类爬取豆瓣电影信息功能.分享给大家供大家参考,具体如下: 代码的入口:if __name__ == '__main__': main()#! /usr/bin ...

最新文章

  1. 深度学习运行python文件,出现跨路径搜索其他module,怎么解决?
  2. 我马上会重新利用这个博客的
  3. 5、图书类别查询功能
  4. 线上活动 | 2020年PM如何提高求职成功率?
  5. 源码安装sippyqt4 for ubuntu,anconda3,python3
  6. 基于命令行设置lazy-queue
  7. vue3+typescript引入外部文件
  8. 使用pip安装virtualenv时出现问题
  9. android 长按 秒事件_原来手机长按2秒,能开启5个实用功能,一键提取图片上的文字...
  10. 西北大学计算机学院王郭玲,西北大学关于表彰2010-2011学年度学生先进集体
  11. 飞秋mac版字符乱码_Mac必装软件推荐,下载方法也给你了。
  12. Linux sys_call_table变动检测
  13. 风控中英文术语手册(银行_消费金融信贷业务)_v4
  14. android webview 百度地图,Android WebView显示地图
  15. 液晶屏接口定义_简介TFT-LCD液晶屏接口类型之LVDS接口
  16. 高防CDN是什么?有什么作用?
  17. python变量命名规则
  18. html 银联图标,银联标志logo图片 云闪付app扫银联标识领获红包
  19. OpenGL深入探索——阴影贴图(二)
  20. python 返回绝对值

热门文章

  1. com技术内幕 代码_CFan科学院:零门槛极速抠图技术探秘
  2. 产品经理专业知识50篇(十二)-抖音训练营项目实战(知识付费MVP产品模型)
  3. python迭代器使用_Python迭代器的用法
  4. linux open函数_Linux驱动开发 / 字符设备驱动内幕 (1)
  5. 高内聚,低耦合——8大核心中间件,微服务基础技术栈技术图谱
  6. 关于一个域名下如何更换网站
  7. 深入研究ES6 Generators
  8. Docverter – 文本文件轻松转换为 PDF,Docx 和 ePub 文件
  9. angularJS解决数据显示闪一下的问题?-解决办法
  10. 支援一波 《面试数十人有感》