一个简单的python爬虫,爬取知乎

主要实现 爬取一个收藏夹 里 所有问题答案下的 图片

文字信息暂未收录,可自行实现,比图片更简单

具体代码里有详细注释,请自行阅读

项目源码:

1 # -*- coding:utf-8 -*-

2

3 from spider import spiderhtml

4 from multiprocessing import pool

5 import sys,urllib,http,os,random,re,time

6 __author__ = 'waiting'

7 '''

8 使用了第三方的类库 beautifulsoup4,请自行安装

9 需要目录下的spider.py文件

10 运行环境:python3.4,windows7

11 '''

12

13 #收藏夹的地址

14 url = 'https://www.zhihu.com/collection/30822111' #page参数改为代码添加

15

16 #本地存放的路径,不存在会自动创建

17 store_path = 'e:\\zhihu\收藏夹\\会员才知道的世界'

18

19 class zhihucollectionspider(spiderhtml):

20 def __init__(self,pagestart, pageend, url):

21 self._url = url

22 self._pagestart = int(pagestart)

23 self._pageend = int(pageend)+1

24 self.downlimit = 0 #低于此赞同的答案不收录

25

26 def start(self):

27 for page in range(self._pagestart,self._pageend): #收藏夹的页数

28 url = self._url + '?page='+str(page)

29 content = self.geturl(url)

30 questionlist = content.find_all('div',class_='zm-item')

31 for question in questionlist: #收藏夹的每个问题

32 qtitle = question.find('h2',class_='zm-item-title')

33 if qtitle is none: #被和谐了

34 continue

35

36 questionstr = qtitle.a.string

37 qurl = 'https://www.zhihu.com'+qtitle.a['href'] #问题题目

38 qtitle = re.sub(r'[\\/:*?"<>]','#',qtitle.a.string) #windows文件/目录名不支持的特殊符号

39 try:

40 print('-----正在获取问题:'+qtitle+'-----') #获取到问题的链接和标题,进入抓取

41 except unicodeencodeerror:

42 print(r'---问题含有特殊字符无法显示---')

43 try:

44 qcontent = self.geturl(qurl)

45 except:

46 print('!!!!获取出错!!!!!')

47 pass

48 answerlist = qcontent.find_all('div',class_='zm-item-answer zm-item-expanded')

49 self._processanswer(answerlist,qtitle) #处理问题的答案

50 time.sleep(5)

51

52

53 def _processanswer(self,answerlist,qtitle):

54 j = 0

55 for answer in answerlist:

56 j = j + 1

57

58 upvoted = int(answer.find('span',class_='count').string.replace('k','000')) #获得此答案赞同数

59 if upvoted < self.downlimit:

60 continue

61 authorinfo = answer.find('div',class_='zm-item-answer-author-info') #获取作者信息

62 author = {'introduction':'','link':''}

63 try:

64 author['name'] = authorinfo.find('a',class_='author-link').string #获得作者的名字

65 author['introduction'] = str(authorinfo.find('span',class_='bio')['title']) #获得作者的简介

66 author['link'] = authorinfo.find('a',class_='author-link')['href']

67 except attributeerror:

68 author['name'] = '匿名用户'+str(j)

69 except typeerror: #简介为空的情况

70 pass #匿名用户没有链接

71

72 file_name = os.path.join(store_path,qtitle,'info',author['name']+'_info.txt')

73 if os.path.exists(file_name): #已经抓取过

74 continue

75

76 self.savetext(file_name,'{introduction}\r\n{link}'.format(**author)) #保存作者的信息

77 print('正在获取用户`{name}`的答案'.format(**author))

78 answercontent = answer.find('div',class_='zm-editable-content clearfix')

79 if answercontent is none: #被举报的用户没有答案内容

80 continue

81

82 imgs = answercontent.find_all('img')

83 if len(imgs) == 0: #答案没有上图

84 pass

85 else:

86 self._getimgfromanswer(imgs,qtitle,**author)

87

88 #收录图片

89 def _getimgfromanswer(self,imgs,qtitle,**author):

90 i = 0

91 for img in imgs:

92 if 'inline-image' in img['class']: #不抓取知乎的小图

93 continue

94 i = i + 1

95 imgurl = img['src']

96 extension = os.path.splitext(imgurl)[1]

97 path_name = os.path.join(store_path,qtitle,author['name']+'_'+str(i)+extension)

98 try:

99 self.saveimg(imgurl,path_name) #捕获各种图片异常,流程不中断

100 except:

101 pass

102

103 #收录文字

104 def _gettextfromanswer(self):

105 pass

106

107 #命令行下运行,例:zhihu.py 1 5 获取1到5页的数据

108 if __name__ == '__main__':

109 page, limit, paramsnum= 1, 0, len(sys.argv)

110 if paramsnum>=3:

111 page, pageend = sys.argv[1], sys.argv[2]

112 elif paramsnum == 2:

113 page = sys.argv[1]

114 pageend = page

115 else:

116 page,pageend = 1,1

117

118 spider = zhihucollectionspider(page,pageend,url)

119 spider.start()

很多初学者,对python的概念都是模糊不清的,c语言、python能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,详情可以点击有道云笔记链接了解:http://note.youdao.com/noteshare?id=e4fa02e7b56d7909a27674cdb3da08aa

希望与广大网友互动??

点此进行留言吧!

利用python爬取知乎评论_一个简单的python爬虫,爬取知乎相关推荐

  1. python简单小游戏代码_一个简单的python小游戏---七彩同心圆

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理 用pygame做一个简单的python小游戏-七彩同心圆 玩法:每次点击鼠标时,会以鼠标为圆心,不断 ...

  2. python爬b站评论_一个简单的爬取b站up下所有视频的所有评论信息的爬虫

    心血来潮搞了一个简单的爬虫,主要是想知道某个人的b站账号,但是你知道,b站在搜索一个用户时,如果这个用户没有投过稿,是搜不到的,,,这时就只能想方法搞到对方的mid,,就是 space.bilibil ...

  3. src获取同级目录中的图片_一个简单的Python爬虫实例:百度贴吧页面下载图片

    本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述 本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容: 分析html ...

  4. python做一个网页、让用户上传数据_一个简单的网站爬虫教程,让你了解爬虫的步骤,爬虫网页数据采集...

    Apple iPhone 11 (A2223) 128GB 黑色 移动联通电信4G手机 双卡双待 4999元包邮 去购买 > 前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业 ...

  5. python爬取qq音乐评论_教你用Python爬去QQ音乐评论

    有态度地学习 去年夏天,好像于我而言,重要的事就是毕业来临,从此踏上了搬砖之路,从学校到职场,之间身份的转变,让我又多了一份责任.当然还有一段感情经历,现在回头去看,只能说且行且珍惜,或许以后未必能再 ...

  6. python爬取京东书籍_一个scrapy框架的爬虫(爬取京东图书)

    我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...

  7. python爬微博关键字_一个简单的python爬虫实践,爬取包含关键词的新浪微博

    此项目主要功能是通过微博"搜索"页面,每天自动爬取所有包含自定list中词汇的微博原数据.低速可控,简单粗暴,适合用来有针对性的搜集数据量不是很大的包含关键词的微博,每日可爬3-6 ...

  8. 一个简单有趣的爬虫-----爬取百度翻译功能

    首先确定爬取的网址:https://fanyi.baidu.com/sug 我们爬取翻译功能时应对request进行简单伪装,编写headers: base_url = 'https://fanyi. ...

  9. python刷微博转发_一个简单的python刷新浪微博粉丝小程序

    代码简陋没有什么技术,还有个txt的配置文件才可以用.但是配置文件不发出来了.只要你自己好好看代码很容易猜得到.希望大家不要拿去刷了.因为实在是没意思. 代码中需要用到的相关python模块方法有: ...

最新文章

  1. PHP7.3中fileinfo怎么安装与开启
  2. PHP7 php_memcache.dll下载
  3. 神经网络neural network简单理解
  4. 保留关键字 (Transact-SQL) user 也是,哎
  5. 去除覆盖在文字上的水印_PDF文档密码移除与文字水印去除工具
  6. 02_Jquery_02_元素选择器
  7. 科目三大路考8个驾驶技巧
  8. html动态生成按钮事件,javascript 动态生成按钮并添加事件时为什么不响应?
  9. 清北中科院12位大咖联手,带你入门AI热门领域NLP!限时只需199
  10. pandas之get_dummies
  11. stm32定时器编码器模式原理及配置
  12. 在苹果mac中如何使用 Word 画底线、直线、虚线?
  13. ffplay 分析概述
  14. 使用C语言判断一个数是否为素数
  15. puppet一键部署lnmt
  16. 三院士漫谈:未来机器人:目标、路径和挑战
  17. 在CAS Server上增加OAuth2.0协议
  18. 电脑连上wifi显示网络正常 但是网页打不开
  19. 20220626——每日推送信息API总结
  20. DEFLATE压缩数据格式规范 v1.3

热门文章

  1. Photoshop touch教程全攻略
  2. 电源地线和大地的关系
  3. 【slam十四讲第二版】【课本例题代码向】【第九讲~后端Ⅰ】【安装Meshlab】【BAL数据集格式】【ceres求解BA】【g2o求解BA】
  4. 华为自研发操作系统鸿蒙,你知华为芯片“麒麟”之意,又可知自研系统“鸿蒙”之深意?...
  5. GitBook建立本地Book及导入别人Book
  6. 手持两把锟斤拷,口中疾呼烫烫烫。脚踏千朵屯屯屯,笑看万物锘锘锘。
  7. java异常判断_Java异常类
  8. 大学计算机基础ppt操作题目,键盘操作大学计算机基础.ppt
  9. gbase 8d客户端连接注意事项
  10. 期货公司最低标准的手续费和保证金