大小: 1.59M

文件类型: .zip

金币: 1

下载: 0 次

发布日期: 2021-01-30

资源简介

此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧。

## 使用方法

### 本地运行

爬虫程序依赖mongo和rabbitmq,因此这两个服务必须正常运行和配置。为了加快下载效率,图片下载是异步任务,因此在启动爬虫进程执行需要启动异步worker,启动方式是进入zhihu_spider/zhihu目录后执行下面命令:

资源截图

代码片段和文件信息

# -*- coding=utf8 -*-

from scrapy import cmdline

cmdline.execute(“scrapy crawl zhihu“.split())

属性            大小     日期    时间   名称

----------- ---------  ---------- -----  ----

目录           0  2016-03-20 14:42  zhihu_spider-master\

文件          30  2016-03-20 14:42  zhihu_spider-master\.gitignore

文件        3056  2016-03-20 14:42  zhihu_spider-master\README.md

目录           0  2016-03-20 14:42  zhihu_spider-master\doc\

文件      753450  2016-03-20 14:42  zhihu_spider-master\doc\image.png

文件      532877  2016-03-20 14:42  zhihu_spider-master\doc\people.png

文件      413151  2016-03-20 14:42  zhihu_spider-master\doc\relation.png

文件      126198  2016-03-20 14:42  zhihu_spider-master\doc\主页.png

文件      111628  2016-03-20 14:42  zhihu_spider-master\doc\代码.png

文件        3386  2016-03-20 14:42  zhihu_spider-master\doc\流程图.graffle

文件       97151  2016-03-20 14:42  zhihu_spider-master\doc\流程图.png

文件         232  2016-03-20 14:42  zhihu_spider-master\docker-compose.yml

文件          60  2016-03-20 14:42  zhihu_spider-master\requirements.txt

目录           0  2016-03-20 14:42  zhihu_spider-master\zhihu\

文件          96  2016-03-20 14:42  zhihu_spider-master\zhihu\main.py

文件         254  2016-03-20 14:42  zhihu_spider-master\zhihu\scrapy.cfg

目录           0  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\

文件           0  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\__init__.py

文件         686  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\constants.py

文件        1092  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\items.py

文件        2536  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\pipelines.py

文件        3654  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\settings.py

目录           0  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\spiders\

文件         161  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\spiders\__init__.py

文件        7657  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\spiders\profile.py

目录           0  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\tools\

文件          44  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\tools\__init__.py

文件         696  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\tools\async.py

python爬取知乎热搜_python爬取知乎相关推荐

  1. python爬取知乎热搜_python爬取知乎评论

    原博文 2020-03-14 11:29 − 点击评论,出现异步加载的请求 import json import requests from lxml import etree from time i ...

  2. python爬虫微博24小时热搜_Python爬虫之微博热搜

    最近自学了Python爬虫,手痒痒,想爬点东西,所以就有了这篇文章.由于目前本人技术有限,如有纰漏,欢迎批评指正:如有良策,也欢迎赐教. 思路 1.首先,当然是打开微博热搜,F12观察下网页结构.令人 ...

  3. python爬取知乎热搜_Python知乎热门话题数据的爬取实战

    import requests from pyquery import PyQuery as pq url = 'https://www.zhihu.com/explore' headers = { ...

  4. python 爬虫热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在 的子节点里 (2)热搜的排名都在 ...

  5. python爬虫微博热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...

  6. python爬取微博热搜_Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜.热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的情 ...

  7. python热搜排行功能_简单几行代码用Python爬取微博的热搜榜

    简单几行代码用Python爬取微博的热搜榜 想要实时的看微博热搜 但是又不想去微博网站看!怎么办呢?其实很简单! 我们学了这个requests_html 这个库之后 就更加的简单了! 小编只用了短短的 ...

  8. 爬取微博实时热搜数据可视化分析

    文章目录 爬取微博实时热搜数据可视化分析 一.爬取数据 1.1 Spider主要函数 1.2 根据微博一分钟更新一次的状态进行爬虫 二.可视化 2.1 利用轮播图加柱状图进行可视化 爬取微博实时热搜数 ...

  9. Python爬虫实例--新浪热搜榜[xpath语法]

    Python爬虫实例--新浪热搜榜[xpath语法] 1.基础环境配置: requests-->版本:2.12.4 lxml-->版本:3.7.2 2.网页分析 很容易从html源码中看到 ...

最新文章

  1. views display a summary count number
  2. cocos2d-x游戏实例(18)-纵版射击游戏(5)
  3. mysql 主从_搭建mysql主从并编写监控主从状态脚本
  4. Restful 表述性状态传递
  5. html控制弯曲图,html – CSS3 3D弯曲视角
  6. 在window7 64位下Oracle 10g 数据库中PLSQL Developer配置和使用
  7. WordPress博客添加首页、文章页、页面、分类页、标签页的关键字和描述
  8. python文本聚类分析作用_文本聚类应用意义
  9. python错误提示未定义tn_python错误提示未定义tn_未找到Python方法,但在类中定义
  10. 16、小程序OCR字体识别
  11. 入门版Linux上恢复误删除的文件
  12. Microsoft Web Farm Framework (WFF) 2.0正式发布
  13. 在B站被催更的恰饭视频是什么样的?
  14. SCCB协议介绍与应用和OV7670摄像头的寄存器配置
  15. 3dmax常用操作快捷键复合操作法及解决快捷键冲突2021
  16. Selenium 手动安装方法
  17. 算法高级(20)-集群容错算法
  18. android 上下平滑翻页
  19. ArtPi 认识RTT Studio建立LED工程
  20. 基于滑模控制的PMSM直接转矩控制仿真模型

热门文章

  1. rpg maker mv使用ajax,Rpgmakermv(15) PH任务插件
  2. seo与sem的关系和区别
  3. u盘iso安装服务器系统怎么安装win7系统安装系统教程,u盘iso安装系统,小编教你u盘怎么安装win7系统...
  4. Kubernetes Service与Ingress详解
  5. 个人独资公司税收标准
  6. python双击py一闪_python双击py一闪 python编程
  7. python绘制指数函数图像及性质_python实现画出e指数函数的图像
  8. Kaldi中如何使用已经训练好的模型进行语音识别ASR呢?
  9. 大数据实战项目必备技能三:storm
  10. @SpringBootTest与@RunWith注解的区别