知乎日报爬虫

# coding=utf-8import requests
from lxml import htmldef spider_zhihudaily():url = "http://daily.zhihu.com/"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}response = requests.get(url, headers = headers)# print(response.encoding)url_data = response.textselector = html.fromstring(url_data)ul_list = selector.xpath('//div[@class="main-content-wrap"]/div[@class="row"]//a')for ul in ul_list:title = ul.xpath("span/text()")[0].replace("?","")print(title)link = ul.xpath("@href")print("https://daily.zhihu.com" + link[0])img_url = ul.xpath("img/@src")print(img_url[0])content = requests.get("https://daily.zhihu.com" + link[0], headers = headers).textf = open('./zhihu_html/{0}.html'.format(title), 'w', encoding='utf-8')f.write(content)print("--------------------------")if __name__ == "__main__":spider_zhihudaily()

# 代码运行结果

C:\Users\ws\.virtualenvs\pytools\Scripts\python.exe D:/python/pytools/chapter01_spider_book/spider_zhihudaily.py
阿杜的亚文化再研究
https://daily.zhihu.com/story/9713313
https://pic1.zhimg.com/v2-36cbffea9cdf1590fd90a1cfe4184bec.jpg
--------------------------
老一辈人常说的「脚气在土里走走好了」,有什么原理?
https://daily.zhihu.com/story/9713335
https://pic1.zhimg.com/v2-bd24d473b75d213a015f4fe9b6080840.jpg
--------------------------
如果三代蜘蛛侠对决,谁胜算更大?
https://daily.zhihu.com/story/9713283
https://pic4.zhimg.com/v2-3d06d6821d6db4bde782be5ae7b692f3.jpg
--------------------------
威少和保罗互换东家,能盘活火箭和雷霆吗?
https://daily.zhihu.com/story/9713376
https://pic2.zhimg.com/v2-cfd8375cb3af92e6fb265814faf0ab01.jpg
--------------------------
为什么大部分人会对喝自己的口水感到恶心?
https://daily.zhihu.com/story/9713245
https://pic4.zhimg.com/v2-ca9cb3863923fc574aadd9332fc980c3.jpg
--------------------------
「无反相机」是如何发展起来的?
https://daily.zhihu.com/story/9713258
https://pic3.zhimg.com/v2-53d720366dee5c6c061f2a292248508e.jpg
--------------------------
瞎扯 · 如何正确地吐槽
https://daily.zhihu.com/story/9713369
https://pic1.zhimg.com/v2-88354bf286e898517b6a91db45ab6ec4.jpg
--------------------------
《长安十二时辰》中有哪些值得剖析的细节和彩蛋?
https://daily.zhihu.com/story/9713242
https://pic4.zhimg.com/v2-a3ba34ca7385c9a04fcfa4df2c95b3bb.jpg
--------------------------
未检疫水果入境,这事到底多严重?
https://daily.zhihu.com/story/9713230
https://pic4.zhimg.com/v2-1c82311ae5b9eb6133819cb566b7066b.jpg
--------------------------
如何看待游戏《恋与制作人》宣布动画化?
https://daily.zhihu.com/story/9713296
https://pic3.zhimg.com/v2-bf3a3bfecd18aad6d0525943ec034e22.jpg
--------------------------
怎样避免早上起床时的口臭?
https://daily.zhihu.com/story/9713234
https://pic3.zhimg.com/v2-5641bc119681279f94ad00b780492d12.jpg
--------------------------
瞎扯 · 如何正确地吐槽
https://daily.zhihu.com/story/9713164
https://pic1.zhimg.com/v2-29b8253fc73d604e9c3b3331d07507f0.jpg
--------------------------
女友婚前,让我过户婚前房子的一半给她,该怎么办?
https://daily.zhihu.com/story/9713262
https://pic1.zhimg.com/v2-e201ee5ec7aa14b3cbdb78bb6466e34c.jpg
--------------------------
人的听觉系统是怎样对声音进行定位的?
https://daily.zhihu.com/story/9713210
https://pic3.zhimg.com/v2-95e4632978715690366e4cc65adf75ba.jpg
--------------------------
儿子的玩伴很聪明也算很有心机,还应该让孩子跟他一起玩吗?
https://daily.zhihu.com/story/9713204
https://pic3.zhimg.com/v2-17325b8d8847598b78b6a87923973042.jpg
--------------------------
为什么滑石粉作为一种已知致癌物,还被添加进化妆品里?
https://daily.zhihu.com/story/9713224
https://pic4.zhimg.com/v2-1bdfd07e9a202258c1b2adebee504a27.jpg
--------------------------
瞎扯 · 如何正确地吐槽
https://daily.zhihu.com/story/9713298
https://pic4.zhimg.com/v2-0e0b61ed9b282eeb180b132b663a9aa3.jpg
--------------------------
如何评价《怪奇物语》第三季
https://daily.zhihu.com/story/9713215
https://pic1.zhimg.com/v2-70d018a670e42f857dc38903f3148d6c.jpg
--------------------------
开普勒是如何得出开普勒三大定律的?
https://daily.zhihu.com/story/9713194
https://pic2.zhimg.com/v2-caca938de9a4fd46175f31630107fa51.jpg
--------------------------
中国有什么 ACG 爱好者圣地巡礼的地方?
https://daily.zhihu.com/story/9713184
https://pic4.zhimg.com/v2-fca6cb00b1da7d6ec0244c78d20d74af.jpg
--------------------------
为什么把鱼放进可乐和雪碧中浸泡 30 天,鱼没了?
https://daily.zhihu.com/story/9713253
https://pic4.zhimg.com/v2-a1a6a6286dcb6249abb0f12cba7e0a7f.jpg
--------------------------
瞎扯 · 如何正确地吐槽
https://daily.zhihu.com/story/9713107
https://pic3.zhimg.com/v2-c3e0252364705040c480e4cd2900503e.jpg
--------------------------
为什么最近的地震如此频繁?
https://daily.zhihu.com/story/9713203
https://pic3.zhimg.com/v2-8fcae8e7e92a40d67002cff00b0e0e42.jpg
--------------------------
如何看待伦纳德与快船达成 4 年 1.42 亿美元签约协议?
https://daily.zhihu.com/story/9713169
https://pic2.zhimg.com/v2-77848b0003dc703c89a2d7d8a1578b6d.jpg
--------------------------
对科学执着追求的人,可以整晚打游戏吗?
https://daily.zhihu.com/story/9713115
https://pic3.zhimg.com/v2-f73ebfeb032d7a12e1e01aa77e40343e.jpg
--------------------------
怎样快速去除嘴里的蒜味?
https://daily.zhihu.com/story/9713140
https://pic3.zhimg.com/v2-ac354902d2f1572c03d6501d21c1f6be.jpg
--------------------------
瞎扯 · 如何正确地吐槽
https://daily.zhihu.com/story/9713158
https://pic1.zhimg.com/v2-0a84aa7f699d493504e7e1cce5d50374.jpg
--------------------------
小事 · 医生,我的丈夫,还有多久才……死?
https://daily.zhihu.com/story/9713139
https://pic2.zhimg.com/v2-b7ca3f6664db39c41b8d78607e553fe9.jpg
--------------------------
原生动物是如何演化成后生动物的?
https://daily.zhihu.com/story/9713001
https://pic4.zhimg.com/v2-43f652b7055ea70c646eb4a4c484c4c3.jpg
--------------------------
为什么有时候吃了油炸物就会喉咙痛?
https://daily.zhihu.com/story/9713137
https://pic2.zhimg.com/v2-38033e1a5fe2dc2357928c23f0fa6e61.jpg
--------------------------Process finished with exit code 0

简单爬虫爬取知乎日报并保存日报网页到本地相关推荐

  1. 利用python爬取知乎评论_一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: 1 # -*- c ...

  2. Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中

    Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块 主要是requests模块,用于得到的网页的数据 安装命令为:pip install requests 2 ...

  3. python爬虫爬取知网

    python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...

  4. scrapy实战项目(简单的爬取知乎项目)

    本项目实现了对知乎用户信息的爬取,并没有用数据库等,只是简单地用一些提取了一些字段然后存储在了一个csv文件中,但是同样可以实现无线爬取,理论上可以实现万级数据的爬取(当然取决于网速了) 其实想爬取知 ...

  5. Python爬虫爬取知乎用户信息+寻找潜在客户

    [Python应用]寻找社交网络中的目标用户 日后的更新:由于是很久以前的课程设计项目,完整的源码已经不见了,关键的网页数据获取和解析的部分代码我在文章中已经贴出来了,但写的也不够好,如果想参考爬取知 ...

  6. java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面

    使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...

  7. python爬虫爬取知乎图片,轻松解决头像荒

    前言 最近逛知乎,发现了一个问题.         回答下很多好看的头像,因此我动了一个心思,想要制作一个小网页,可以随机返回一款好看的情头.心思既起,当然要开始付诸行动.但是想要制作如此一个网页,后 ...

  8. 简单爬虫,爬取天猫商品信息

    前言 这是我第一次用Java来写爬虫项目,研究的也不是很透彻,所以爬虫技术的理论方面的就不说太多了. 主要还是以如何爬取商品信息为主,爬取最简单的商品信息,给出大概的思路和方法. 对于没有反爬技术的网 ...

  9. python爬虫知乎点赞_Python爬虫爬取知乎小结

    最近学习了一点网络爬虫,并实现了使用Python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出 ...

  10. Python爬虫-爬取知乎(小结)

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:小小科 ( 想要学习Python?Python学习交流 ...

最新文章

  1. 清华博士宅家太无聊,给猫咪讲函数
  2. 你离高级工程师有多远
  3. MySQL笔记10:engine=innodb和engine=myisam的区别和用法!
  4. 修改自增主键初始化_数据库自增ID用完了会怎么样?
  5. Java:键盘输入一个小数,输出其整数部分
  6. Unknown symbol platform_driver_unregister (err 0)
  7. AS5047P磁编码器ESP32驱动程序、硬件电路设计、SPI通信时序、逻辑波形分析、注意事项
  8. java匿名内部类范例
  9. linux centos6.5下安装svn方法
  10. uint8_t / uint16_t / uint32_t /uint64_t
  11. MySQL 多表查询(Day43)
  12. 如何修复MySQL配置文件?
  13. Android 屏幕万能自适应(自定义适配)
  14. Iptables 指南
  15. RGBA 与 RGB 色彩模式差异
  16. phpStudy2018中Apache启动失败
  17. 使用智遥工作流,优化SAP请购流程
  18. Android x86安装教程
  19. 幅相曲线渐近线_幅相曲线.ppt
  20. 元素和子集,属于与包含

热门文章

  1. 免费的WinCC语音报警控件
  2. jQuery,JS实现自定义鼠标右键菜单
  3. 便签pc android同步,微软电脑sticky notes便签软件怎么和安卓手机便签同步?
  4. 企业名录114_1.36
  5. Win10语言包下载
  6. ppt菜鸟学飞第一天——基础知识及字体知识
  7. 海尔微型计算机hdp-9108,9108能安装内置声卡?
  8. 计算机二级vfp考试大纲,全国计算机等级考试二级VFP考试大纲.doc
  9. phpdesigner 8 注册码
  10. 单反相机的一般入门设置建议