环境准备:
1.python 3.0+
2.豆瓣出版社网址 https://read.douban.com/provider/all

ok,开始我们的实验
1.打开浏览器,输入网址,右击网页,查看网页源码,这里我用的是谷歌浏览器

2.看上图我们发现许多出版社名称,接下来我们查找一个出版社名称,例如重庆大学
观察下图我们发现它们都在一个div标签内,且class=”name” ,所以,我们开始编写代码

3.代码

import urllib.request
import re
import os
url = "https://read.douban.com/provider/all"  #获取url
pat = '<div class="name">(.*?)</div>'  #匹配规则
data = urllib.request.urlopen(url).read().decode("utf-8") #读取网页的内容并解码
relut = re.compile(pat).findall(data)       #会返回一个列表
file = open(r"C:\Users\123\豆瓣出版社.txt", "w", encoding="utf-8")  #这里我定义了一个自己的存储路径,大家可以根据自己的路径修改
for i in relut:file.write(i)        #将出版社名称写入文件file.write("\n")    #表示换行

4.最后在你的存储目录下打开文件就可以查看内容了!

python之简单爬虫(爬取豆瓣出版社)相关推荐

  1. 编写Python爬虫爬取豆瓣出版社列表并写入文件

    爬取豆瓣出版社列表并写入文件 本文介绍了如何编写Python程序从网址'https://read.douban.com/provider/all' 爬取豆瓣出版社列表并写入文件: 程序 import ...

  2. Python爬虫-爬取豆瓣出版社信息

    爬取豆瓣出版社信息 代码如下: # 爬取豆瓣出版社 import urllib.request import reurl = 'https://read.douban.com/provider/all ...

  3. Python Scrapy简单爬虫-爬取澳洲药店,代购党的福音

    身在澳洲,近期和ld决定开始做代购,一拍即合之后开始准备工作.众所周知,澳洲值得买的也就那么点东西,奶粉.UGG.各种保健品,其中奶粉价格基本万年不变,但是UGG和保健品的价格变化可能会比较大.所以, ...

  4. Python爬虫 爬取豆瓣电影TOP250

    Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...

  5. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  6. 使用python的scrapy框架简单的爬取豆瓣读书top250

    使用python的scrapy框架简单的爬取豆瓣读书top250 一.配置scrapy环境 1. 配置相应模块 如果没有配置过scrapy环境的一般需要安装lxml.PyOpenssl.Twisted ...

  7. python爬取豆瓣短评_爬虫-爬取豆瓣短评

    爬虫-爬取豆瓣短评 啥是爬虫? ​按照一定的规则,自动地抓取互联网信息的程序. 为啥要用爬虫? ​可以利用爬虫自动地采集互联网中的信息,采集回来后进行相应的存储或处理,在需要检索某些信息的时候,只需在 ...

  8. python爬虫 — 爬取豆瓣最受关注图书榜

    一个简单的爬取豆瓣最受关注图书榜的小爬虫,在爬取相关信息后,将结果保存在 mongo 中 整个流程分为以下几步: (1)构造url (2)分析网页 (3)编写程序,提取信息 解析,将分别介绍以上几步 ...

  9. python爬虫豆瓣电影评价_使用爬虫爬取豆瓣电影影评数据Python版

    在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现,所以直接上代码 完整代码 爬虫主程序 # 爬虫启动入口 from C02.data ...

  10. Python爬虫爬取豆瓣电影评论内容,评论时间和评论人

    Python爬虫爬取豆瓣电影评论内容,评论时间和评论人 我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...

最新文章

  1. 关于外部存储器件对存储数据的管理。
  2. C语言scanf函数的返回值、scanf函数的安全版、在while条件中使用scanf函数
  3. stay hungry stay foolish原文_弟子规原文+译文+注释
  4. iOS之深入解析bitcode的功能与应用
  5. java切面类整合_自定义注解+面向切面整合的日志记录模块(一)
  6. There is no public key available for the following key IDs: 3B4FE6ACC0B21F32
  7. 前端学习(2423):补充markdown语法补充
  8. Hbase2.0版本安装教程
  9. 佛祖保佑代码无bug图片_程序员都有哪些奇趣的代码注释,细思极恐
  10. word 产生很多temp 不显示_word表格中文字显示到最下面的时候不自动换页-解决办法...
  11. 软件压力测试的手段有注入错误吗,JMeter压力测试之环境搭建、脚本调试及报错解决方法(Linux版)...
  12. 可能是最全的前端动效库汇总
  13. 详解两个栈实现一个队列(python实现——经典面试题)
  14. Jmeter小程序压力测试案例
  15. calibre +obok插件,解决从kobo上买的电子书的DRM问题
  16. 如何设置无需fn直接按F1~F10(HP Pavilion Notebook )
  17. 夏威夷大学计算机专业排名,夏威夷大学(美国夏威夷大学排名)
  18. 药方的量化方法笔记(学习与尝试):第二回 第一次 药方的拆解 量化方法的形式的发展 对药的量化分析
  19. 阿里云CDN介绍以及如何配合OSS使用
  20. Hough变换直线检测

热门文章

  1. 无参考质量评估在视频增强的进展与应用
  2. 别光看世界杯 7月还有一场音视频技术盛宴等着你
  3. 下篇 | 说说无锁(Lock-Free)编程那些事(下)
  4. 运维总监聂鑫:腾讯海量监控体系经验分享
  5. google mock分享
  6. MapReduce太慢了,记一次对它的调优建议。
  7. 【Android开发】文本框、按钮、文本编辑框、提交登录、单选框
  8. C++ 静态线性表的顺序存储结构(数组实现)
  9. netty系列之:自动重连
  10. Leet Code OJ 338. Counting Bits [Difficulty: Medium]