需求:写一个Python程序,实现获取豆瓣阅读网页上的所有出版社名称,并储存在指定路径的txt文件中,如下:

准备:观察该网页的源代码,注意到每个出版社名称都由固定格式的div所包裹,如下:

编写代码:

import urllib.request
data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
data=data.decode("utf-8")  #注意对汉字要进行编码
import re
pat='<div class="name">(.*?)</div>'
mydata=re.compile(pat).findall(data)
#得到一个数组mydata:['博集天卷', '北京邮电大学出版社',........]
fh=open("F:/22.txt","w")
for i in range(0,len(mydata)):fh.write(mydata[i]+"\n")
fh.close()

结果:

Python数据爬虫学习笔记(3)爬取豆瓣阅读的出版社名称数据相关推荐

  1. Python数据爬虫学习笔记:爬取豆瓣阅读的出版社名称数据

    环境准备: 1.python 3.0+ 2.豆瓣出版社网址 https://read.douban.com/provider/all 1.打开浏览器,输入网址,右击网页,查看网页源码 2.看上图我们发 ...

  2. Python网络爬虫实战12:爬取豆瓣电影中热门电影数据

    代码实例 # coding:utf8 import json import requests from bs4 import BeautifulSoup import openpyxlwb = ope ...

  3. 爬虫学习笔记:爬取古诗文网

    1.目标网站 目标网站:https://so.gushiwen.org/shiwen/default.aspx? 2.爬虫目的 爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中. 3.爬 ...

  4. Python网络爬虫:利用正则表达式爬取豆瓣电影top250排行前10页电影信息

    在学习了几个常用的爬取包方法后,转入爬取实战. 爬取豆瓣电影早已是练习爬取的常用方式了,网上各种代码也已经很多了,我可能现在还在做这个都太土了,不过没事,毕竟我也才刚入门-- 这次我还是利用正则表达式 ...

  5. 爬虫学习笔记——Selenium爬取淘宝商品信息并保存

    在使用selenium来模拟浏览器操作,抓取淘宝商品信息前,先完成一些准备工作. 准备工作:需要安装selenium,pyquery,以及Chrome浏览器并配置ChromeDriver. 安装sel ...

  6. 【Python3 爬虫学习笔记】爬取喜马拉雅《宝宝巴士-奇妙三字经》

    最近发现,娃喜欢睡觉之前听<三字经>,又不想给他玩手机,遂起心将喜马拉雅FM上的音频下载下来的想法. 在网上搜到了一篇文章,介绍了如何爬取:https://blog.csdn.net/ma ...

  7. python爬虫urllib 数据处理_python爬虫学习笔记(三)-爬取数据之urllib库

    1. 小试牛刀 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把 ...

  8. Python爬虫学习---------根据分类爬取豆瓣电影的电影信息

    代码的入口: if __name__ == '__main__': main() #! /usr/bin/python3 # -*- coding:utf-8 -*- # author:Sirius. ...

  9. Python网络爬虫实战练习:爬取豆瓣图书信息

    一.注意事项 1.文件名尽量使用英文,避免出现编码问题 2.含中文的文件写入,注意标注编码,如: with open(r"C:\Users\10335\Desktop\response.tx ...

最新文章

  1. zabbix监控搭建
  2. JavaFX UI控件教程(十七)之Slider
  3. 牛客网Java刷题知识点之关键字static、static成员变量、static成员方法、static代码块和static内部类...
  4. Halcon学习笔记(三)---数据类型
  5. LeetCode 865. 具有所有最深结点的最小子树(递归)
  6. mysql 交叉统计_Mysql静态行列转换交叉查询
  7. 使用标准库函数对象的例子
  8. 前后端分离的用户验证原理及Spring Boot + JWT的框架搭建(附完整的框架代码)之一
  9. 设计模式第四篇-工厂模式
  10. 零基础+进阶系统化渗透测试工程师+CTF网络安全大赛学习指南
  11. 离散数学计算机科学与技术答案,湘潭大学计算机科学与技术刘任任版离散数学课后习题答案---第二学期--图论与组合数学...
  12. oracle查询备份backup失败,NBU备份Oracle问题,status96 和status6 典型报错
  13. 51单片机c语言怎么定义引脚,80C51单片机引脚功能图解
  14. 给 QuickTime 播放器添加方向键快进/快退功能
  15. creator tween复杂用法
  16. UEFI+GPT引导实践篇 (UEFI引导安装64位Win7/Win8)
  17. 简易爬虫---爬图片以及用到的主要知识
  18. Java面试题——Spring
  19. 小猪佩奇的4种python玩法,带你趣味学python!
  20. Wireshark数据包分析

热门文章

  1. linux创建共享文件夹(Ubuntu)
  2. java map循环删除_map循环删除某个元素
  3. 新概念英语1册83课
  4. 高考语文 古诗给力绝对 对不起老师 古诗背窜了
  5. 力士乐INDRAMAT伺服驱动器维修DKC01.1-040-7-FW注意事项
  6. SQLServer 跨服务器 查询数据
  7. 【Echarts数据可视化】一个项目带你学会酷炫的数据可视化
  8. 为什么需要数据科学(Stanley C. Ahalt)
  9. Windows平台基于API Hook技术的WinInet网络库HttpDNS实现方案
  10. 如何用 Python 代码绘制赏月美景?