Python数据爬虫学习笔记(3)爬取豆瓣阅读的出版社名称数据
需求:写一个Python程序,实现获取豆瓣阅读网页上的所有出版社名称,并储存在指定路径的txt文件中,如下:
准备:观察该网页的源代码,注意到每个出版社名称都由固定格式的div所包裹,如下:
编写代码:
import urllib.request
data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
data=data.decode("utf-8") #注意对汉字要进行编码
import re
pat='<div class="name">(.*?)</div>'
mydata=re.compile(pat).findall(data)
#得到一个数组mydata:['博集天卷', '北京邮电大学出版社',........]
fh=open("F:/22.txt","w")
for i in range(0,len(mydata)):fh.write(mydata[i]+"\n")
fh.close()
结果:
Python数据爬虫学习笔记(3)爬取豆瓣阅读的出版社名称数据相关推荐
- Python数据爬虫学习笔记:爬取豆瓣阅读的出版社名称数据
环境准备: 1.python 3.0+ 2.豆瓣出版社网址 https://read.douban.com/provider/all 1.打开浏览器,输入网址,右击网页,查看网页源码 2.看上图我们发 ...
- Python网络爬虫实战12:爬取豆瓣电影中热门电影数据
代码实例 # coding:utf8 import json import requests from bs4 import BeautifulSoup import openpyxlwb = ope ...
- 爬虫学习笔记:爬取古诗文网
1.目标网站 目标网站:https://so.gushiwen.org/shiwen/default.aspx? 2.爬虫目的 爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中. 3.爬 ...
- Python网络爬虫:利用正则表达式爬取豆瓣电影top250排行前10页电影信息
在学习了几个常用的爬取包方法后,转入爬取实战. 爬取豆瓣电影早已是练习爬取的常用方式了,网上各种代码也已经很多了,我可能现在还在做这个都太土了,不过没事,毕竟我也才刚入门-- 这次我还是利用正则表达式 ...
- 爬虫学习笔记——Selenium爬取淘宝商品信息并保存
在使用selenium来模拟浏览器操作,抓取淘宝商品信息前,先完成一些准备工作. 准备工作:需要安装selenium,pyquery,以及Chrome浏览器并配置ChromeDriver. 安装sel ...
- 【Python3 爬虫学习笔记】爬取喜马拉雅《宝宝巴士-奇妙三字经》
最近发现,娃喜欢睡觉之前听<三字经>,又不想给他玩手机,遂起心将喜马拉雅FM上的音频下载下来的想法. 在网上搜到了一篇文章,介绍了如何爬取:https://blog.csdn.net/ma ...
- python爬虫urllib 数据处理_python爬虫学习笔记(三)-爬取数据之urllib库
1. 小试牛刀 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把 ...
- Python爬虫学习---------根据分类爬取豆瓣电影的电影信息
代码的入口: if __name__ == '__main__': main() #! /usr/bin/python3 # -*- coding:utf-8 -*- # author:Sirius. ...
- Python网络爬虫实战练习:爬取豆瓣图书信息
一.注意事项 1.文件名尽量使用英文,避免出现编码问题 2.含中文的文件写入,注意标注编码,如: with open(r"C:\Users\10335\Desktop\response.tx ...
最新文章
- zabbix监控搭建
- JavaFX UI控件教程(十七)之Slider
- 牛客网Java刷题知识点之关键字static、static成员变量、static成员方法、static代码块和static内部类...
- Halcon学习笔记(三)---数据类型
- LeetCode 865. 具有所有最深结点的最小子树(递归)
- mysql 交叉统计_Mysql静态行列转换交叉查询
- 使用标准库函数对象的例子
- 前后端分离的用户验证原理及Spring Boot + JWT的框架搭建(附完整的框架代码)之一
- 设计模式第四篇-工厂模式
- 零基础+进阶系统化渗透测试工程师+CTF网络安全大赛学习指南
- 离散数学计算机科学与技术答案,湘潭大学计算机科学与技术刘任任版离散数学课后习题答案---第二学期--图论与组合数学...
- oracle查询备份backup失败,NBU备份Oracle问题,status96 和status6 典型报错
- 51单片机c语言怎么定义引脚,80C51单片机引脚功能图解
- 给 QuickTime 播放器添加方向键快进/快退功能
- creator tween复杂用法
- UEFI+GPT引导实践篇 (UEFI引导安装64位Win7/Win8)
- 简易爬虫---爬图片以及用到的主要知识
- Java面试题——Spring
- 小猪佩奇的4种python玩法,带你趣味学python!
- Wireshark数据包分析