python爬虫学习（第三爬）

爬取小说（用BeautifulSoup爬）

url=http://www.bixiange.me/wxxz/3976/

先来常规操作

url = "http://www.bixiange.me/wxxz/3976/index/1.html"
headers = {"user-agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:90.0) Gecko/20100101 Firefox/90.0"
}
resp = requests.get(url,headers=headers)
resp.encoding = resp.apparent_encoding
html = resp.text
print(html)

观察页面源代码

可以发现小说都是现在标签<div></div>之间

因此用bf提取div标签并且指定对应class与id

bf = BeautifulSoup(html)
texts = bf.find_all('div',class_="content",id="mycontent")
print(texts)

得到的代码还是有<br><br>标签

解决方法：在匹配前提前把<br><br>改成换行

完成代码如下：

import requests
import time
from requests.api import head
from lxml import etree
from bs4 import BeautifulSoupfor a in range(1,10):url = "http://www.bixiange.me/wxxz/3976/index/{}.html".format(a)headers = {"user-agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:90.0) Gecko/20100101 Firefox/90.0"}resp = requests.get(url,headers=headers)resp.encoding = resp.apparent_encodinghtml = resp.texthtml = html.replace("<br><br>",'\n\n')#在匹配前提前把<br><br>改成换行bf = BeautifulSoup(html)texts = bf.find_all('div',class_="content",id="mycontent") with  open('sample/novel.txt','a') as f:#写入文件中，文件默认和python文件同一级目录f.write(texts[0].text.replace('<br><br>','\n\n'))print(a)time.sleep(0.2)
f.close()

python爬虫学习（第三爬）相关推荐

Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称
Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称这一节主要是使用xpath解析爬取全国城市名称这里使用的网址是:空气质量历史数据查询这一个案例体现的点主要是xpat ...
python爬虫学习之定向爬取淘宝商品价格
python爬虫学习之定向爬取淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...
python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)
2020年最新淘宝商品比价定向爬取功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格. 理解:淘宝的搜索接口翻页的处理技术路线:requests re 程序的结 ...
python爬虫urllib 数据处理_python爬虫学习笔记(三)-爬取数据之urllib库
1. 小试牛刀怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把 ...
Python爬虫学习，批量爬取下载抖音视频
这篇文章主要为大家详细介绍了python批量爬取下载抖音视频,具有一定的参考价值,感兴趣的小伙项目源码展示 ''' 注:如果你对python感兴趣,我这有个学习Python基地,里面有很多学习资料, ...
python爬取web漫画网站_[Python爬虫学习]利用selenuim爬取漫画网站
注意事项版本 Python版本为 Python-3.8.3 系统为 Windows10 浏览器为 Firefox-77.0 前置 \(selenium\) \(BeautifulSoup\) \(r ...
python爬虫-----学习bs，爬取丁香园特定帖子的所有回复内容
beautifsoup----爬虫数据挖掘又一大利器 – 安装: conda install beautifulsoup4 或者 pip install beautifulsoup4(这个4代表着bs ...
Python爬虫学习---------使用beautifulSoup4爬取名言网
爬取名言网top10标签对应的名言,并存储到mysql中,字段(名言,作者,标签) #! /usr/bin/python3 # -*- coding:utf-8 -*-from urllib.requ ...
Python 爬虫学习08 将爬取到的数据保存到SQL
import pymssql #引入pymssql模块 import sys from bs4 import BeautifulSoup # 网页解析,获取数据 import re # 正则表达式,进 ...
python爬虫学习：第一爬_快眼看书排行榜
1 import json 2 import re 3 from urllib.request import urlopen # urllib用法:https://www.jb51.net/artic ...

python爬虫学习（第三爬）

python爬虫学习（第三爬）相关推荐

最新文章

热门文章