Python顶点小说爬虫（《三寸人间》爬取）

获取整个页面

import requests
from bs4 import BeautifulSoup
url = "https://www.23us.so/files/article/html/0/43/3615671.html"
r = requests.get(url, timeout=30)
r.raise_for_status()#检验连接状态
r.encoding = 'utf-8'#中文格式
soup = BeautifulSoup(r,"html.parser")

a = str(soup.find_all('h1'))#得到章节标题并转化成str类型

b = str(soup.find_all('dd',{'id',contents}))#得到小说内容并将它转化成str类型

写入.txt文档

dingdian = open("顶点.txt","a",encoding = "utf-8")
dingdian.write(a+'\n')
dingdian.write(b+'\n\n\n')
dingdian.close

大致结果如下

这就要用replace函数进行优化

a = a.replace('<h1>','')#将<h1>替换成空
a = a.replace('</h1>','')#将</h1>替换成空
b = b.replace('<br/>','')#将<br/>替换成空

继续爬取下一章

Next = soup.find_all('a')
for i in Next:#因为一个页面有多个a标签，所以遍历取出需要的内容if(i.string =='下一页'):break
url = 'https://www.23us.so'+i.get('href')#href的地址为相对路径，需要加上网站首页IP地址

得到url后就重复上面的操作。
整理所有代码并将它函数化

import requests
from bs4 import BeautifulSoup
def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = 'utf-8'return r.textexcept:return ""
def getNextHTML(soup):Next = soup.find_all('a')for i in Next:if(i.string =='下一页'):breakreturn'https://www.23us.so' + i.get('href')
def getText(soup):a = str(soup.find_all('dd',{'id':'contents'})).replace('[<dd id="contents">','')return a.replace('<br/>','')
def getHead(soup):a = str(soup.find_all('h1')).replace('<h1>','')return a.replace('</h1>','')
def putText(text,h1):dingdian = open("sancunrenjian.txt","a",encoding = "utf-8")dingdian.write(h1 + '\n')dingdian.write(text+'\n\n\n\n')dingdian.close
def main():url = "https://www.23us.so/files/article/html/0/43/3615671.html"r = getHTMLText(url)soup = BeautifulSoup(r,"html.parser")while(True):putText(getText(soup),getHead(soup))url = getNextHTML(soup)if(url == 'https://www.23us.so/files/article/html/0/43/index.html'):breakr = getHTMLText(url)soup = BeautifulSoup(r,"html.parser")
main()

Python顶点小说爬虫（《三寸人间》爬取）相关推荐

Python数据分析：爬虫从网页爬取数据需要几步？
对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求.获取响应内容.解析数据. ...
Python之网络爬虫（selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密）
文章目录一.selenium爬取动态网页二.爬虫案例分析三.哈希hash算法与RSA加密一.selenium爬取动态网页 1.动态网页认知爬虫其实就是在模仿浏览器的行为应对要多次数据的交互 ...
python用scrapy爬虫豆瓣_Python-用Scrapy爬取豆瓣电影
学习网址: http://www.ituring.com.cn/article/114408 http://python.jobbole.com/86584/ https://segmentfault ...
【Python】从爬虫开始吧——爬取妹子图整站
首先得解决环境和工具的问题 Python基础教程 Python3基础教程大家也可以去慕课网看视频学习哦,关于选择Python2还是Python3的问题,上手的话还是直接选择3吧. 关于爬虫爬虫就是 ...
请用Python写一个爬虫程序，爬取当当网图书畅销榜数据
好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...
【Python实现网络爬虫】Scrapy爬取网易新闻(仅供学习交流使用！)
目录 1. 新建项目 2. 修改itmes.py文件 3. 定义spider,创建一个爬虫模板 3.1 创建crawl爬虫模板 3.2 补充知识:selectors选择器 3.3. 分析网页内容主体 ...
【Python aiohttp异步爬虫】批量爬取电脑壁纸
寒假在家,实在无事可做,就找到了崔庆才爬虫52讲的课程,巩固一下爬虫知识,最近也是学到了异步爬虫,本来想按照视频教的案例实践一下就可以了,没想到案例网站证书过期了,没办法进行实践,只能去找别的网站实践 ...
利用python爬取天气预报_python实现天气爬虫——利用xpath爬取七天天气预报数据...
python实现天气爬虫--利用xpath爬取七天天气预报数据 import pandas as pd import lxml import requests import csv from lxml ...
python3.6爬虫案例：爬取顶点小说（爱看小说同学的福利）
一.写在前面这次本来打算爬百思不得姐视频的,谁料赶上此网站调整,视频专栏下线了,网站中也没有视频可爬.所幸先来说说如何爬取顶点小说吧. 顶点小说(https://www.x23us.com)里面的内 ...

Python顶点小说爬虫（《三寸人间》爬取）

Python顶点小说爬虫（《三寸人间》爬取）

Python顶点小说爬虫（《三寸人间》爬取）相关推荐

最新文章

热门文章