python最简单的爬取邮箱地址怎么写_用python60行代码写一个简单的笔趣阁爬虫！三分一章？...

原标题：用python60行代码写一个简单的笔趣阁爬虫！三分一章？

前言

利用python写一个简单的笔趣阁爬虫，根据输入的小说网址爬取整个小说并保存到txt文件。爬虫用到了BeautifulSoup库的select方法结果如图所示：

本文只用于学习爬虫

一、网页解析

这里以斗罗大陆小说为例网址： http://www.biquge001.com/Book/2/2486/

可以发现每章的网页地址和章节名都放在了中的a标签中，所以利用BeautfulSoup中的select方法可以得到网址和章节名

Tag = BeautifulSoup(getHtmlText(url), "html.parser") #这里的getHtmlText是自己写的获取html的方法

urls = Tag.select("div #list dl dd a")

然后遍历列表

for url in urls:

href = "http://www.biquge001.com/" + url['href'] # 字符串的拼接拼接成正确的网址

pageName = url.text # 每章的章名

然后每章小说的内容都存放在

substance = Tag.select("div #content") # 文章的内容

最后同理在首页获取小说的名称

bookName = Tag.select("div #info h1")

二、代码填写

1.获取Html及写入方法

def getHtmlText(url):

r = requests.get(url, headers=headers)

r.encoding = r.apparent_encoding # 编码转换

r.raise_for_status()

return r.text

def writeIntoTxt(filename, content):

with open(filename, "w", encoding="utf-8") as f:

f.write(content)

f.close()

print(filename + "已完成")

2.其余代码

代码如下(示例)：

url = "http://www.biquge001.com/Book/2/2486/"

substanceStr = ""

bookName1 = ""

html = getHtmlText(url)

# 判断是否存在这个文件

Tag = BeautifulSoup(getHtmlText(url), "html.parser")

urls = Tag.select("div #list dl dd a")

bookName = Tag.select("div #info h1")

for i in bookName:

bookName1 = i.text

if not os.path.exists(bookName1):

os.mkdir(bookName1)

print(bookName1 + "创建完成")

else:

print("文件已创建")

for url in urls:

href = "http://www.biquge001.com/" + url['href'] # 字符串的拼接拼接成正确的网址

pageName = url.text # 每章的章名

path = bookName1 + "\\" # 路径

fileName = path + url.text + ".txt" # 文件名 = 路径 + 章节名 + ".txt"

Tag = BeautifulSoup(getHtmlText(href), "html.parser") # 解析每张的网页

substance = Tag.select("div #content") # 文章的内容

for i in substance:

substanceStr = i.text

writeIntoTxt(fileName, substanceStr)

time.sleep(1)

总结

简单利用了BeautfulSoup的select方法对笔趣阁的网页进行了爬取

近期有很多朋友通过私信咨询有关Python学习问题。为便于交流，点击蓝色自己加入讨论解答资源基地返回搜狐，查看更多

责任编辑：

python最简单的爬取邮箱地址怎么写_用python60行代码写一个简单的笔趣阁爬虫！三分一章？...相关推荐

python最简单的爬取邮箱地址_python3爬取网页中的邮箱地址
1.爬虫分析分析结果对: http://xxx.com?method=getrequest&gesnum=00000001 http://xxx.com?method=getrequest& ...
python最简单的爬取邮箱地址_python爬取邮箱的实例代码
1 # -*- coding: cp936 -*- 2 import urllib2 3 import re 4 from pyquery import PyQuery as pq 5 from lx ...
爬取京东商品规格和评论，13行代码写成的模板，想爬哪个商品评论就爬哪个
先看运行效果上面图片是爬取京东阿玛尼口红的评论和商品规格下面是13行代码,没错13行就可以了,想爬哪个就输入哪个商品的编号,商品编号在下面图片中找,我在爬取时候发现商品编号在url中有显示,比对之 ...
python最简单的爬取邮箱地址_python简单爬虫，抓取邮箱
最近,老师给了一个练习是,实现一个爬虫,就爬大概100个网页,匹配出邮箱. 于是,我花了几天时间,熟悉熟悉了python,就有了下面这个超级简单的爬虫程序.各种毛病...... 这里先说明一下,pyt ...
用python60行代码写一个简单的笔趣阁爬虫！三分一章？
前言利用python写一个简单的笔趣阁爬虫,根据输入的小说网址爬取整个小说并保存到txt文件.爬虫用到了BeautifulSoup库的select方法结果如图所示: 本文只用于学习爬虫一.网页解 ...
三百行python代码的项目_使用300行代码创建一个分布式系统
使用 300 行代码创建一个分布式系统构建一个分布式系统是很困难的. 它需要可扩展性. 容错性. 高可用性. 一致性. 可伸缩以及高效.为了达到这些目的,分布式系统需要很多复杂的组件以一种复杂的 ...
python中data.find_all爬取网站为空列表_利用Golang快速爬取盗版网站的整套音频
01 前言最近因为 Zigma 帮我写了个推广 Catcher 小程序软文的原因,答应了他帮他爬了一个盗版音频网站的整套 <李淼谈奇案> . 在制作爬虫脚本的过程中,也是遇到了一些有趣的 ...
Python爬取网站用户手机号_用Python爬虫爬取学校网妹子QQ号，100行代码撩妹，用技术脱单...
前言: 其实这个项目没什么难度,稍微懂一点爬虫的人或者是已经就业的程序员都可以用自己学的编程语言写出来,但是正是这也原因,也间接证明现在网络很多安全问题的存在,简单的说就是这个网站的程序员偷懒,让用户 ...
python抓取抖音热门视频_要是30行代码！7步教会你Python爬取网页抖音热门视频
前言抖音短视频相信大家都听过,也不陌生对吧!可以看到海量的短视频,涵盖了各大行业.个人觉得抖音有毒,刷着刷着根本停不下来,一看时间就是凌晨3.4点.今天带大家爬取抖音网页版的视频数据!一睹为快吧本 ...
python编程：电话簿TeleAddressBook和邮箱地址簿EmailAddressBook两个文件，合并为一个完整的AddressBook文件
有电话簿TeleAddressBook和邮箱地址簿EmailAddressBook两个文件,使用字典结构将其合并为一个完整的AddressBook文件 . 变为: 代码如下: # -*- coding ...

python最简单的爬取邮箱地址怎么写_用python60行代码写一个简单的笔趣阁爬虫！三分一章？...

python最简单的爬取邮箱地址怎么写_用python60行代码写一个简单的笔趣阁爬虫！三分一章？...相关推荐

最新文章

热门文章