实例3:爬取斗破苍穹小说全文

呜呼~回到家的感觉真的不一样，下了广州站空气就清新了一番。。回到家就是熟悉而又陌生的感觉。

这次的实例是爬取斗破苍穹小说网的斗破苍穹小说全文。首先要找的是原网站，不是百度到的最前面的。因为正版的蜘蛛协议也写得很清楚了。。而且里面的文本内容被藏起来了。无能为力，只能爬别的网啦哈哈。

思路通常思路1. requests + Beautiful 2. requests + re

这里我们比较一下这两种方法，首先使用requests + re 路线
如图

要提取的信息都在p标签里面，
所以re.findall用正则表达式去匹配p标签吗?
下图

下面还有一个p标签呢。。所以findall的话会多出一个句子。
同实例2一样，我们使用select就可以了，经过全文的搜索发现<div class=articlecon 》这个标签是唯一存在的,唯一存在那就soup.select()完事了。

from bs4 import BeautifulSoup
import requests
import timekey_value = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}def get_html(url):try:web_data = requests.get(url,headers = key_value)web_data.raise_for_status()web_data.encoding = web_data.apparent_encodingreturn web_data.textexcept:return None
file = open('D:/doupoxiaoshuo.txt','a+',encoding='UTF-8')def write_file(html):soup = BeautifulSoup(html,'lxml')texts = soup.select('div.articlecon > p')for text in texts:real_text = text.get_text()file.write(real_text+'\n')if __name__ == '__main__':part_url = 'https://m.doupocangqiong1.com/1/t'for i in range(20,1677):real_url = part_url + str(i) + '.html'html = get_html(real_url)write_file(html)time.sleep(0.5)file.close()

爬取过程十分之久。。
Result！！！

热爱生活，而爱编程

实例3:爬取斗破苍穹小说全文相关推荐

使用python爬取斗破苍穹小说网
使用python爬取斗破苍穹小说网,学会了以后就不用去看付费的小说了不多bb直接上源码 import requests from bs4 import BeautifulSoupdef file(): ...
Python-使用正则表达式爬取斗破苍穹小说文字内容（使用Requests库实现）
**Python-爬取斗破苍穹小说文字内容(使用Requests库实现) ** 本次爬取的小说网站为:斗破小说网点击直达网站首页,本人爬取的网站里面的天斗破苍穹,你也可以根据文中提供的代码爬取其他的小 ...
pythonrequest爬取小说,pythonrequest爬取小说_python爬取斗破苍穹小说
通过python批量自动化下载斗破苍穹小说效果是这样的效果展示1 效果展示2 我的代码 import re import urllib.request import time url='http: ...
pythonrequest爬取小说_python爬取斗破苍穹小说
通过python批量自动化下载斗破苍穹小说效果是这样的效果展示1 效果展示2 我的代码 import re import urllib.request import time url='http: ...
python爬虫简单实例-爬取17K小说网小说
什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程先由urllib的request打开Url得到网页html文档 ...
python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...
python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...
python爬虫笔记（八）实例3：用Python批量爬取全站小说【以书趣阁为例】
1. 用Python批量爬取全站小说爬取这个网站小说:http://www.shuquge.com/txt/89644/index.html 2. 爬取一本书 # -*- coding: utf-8 ...
python爬虫爬取起点小说_python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...
用python爬取小说的总结_python如何使爬取的小说更利于观看
python使爬取的小说更利于观看的方法: 1.使用追加模式将文章写入txt文本关于文件的写入, 'w' 的方式是覆盖写, 没有就创建, 那么我们写小说就不需要用这个, 使用 'a' 追加写的模式 ...

实例3:爬取斗破苍穹小说全文

实例3:爬取斗破苍穹小说全文相关推荐

最新文章

热门文章