实例3:爬取斗破苍穹小说全文
呜呼~回到家的感觉真的不一样,下了广州站空气就清新了一番。。回到家就是熟悉而又陌生的感觉。
这次的实例是爬取斗破苍穹小说网的斗破苍穹小说全文。首先要找的是原网站,不是百度到的最前面的。因为正版的蜘蛛协议也写得很清楚了。。而且里面的文本内容被藏起来了。无能为力,只能爬别的网啦哈哈。
思路 通常思路1. requests + Beautiful 2. requests + re
这里我们比较一下这两种方法,首先使用requests + re 路线
如图
要提取的信息都在p标签里面,
所以re.findall用正则表达式去匹配p标签吗?
下图
下面还有一个p标签呢。。所以findall的话会多出一个句子。
同实例2一样,我们使用select就可以了,经过全文的搜索发现<div class=articlecon 》这个标签是唯一存在的,唯一存在那就soup.select()完事了。
from bs4 import BeautifulSoup
import requests
import timekey_value = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}def get_html(url):try:web_data = requests.get(url,headers = key_value)web_data.raise_for_status()web_data.encoding = web_data.apparent_encodingreturn web_data.textexcept:return None
file = open('D:/doupoxiaoshuo.txt','a+',encoding='UTF-8')def write_file(html):soup = BeautifulSoup(html,'lxml')texts = soup.select('div.articlecon > p')for text in texts:real_text = text.get_text()file.write(real_text+'\n')if __name__ == '__main__':part_url = 'https://m.doupocangqiong1.com/1/t'for i in range(20,1677):real_url = part_url + str(i) + '.html'html = get_html(real_url)write_file(html)time.sleep(0.5)file.close()
爬取过程十分之久。。
Result!!!
热爱生活,而爱编程
实例3:爬取斗破苍穹小说全文相关推荐
- 使用python爬取斗破苍穹小说网
使用python爬取斗破苍穹小说网,学会了以后就不用去看付费的小说了不多bb直接上源码 import requests from bs4 import BeautifulSoupdef file(): ...
- Python-使用正则表达式爬取斗破苍穹小说文字内容(使用Requests库实现)
**Python-爬取斗破苍穹小说文字内容(使用Requests库实现) ** 本次爬取的小说网站为:斗破小说网点击直达网站首页,本人爬取的网站里面的天斗破苍穹,你也可以根据文中提供的代码爬取其他的小 ...
- pythonrequest爬取小说,pythonrequest爬取小说_python爬取斗破苍穹小说
通过python批量自动化下载斗破苍穹小说 效果是这样的 效果展示1 效果展示2 我的代码 import re import urllib.request import time url='http: ...
- pythonrequest爬取小说_python爬取斗破苍穹小说
通过python批量自动化下载斗破苍穹小说 效果是这样的 效果展示1 效果展示2 我的代码 import re import urllib.request import time url='http: ...
- python爬虫简单实例-爬取17K小说网小说
什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程 先由urllib的request打开Url得到网页html文档 ...
- python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...
python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...
- python爬虫笔记(八) 实例3:用Python批量爬取全站小说【以书趣阁为例】
1. 用Python批量爬取全站小说 爬取这个网站小说:http://www.shuquge.com/txt/89644/index.html 2. 爬取一本书 # -*- coding: utf-8 ...
- python爬虫爬取起点小说_python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...
- 用python爬取小说的总结_python如何使爬取的小说更利于观看
python使爬取的小说更利于观看的方法: 1.使用追加模式将文章写入txt文本 关于文件的写入, 'w' 的方式 是覆盖写, 没有就创建, 那么我们写小说就不需要用这个, 使用 'a' 追加写的模式 ...
最新文章
- 用了 Elasticsearch 后,查询起飞了!
- Java 基础之java运算符
- You (root) are not allowed to access to (crontab) because of pam configuration
- C-Free注册码,密钥,到期解决办法
- LayIM 3.9.1与ASP.NET SignalR实现Web聊天室快速入门(一)之效果展示与关键技术简介
- 浪潮服务器支持pcie ssd硬盘吗,PCI-E与SATA SSD如何选?一分钟看懂
- Gnutella 及无结构化(非结构化)P2p的一些总结
- 移动硬盘linux双系统,安装ubuntu到移动硬盘(UEFI+GPT),实现在别的电脑也可以使用(详细教程),...
- android打开sd卡文件,从Android中的SD卡读取特定文件
- MQ,究竟如何做到削峰填谷?
- 学习挖掘机和程序员哪个好
- MyBatis基础学习知识点3
- 使用Pandas的read_html方法读取网页Table表格数据
- EPICS -- autosave模块使用示例
- 洛谷P4711 【化学】 相对分子质量 简单题解
- linux u识别,基于uCLinux的纸币识别器底层系统研究和实现
- PPT绘论文图之导出分辨率
- GoLang 单元测试打桩和 mock
- HBuilderX 下载git
- mysql count的子查询_使用COUNT进行子查询的慢MYSQL查询
热门文章
- CH9121网络模块与阿里云PHP服务器通信,实现HTTP-GET/POST
- php 美化json,分享一个 PHP 版的 JSON 数据格式化函数
- 真实dom转换为虚拟dom的简单实现
- maching learning入门(三)
- java如何实排班表时间算法_java如何实排班表时间算法
- MOS管认识及选型的一点见解
- 隧道施工人员ZigBee精确定位系统
- tomcat9使用crt格式证书配置HTTPS
- java jdk 7_jdk1.7下载|Java Development Kit (JDK) 下载「64位」-太平洋下载中心
- 马尔科夫模型在Gowalla数据集下的简单实践