【python】使用爬虫爬取动漫之家漫画更新信息
网站名称为:
https://manhua.dmzj.com/update_1.shtml
本篇仅在于交流学习
1.首先将相应的库导入:
import re
import requests
from bs4 import BeautifulSoup
import pandas as pd
2.截取网站信息进行分析:(此处是网页的第一页)
a = requests.get('https://manhua.dmzj.com/update_1.shtml')
html = a.content
soup = BeautifulSoup(html, 'html.parser')
print(soup)
效果如下:
3.截取信息,通过正则表达式进行网页内容截取:
findnewlink = re.compile(r'<a href="(.*?)"',re.S) #最新更新连接
findtitle = re.compile(r'title="(.*)"') #作品标题
findname = re.compile(r'<span class="gray12">(.*)</span></li>')
findle = re.compile(r'<li>(.*)</li>') #状态
findtime1 = re.compile(r'<li class="numfont"><span class="color_red">(.*)</span></li>')#今天更新作品时间
#findtime2 = re.compile(r'<li class="numfont">(.*)</li>') #最近更新时间
4.循环获取:
for i in soup.find_all('div',class_='pictext'):#print(i) #测试全部信息#save = []i = str(i)link1 = re.findall(findnewlink,i)[0]newlink = "http://manhua.dmzj.com" + link1s = link1.rpartition('/')link = "http://manhua.dmzj.com"+s[0] + s[1]titie = re.findall(findtitle,i)[0]name = re.findall(findname,i)[0]le = re.findall(findle,i)[0]time1 = re.findall(findtime1,i)[0]#time2 = re.findall(findtime2,i)
5.输出内容:
print(titie)print(name)print(le)print(time1)print(link)print(newlink)#print(time2)
6.设置csv文件内容:
savecsv = {'mhtitle':[],'mhname':[],'mhle':[],'mhtime1':[],'mhlink':[],'mhnewlink':[]}
savecsv['mhtitle'].append(titie)savecsv['mhname'].append(name)savecsv['mhle'].append(le)savecsv['mhtime1'].append(time1)savecsv['mhlink'].append(link)savecsv['mhnewlink'].append(newlink)
7.保存至csv文件:
save = pd.DataFrame(savecsv)
save.to_csv("漫画更新.csv", encoding="utf_8_sig")
8.输出:
9.完整代码:
#漫画网站爬取
import re
import requests
from bs4 import BeautifulSoup
import pandas as pda = requests.get('https://manhua.dmzj.com/update_1.shtml')
html = a.content
soup = BeautifulSoup(html, 'html.parser')
#print(soup)savecsv = {'mhtitle':[],'mhname':[],'mhle':[],'mhtime1':[],'mhlink':[],'mhnewlink':[]}findnewlink = re.compile(r'<a href="(.*?)"',re.S) #最新更新连接
findtitle = re.compile(r'title="(.*)"') #作品标题
findname = re.compile(r'<span class="gray12">(.*)</span></li>')
findle = re.compile(r'<li>(.*)</li>') #状态
findtime1 = re.compile(r'<li class="numfont"><span class="color_red">(.*)</span></li>')#今天更新作品时间
#findtime2 = re.compile(r'<li class="numfont">(.*)</li>') #最近更新时间
for i in soup.find_all('div',class_='pictext'):#print(i) #测试全部信息#save = []i = str(i)link1 = re.findall(findnewlink,i)[0]newlink = "http://manhua.dmzj.com" + link1s = link1.rpartition('/')link = "http://manhua.dmzj.com"+s[0] + s[1]titie = re.findall(findtitle,i)[0]name = re.findall(findname,i)[0]le = re.findall(findle,i)[0]time1 = re.findall(findtime1,i)[0]#time2 = re.findall(findtime2,i)print(titie)print(name)print(le)print(time1)print(link)print(newlink)#print(time2)savecsv['mhtitle'].append(titie)savecsv['mhname'].append(name)savecsv['mhle'].append(le)savecsv['mhtime1'].append(time1)savecsv['mhlink'].append(link)savecsv['mhnewlink'].append(newlink)save = pd.DataFrame(savecsv)
save.to_csv("漫画更新.csv", encoding="utf_8_sig")
【python】使用爬虫爬取动漫之家漫画更新信息相关推荐
- java爬虫 爬取动漫之家10000部漫画信息
Java大作业,爬取信息并写入Excel. 项目下载:https://pan.baidu.com/s/1Z1rMWSyaAeGvZCm5CMgexQ(请用eclipse 2018打开,我的jdk版本是 ...
- 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
- python爬电影_使用Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
- python朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
- python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)...
原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...
- Python动态爬虫爬取京东商品评论
Python 动态爬虫爬取京东商品评论 1. 概述 京东商城是Python爬虫初学者试手的经典平台,反爬虫程度较低,但评论采取了动态加载的方式,爬取京东商品评论是学习动态爬虫的一个极佳方法. 动态爬虫 ...
- Python Scrapy 爬虫 - 爬取多级别的页面
Python Scrapy 爬虫 - 爬取多级别的页面 互联网中众多的 scrapy 教程模板,都是爬取 下一页 → \rightarrow →下一页形式的,很少有 父级 → \rightarrow ...
- Python POST 爬虫爬取掘金用户信息
Python POST 爬虫爬取掘金用户信息 1. 概述 Python第三方库requests提供了两种访问http网页的函数,基于GET方式的get()函数和基于POST方式的post()函数. g ...
- Python:网络爬虫爬取某表情包网站
Python:网络爬虫爬取某表情包网站 参考: 爬虫基础知识点汇总(html文件基础和4个常用库 超级详细长文预警) [爬虫教程]吐血整理,最详细的爬虫入门教程~ HTML的简单介绍 HTML的全称为 ...
最新文章
- 写了一个puppet web 管理界面,打算开源
- mysql_secure_installation
- Apache Oltu 实现 OAuth2.0 服务端【授权码模式(Authorization Code)】
- yolov5和yolov5-face nms比较
- Hadoop hdfs文件块信息获取/文件重命名/修改文件的副本数量代码示例
- AIM Tech Round 3 (Div. 2) A B C D
- js中的对象类型与具体的对象
- 云漫圈 | 寻找无序数组的第k大元素
- 如何查看Python的版本
- 疯狂的双十一也难挡股价的下跌,电商平台难道真的进入了瓶颈期?
- 【AsyncTask整理 1】 AsyncTask几点要注意的地方
- qmc0文件怎么转换mp3_音频转换器哪个好 怎么剪切MP3音频制作手机铃声
- python执行方式及变量
- USB闪存驱动器未显示在MacOS的Finder或磁盘工具上,是什么原因
- php在类里如何调用call_user_func_array《细说php2》
- C语言控制台窗口图形界面编程(六):光标操作
- 使用HTML5 Web存储的localStorage和sessionStorage方式
- js 时间戮转换为日期格式
- 【元胞自动机】基于matlab保守策略元胞自动机三车道(不开放辅路,软件园不影响)交通流模型【含Matlab源码 1293期】
- 手机归属地查询 API 接口
热门文章
- linux c7下载地址
- IPNC开发笔记——关于IPNC_RDK_4.1.0的分析
- 百分点认知智能实验室:基于NL2SQL的问答技术和实践
- 生信刷题之ROSALIND——Part 4 (MPRT, MRNA, ORF)
- 读书笔记 | 西方国有经济的兴衰
- java 给定一个N阶矩阵A,输出A的M次幂(M是非负整数)
- [YOLOv7]基于YOLOv7的食物卡路里检测系统(源码&部署教程&数据集)
- shell编程4-shell嵌套循环及随机数
- 前端 react教程(详细版)
- 神奇哈哈镜-第14届蓝桥杯省赛Scratch初级组真题第3题