python爬虫一般格式

写在前面：建议安装BeautifulSoup模块，写爬虫可以节省不少时间。一般出错，参考终端给出的建议。

pip3 install bs4 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

伴随bs4安装的还有 lxml 模块

pip3 install lxml -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

需要了解

图片来源：https://blog.csdn.net/weixin_42170439/article/details/90445043

python正则表达式：https://www.cnblogs.com/cq146637/p/8072540.html
主要了解re.findall函数的使用。
简单示例：

一般爬虫的格式如下：

import re
import time
import random
import requests
from bs4 import BeautifulSoup  #页面解析模块url="https://blog.csdn.net/"
params={'key1':'value1','key2':'value2'} #相当于https://blog.csdn.net?key1=value1&key2=value2
headers={'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}#User-Agent 使爬虫能够伪装成浏览器访问r=requests.get(url,headers=headers,params=params,timeout=1); #设置链接、请求头、参数、超时
bsObj=BeautifulSoup(r.text,'html.parser')#转化为bs对象
list=bsObj.findAll('div', class_='title')#查找返回页面中标签为div，属性中class为title的标签with open(r'd:\Temp\test.txt','w') as f: #将想要抓取的数据保存到文件中for i in list:          #一般用到bs对象的属性有.text，.(tag)，.parentprint(i.find('h2').text.replace(' ','').replace('\n',''))#也可以是print(i.h2.text.replace(' ','').replace('\n',''))f.write(i.find('h2').text.replace(' ','').replace('\n','')+'\n')
f.close()

建议参考书籍：
《python网络数据采集》人民邮电出版社
《python网络爬虫从入门到实践》机械工业出版社

python爬虫一般格式相关推荐

Python爬虫实战- 爬取整个网站112G-8000本pdf epub格式电子书下载
(整个代码附在最后) 目录: 爬虫准备 - 某电子书网站内容架构分析爬虫前奏 - 网站Html代码分析,如何获取需要的链接? 爬虫高潮 - 测试是否有反爬虫措施,测试是否能正常下载一个sample ...
Python爬虫：用最普通的方法爬取ts文件并合成为mp4格式
介绍: 在自学爬虫时,一开始就是爬取一些文字(比如小说之类的),再后来变成了图片,再后来变成了视频- 其中最简单的就是对文字的爬取了,从文字过渡到图片也只是多了几行代码而已,但是: 从图片过渡到视频就 ...
Python爬虫新手入门教学（二十）：爬取A站m3u8视频格式视频
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前文内容 Python爬虫新手入门教学(一):爬取豆瓣电影排行信息 Python爬虫新手入门 ...
还在苦于Kindle的epub格式吗？python爬虫，一键爬取小说加txt转换epub。
还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub. 项目地址: https://github.com/Fruiticecake/dubuNovel/blob/m ...
Python爬虫高级库之一的lxml库中，ET.parse()是一个非常重要的方法。它可以将任意XML或HTML格式的文档解析成一个ElementTree对象，...
Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法.它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,方便我们对结构化的数据进行处理和分析.在 ...
玩转 Python 爬虫，需要先知道这些
作者 | 叶庭云来源 | 修炼Python 头图 | 下载于视觉中国爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...
买不到口罩怎么办？Python爬虫帮你时刻盯着自动下单！| 原力计划
作者 | 菜园子哇编辑 | 唐小引来源 | CSDN 博客马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...
Python爬虫获取文章的标题及你的博客的阅读量，评论量。所有数据写入本地记事本。最后输出你的总阅读量！
Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...
Python爬虫破解有道翻译
有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解. 通过控制台抓包,我们得知了 POST 请求的参数以及相应的参数值,如下所示: 图1: ...

python爬虫一般格式

python爬虫一般格式相关推荐

最新文章

热门文章