写在前面:建议安装BeautifulSoup模块,写爬虫可以节省不少时间。一般出错,参考终端给出的建议。

pip3 install bs4 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

伴随bs4安装的还有 lxml 模块

pip3 install lxml -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

需要了解

图片来源:https://blog.csdn.net/weixin_42170439/article/details/90445043

python正则表达式:https://www.cnblogs.com/cq146637/p/8072540.html
主要了解re.findall函数的使用。
简单示例:

一般爬虫的格式如下:

import re
import time
import random
import requests
from bs4 import BeautifulSoup  #页面解析模块url="https://blog.csdn.net/"
params={'key1':'value1','key2':'value2'} #相当于https://blog.csdn.net?key1=value1&key2=value2
headers={'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}#User-Agent 使爬虫能够伪装成浏览器访问r=requests.get(url,headers=headers,params=params,timeout=1); #设置链接、请求头、参数、超时
bsObj=BeautifulSoup(r.text,'html.parser')#转化为bs对象
list=bsObj.findAll('div', class_='title')#查找返回页面中标签为div,属性中class为title的标签with open(r'd:\Temp\test.txt','w') as f: #将想要抓取的数据保存到文件中for i in list:          #一般用到bs对象的属性有.text,.(tag),.parentprint(i.find('h2').text.replace(' ','').replace('\n',''))#也可以是print(i.h2.text.replace(' ','').replace('\n',''))f.write(i.find('h2').text.replace(' ','').replace('\n','')+'\n')
f.close()

建议参考书籍:
《python网络数据采集》人民邮电出版社
《python网络爬虫从入门到实践》机械工业出版社

python爬虫一般格式相关推荐

  1. Python爬虫实战- 爬取整个网站112G-8000本pdf epub格式电子书下载

    (整个代码附在最后) 目录: 爬虫准备 - 某电子书网站内容架构分析 爬虫前奏 - 网站Html代码分析,如何获取需要的链接? 爬虫高潮 - 测试是否有反爬虫措施,测试是否能正常下载一个sample ...

  2. Python爬虫:用最普通的方法爬取ts文件并合成为mp4格式

    介绍: 在自学爬虫时,一开始就是爬取一些文字(比如小说之类的),再后来变成了图片,再后来变成了视频- 其中最简单的就是对文字的爬取了,从文字过渡到图片也只是多了几行代码而已,但是: 从图片过渡到视频就 ...

  3. Python爬虫新手入门教学(二十):爬取A站m3u8视频格式视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前文内容 Python爬虫新手入门教学(一):爬取豆瓣电影排行信息 Python爬虫新手入门 ...

  4. 还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub。

    还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub. 项目地址: https://github.com/Fruiticecake/dubuNovel/blob/m ...

  5. Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法。它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,...

    Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法.它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,方便我们对结构化的数据进行处理和分析.在 ...

  6. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  7. 买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划

    作者 | 菜园子哇 编辑 | 唐小引 来源 | CSDN 博客 马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...

  8. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

  9. Python爬虫破解有道翻译

    有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解. 通过控制台抓包,我们得知了 POST 请求的参数以及相应的参数值,如下所示: 图1: ...

最新文章

  1. Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合
  2. JVM调优:图解对象内存分配过程
  3. BOOST_VMD_ASSERT_IS_NUMBER宏相关的测试程序
  4. Ansible自动化运维工具使用
  5. 用手动创建新的script标签的方式,实现JavaScript脚本的异步加载
  6. 业务多变的公司上云后蒸蒸日上
  7. java 二分查找 排序_java 冒泡排序 二分查找
  8. vs 2015 oracle,VS2015连接oracle11g出现异常
  9. centos6.5 x86_64安装rsyslog + loganalyzer
  10. Linux load函数,kexec_load()函数 Unix/Linux
  11. 反欺骗的艺术-摘记(持续更新中)
  12. Echarts 柱状图配置圆角
  13. 你知道Thread线程是如何运作的吗?
  14. 麦克劳林公式求sin
  15. 旗下企业永远不会超过七家 马云
  16. 2020届部分校招IC笔试题
  17. 循环神经网络RNN 2—— attention注意力机制(附代码)
  18. 洛谷P1781 宇宙总统 题解
  19. 一步一步实现音乐播放器
  20. 一杯1CUP:区块链科技与投证生态加持的福鼎一杯与Chain++

热门文章

  1. 设计模式中的六大基本原则
  2. 024_Word知识汇总
  3. CF533A Berland Miners
  4. JMeter自学笔记3-创建自己的第一个测试用例
  5. 机房收费系统系列一:运行时错误‘-2147217843(80040e4d)’;用户‘sa’登陆失败...
  6. 设计模式笔记(9)---组合模式(结构型)
  7. mysql 日期_「5」学习MySQL日期与时间类型发现:要养成注重细节的习惯
  8. java 斐波拉_Java实现斐波那契数列
  9. 人名翻译_考研英语翻译:句子中出现人名怎么办?
  10. python 深度 视差 计算_开源双目视觉BM算法-Matlab/Python/Javascript