分析:
1、从页面可得抓数据要抓取多页,则可以进行循环,有7页,则把页码数循环7次就可以得到想要结果

分析:先把链接1-7找出来
代码:

index=0
for x in range(7):index=index+1r='https://blog.csdn.net/weixin_41665637/article/list/{}'.format(index)print(r)

2、应用到原程序,就是把原程序的变成调用一下

from lxml import  etree#调用的函数
import requests #调用的函数
index=0
for x in range(7):index=index+1d='https://blog.csdn.net/weixin_41665637/article/list/{}'.format(index)r=requests.get(d).content#被测地址topic=etree.HTML(r)html=topic.xpath("//main/div/div/h4/a/@href")#抓取链接title=topic.xpath("//main/div/div/h4/a/text()")#抓取标题# print(html)# print(title)sep1='\n'#sep是分隔符,sep='\n'就是分行输入sep2='\n'f = open('C:\\Users\\ldh\\Desktop\\file.txt', 'r+', encoding='utf-8')#文件夹的地址要写双斜杠a=f.write((sep1.join(html)))b=f.write((sep2.join(title)))nr=a+bprint(nr)f.close()

python实战演练三:抓取我自己csdm博客信息的标题和文章链接,并存入文件夹《只抓取了一页数据,如何抓取全部数据》相关推荐

  1. 爬取掘金 开发者头条 博客园等我需要的文章

    先说下 我的 爬取结果连接  http://craw.cibn.top/ 我是一个很懒的人 但是每天为了进步还是要看一下 各大社区  掘金啊 csdn  开发者头条 博客园 等,毕竟这年头程序员不学习 ...

  2. 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...

    [爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...

  3. 使用scrapy抓取博客信息

    使用scrapy抓取博客信息 本文使用python的爬虫工具scrapy获取博客园发布的文档的信息. 创建cnblog爬虫项目: scrapy startproject cnblog 创建爬虫cnbl ...

  4. 开发记录_自学Python写爬虫程序爬取csdn个人博客信息

    每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...

  5. 如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间

    如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间 如何控制Yahoo! Slurp蜘蛛的抓取频度 2009年08月13日 星期四 5:56 上周末豆瓣的阿北给我电话:最近你们雅 ...

  6. 基于python爬虫的论文标题_Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】...

    本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法.分享给大家供大家参考,具体如下: from urllib import request from bs4 import Beaut ...

  7. 【Python开发】Flask开发实战:个人博客(三)

    Flask开发实战:个人博客(三) 在[Python开发]Flask开发实战:个人博客(一) 中,我们已经完成了 数据库设计.数据准备.模板架构.表单设计.视图函数设计.电子邮件支持 等总体设计的内容 ...

  8. php 采集qq空间,php使用curl抓取qq空间的访客信息示例_php技巧

    这篇文章主要介绍了php使用curl抓取qq空间的访客信息示例,需要的朋友可以参考下 config.php<?php define('APP_DIR', dirname(__FILE__)); ...

  9. 一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库,包含:cnblog、csdn、51cto、itpub、jobbole、oschina等

    本文旨在通过爬取一系列博客网站技术文章的实践,介绍一下scrapy这个python语言中强大的整站爬虫框架的使用.各位童鞋可不要用来干坏事哦,这些技术博客平台也是为了让我们大家更方便的交流.学习.提高 ...

  10. python 数据分析 百度网盘_[百度网盘]利用Python进行数据分析(Python For Data Analysis中文版).pdf - Jan-My31的博客 - 磁力点点...

    利用Python进行数据分析(Python For Data Analysis中文版).pdf - Jan-My31的博客 2018-5-27 · 链接:https://pan.baidu.com/s ...

最新文章

  1. MySQL:Can't connect to mysql server 10038
  2. 小马智行最新估值曝光
  3. Java8 lambda表达式10个示例
  4. window.open 不显示地址栏_谷歌浏览器Chrome显示「由贵单位管理」怎么解决?非阿里...
  5. eclipsejvm内存不足_Eclipse无法调试及编译时内存不足的解决
  6. mysql 用户授权_mysql添加、删除用户和授权用户
  7. [html] 你有使用过output标签吗?说说它的用途有哪些?
  8. 小程序开发(10)-之热力图解决方案、手绘图
  9. 2021-06-18激活函数的意义
  10. Spring Boot基础学习笔记11:Spring MVC
  11. sql判断时间差值_Oracle判断某人员在某地是否有超过指定时间的停留
  12. java代码运行Python程序
  13. Android View Scroller
  14. 网络游戏加速器软件市场现状研究分析-
  15. java实现带logo的二维码
  16. 医院计算机应用,解读计算机应用技术对医院信息化的影响
  17. Codeforces 227E/226C Anniversary 斐波那契数列性质+矩阵快速幂
  18. 解决Linux(ubuntu),windows双系统重装后恢复开机选单
  19. virtualbox启动时报错 虚拟电脑控制台错误
  20. wifi 小程序 透传_微信小程序实现的一键连接wifi功能示例

热门文章

  1. 省中心IEPGM同步到地市的IEPGM有问题,中心为“已商用”状态,地市为“已上架”状态
  2. Unity战棋游戏资源
  3. linux 安装protoc
  4. CentOS 8配置阿里YUM源
  5. 计算机联锁人工进路的办理,计算机联锁与6502
  6. 微信小程序 自定义底部导航栏(tabBar)
  7. PDCN循环 与 GTD时间管理
  8. Java聊天室(实现群聊、私聊功能)GUI界面
  9. iec104点号_IEC104规约报文说明(104报文解释的较好的文本)
  10. jsp登录注册页面代码