使用环境为python3.7


本文主要是为了截取html代码段中超链接地址


# coding:utf-8
#coding:gbk
from urllib.request import urlopen
#html代码
str0 = 'blabla<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102wrup.html">写给那个茶水妹的《乘风破浪》诞生…</a>'title = str0.find(r'<a title')#使用find从<a title开始查找
print(title)#返回的是int型数字href = str0.find(r'href=')
print(href)#返回的是int型数字html = str0.find(r'.html')
print(href)#返回的是int型数字url = str0[href+6:html+5]#使用列表 [] ,截取代码段得到地址url
print(url)content = urlopen(url).read().decode('utf-8')
#print(content)
filename = url[-26:]
print(filename)
open('a.txt','w').write(content)
'''
在Python的string前面加上‘r’, 是为了告诉编译器这个string是个raw string,不要转意backslash '\' 。 例如,\n 在raw string中,是两个字符,\和n, 而不会转意为换行符。由于正则表达式和 \ 会有冲突,因此,当一个字符串使用了正则表达式后,最好在前面加上'r'。例:r"\n\n\n\n\n\n”
作用:声明后面的字符串是普通字符串
特殊字符串中含有:转义字符 \n \t 什么什么的
用途:一般用在 正则表达式、文件绝对地址
'''

帝吧网页下载,哈哈

import requests
class TiebaSpider:def __init__(self, tieba_name):self.tiebb_name = tieba_nameself.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&ie=utf-8&pn={}"self.headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}def get_url_list(self):url_list = []for i in range(10):url_list.append(self.url_temp.format(i*50))return url_listdef parse_url(self,url):response = requests.get(url,headers=self.headers)return response.content.decode()def save_html(self,html_str,page_num):file_path = r"/home/linux/Desktop/{}-第{}页.html".format(self.tiebb_name,page_num)with open(file_path,"w",encoding="utf-8") as f:f.write(html_str)def run(self):url_list = self.get_url_list()for url in url_list:html_parse = self.parse_url(url)page_num = url_list.index(url)+1 #页码数self.save_html(html_parse,page_num)if __name__ == '__main__':t = TiebaSpider("李毅")t.run()
'''
format 函数可以接受不限个参数,位置可以不按顺序。
>>> "{1} {0} {1}".format("hello", "world")  # 设置指定位置
'world hello world'
'''

Python爬虫-博客and贴吧相关推荐

  1. Python爬虫-博客园首页推荐博客排行(整合词云+邮件发送)

    1.前提: 总体思路,利用多线程(mutiSpider)爬取博客园首页推荐博客,根据用户名爬取该用户的阅读排行榜(TopViewPosts),评论排行榜(TopFeedbackPosts),推荐排行榜 ...

  2. python 爬虫 博客园_Python爬虫爬取博客园作业

    分析一下他们的代码,我在浏览器中对应位置右键,然后点击检查元素,可以找到对应部分的代码.但是,直接查看当前网页的源码发现,里面并没有对应的代码.我猜测这里是根据服务器上的数据动态生成的这部分代码,所以 ...

  3. 第一个Python程序——博客自动访问脚本

    第一个Python程序--博客自动访问脚本 动机 今天有朋友写信说他认为自己的wordpress博客内显示的访问统计信息不正常,希望我能为他制造一些访问信息,供他对比.朋友提出的请求是在短时间内快速打 ...

  4. Python个人博客项目-5.统计数据应用开发

    学习Python已经6年有余,从事的行业数据分析师,算法工程师.爬虫工程师.目前准备正式入行全栈,先做一个个人的博客系统,用来记录日常工作的每一天,也是为自己做一个展示自己的空间. 本身该项目与之前的 ...

  5. Python个人博客项目-3.用户应用开发

    学习Python已经6年有余,从事的行业数据分析师,算法工程师.爬虫工程师.目前准备正式入行全栈,先做一个个人的博客系统,用来记录日常工作的每一天,也是为自己做一个展示自己的空间. 本身该项目与之前的 ...

  6. 用Python编写博客导出工具

    用Python编写博客导出工具 罗朝辉 (http://kesalin.github.io/) CC 许可,转载请注明出处 写在前面的话 我在 github 上用 octopress 搭建了个人博客, ...

  7. 基于Python个人博客系统设计与实现 开题报告

      本科生毕业论文 基于python个人博客系统Django框架 开题报告 学    院: 专    业: 计算机科学与技术 年    级: 学生姓名: 指导教师: 黄菊华   XXXX大学本科生毕业 ...

  8. 这是我的第一个学Python的博客

    这是我的第一个学Python的博客 前言 至于什么学,怎么学好我始终觉得先在路上比较重要,先开始在坚持,如果一直停留在自我满足的状态,迟早要被社会淘汰. 1.计算机的基本概念 1.1概念: " ...

  9. python爬虫翻页_使用Python实现博客上进行自动翻页

    先上一张代码及代码运行后的输出结果的图! 下面上代码: # coding=utf-8 import os import time from selenium import webdriver #打开火 ...

  10. Python个人博客项目-1.项目分析与环境配置

    学习Python已经6年有余,从事的行业数据分析师,算法工程师.爬虫工程师.目前准备正式入行全栈,先做一个个人的博客系统,用来记录日常工作的每一天,也是为自己做一个展示自己的空间. 本身该项目与之前的 ...

最新文章

  1. Android DHCP 启动分析【2】
  2. CTFshow 反序列化 web257
  3. Centos6.5安装/运行/启动/登录docker
  4. 在Vue2.0项目中与H5项目中获取、设置、清除cookie的一些注意点
  5. linux中没有semanagea安装包,如何使用semanage管理SELinux安全策略
  6. 航海王_html_css3_旋转效果demo
  7. 非线性光纤光学_1.56 m波段高能量百飞秒光纤激光器
  8. Oracle监听的静态注册和动态注册
  9. 深度学习之数学基础(临时记录)
  10. linux有名管道 复用,关于LINUX有名管道的多路复用有关问题
  11. 信号量sem 的用法
  12. VS Code 的插件位置更改
  13. Python3的opencv环境搭建简易教程
  14. Altium Designer使用-----LOGO脚本的使用
  15. PLC控制系统设计的一般步骤是什么?
  16. AlphaGo来了,终结者不远了
  17. 2020 JUSTCTF F@k3 0ff1c@l REVERSE WP
  18. GoLang之浅析unsafe.Pointer与uintptr
  19. (日常)Dell R740 XD 服务器安装GPU显卡记录
  20. H3C WA4320H-ACN 无线AP改成12V DC供电

热门文章

  1. js中文乱码解决方法
  2. Android模拟器脚本录制
  3. makefile 编写
  4. 变砖的平板怎样重装android,台电平板电脑刷机教程,小编教你台电平板电脑怎么刷机...
  5. LinuxCentOS 7镜像下载
  6. 蓝奏网盘 解析 php,自制蓝奏云网盘解析接口全解
  7. 计算机与信息技术基础上机指导答案,信息技术基础学习指导——实验和习题解答(第3版)...
  8. duliu题之狼抓兔子题解
  9. JSP——JSP介绍以及运行原理
  10. 老年人、色弱者和爱操心的妈妈:视频平台技术升级的新战场