Python爬虫-博客and贴吧
使用环境为python3.7
本文主要是为了截取html代码段中超链接地址
# coding:utf-8
#coding:gbk
from urllib.request import urlopen
#html代码
str0 = 'blabla<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102wrup.html">写给那个茶水妹的《乘风破浪》诞生…</a>'title = str0.find(r'<a title')#使用find从<a title开始查找
print(title)#返回的是int型数字href = str0.find(r'href=')
print(href)#返回的是int型数字html = str0.find(r'.html')
print(href)#返回的是int型数字url = str0[href+6:html+5]#使用列表 [] ,截取代码段得到地址url
print(url)content = urlopen(url).read().decode('utf-8')
#print(content)
filename = url[-26:]
print(filename)
open('a.txt','w').write(content)
'''
在Python的string前面加上‘r’, 是为了告诉编译器这个string是个raw string,不要转意backslash '\' 。 例如,\n 在raw string中,是两个字符,\和n, 而不会转意为换行符。由于正则表达式和 \ 会有冲突,因此,当一个字符串使用了正则表达式后,最好在前面加上'r'。例:r"\n\n\n\n\n\n”
作用:声明后面的字符串是普通字符串
特殊字符串中含有:转义字符 \n \t 什么什么的
用途:一般用在 正则表达式、文件绝对地址
'''
帝吧网页下载,哈哈
import requests
class TiebaSpider:def __init__(self, tieba_name):self.tiebb_name = tieba_nameself.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&ie=utf-8&pn={}"self.headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}def get_url_list(self):url_list = []for i in range(10):url_list.append(self.url_temp.format(i*50))return url_listdef parse_url(self,url):response = requests.get(url,headers=self.headers)return response.content.decode()def save_html(self,html_str,page_num):file_path = r"/home/linux/Desktop/{}-第{}页.html".format(self.tiebb_name,page_num)with open(file_path,"w",encoding="utf-8") as f:f.write(html_str)def run(self):url_list = self.get_url_list()for url in url_list:html_parse = self.parse_url(url)page_num = url_list.index(url)+1 #页码数self.save_html(html_parse,page_num)if __name__ == '__main__':t = TiebaSpider("李毅")t.run()
'''
format 函数可以接受不限个参数,位置可以不按顺序。
>>> "{1} {0} {1}".format("hello", "world") # 设置指定位置
'world hello world'
'''
Python爬虫-博客and贴吧相关推荐
- Python爬虫-博客园首页推荐博客排行(整合词云+邮件发送)
1.前提: 总体思路,利用多线程(mutiSpider)爬取博客园首页推荐博客,根据用户名爬取该用户的阅读排行榜(TopViewPosts),评论排行榜(TopFeedbackPosts),推荐排行榜 ...
- python 爬虫 博客园_Python爬虫爬取博客园作业
分析一下他们的代码,我在浏览器中对应位置右键,然后点击检查元素,可以找到对应部分的代码.但是,直接查看当前网页的源码发现,里面并没有对应的代码.我猜测这里是根据服务器上的数据动态生成的这部分代码,所以 ...
- 第一个Python程序——博客自动访问脚本
第一个Python程序--博客自动访问脚本 动机 今天有朋友写信说他认为自己的wordpress博客内显示的访问统计信息不正常,希望我能为他制造一些访问信息,供他对比.朋友提出的请求是在短时间内快速打 ...
- Python个人博客项目-5.统计数据应用开发
学习Python已经6年有余,从事的行业数据分析师,算法工程师.爬虫工程师.目前准备正式入行全栈,先做一个个人的博客系统,用来记录日常工作的每一天,也是为自己做一个展示自己的空间. 本身该项目与之前的 ...
- Python个人博客项目-3.用户应用开发
学习Python已经6年有余,从事的行业数据分析师,算法工程师.爬虫工程师.目前准备正式入行全栈,先做一个个人的博客系统,用来记录日常工作的每一天,也是为自己做一个展示自己的空间. 本身该项目与之前的 ...
- 用Python编写博客导出工具
用Python编写博客导出工具 罗朝辉 (http://kesalin.github.io/) CC 许可,转载请注明出处 写在前面的话 我在 github 上用 octopress 搭建了个人博客, ...
- 基于Python个人博客系统设计与实现 开题报告
本科生毕业论文 基于python个人博客系统Django框架 开题报告 学 院: 专 业: 计算机科学与技术 年 级: 学生姓名: 指导教师: 黄菊华 XXXX大学本科生毕业 ...
- 这是我的第一个学Python的博客
这是我的第一个学Python的博客 前言 至于什么学,怎么学好我始终觉得先在路上比较重要,先开始在坚持,如果一直停留在自我满足的状态,迟早要被社会淘汰. 1.计算机的基本概念 1.1概念: " ...
- python爬虫翻页_使用Python实现博客上进行自动翻页
先上一张代码及代码运行后的输出结果的图! 下面上代码: # coding=utf-8 import os import time from selenium import webdriver #打开火 ...
- Python个人博客项目-1.项目分析与环境配置
学习Python已经6年有余,从事的行业数据分析师,算法工程师.爬虫工程师.目前准备正式入行全栈,先做一个个人的博客系统,用来记录日常工作的每一天,也是为自己做一个展示自己的空间. 本身该项目与之前的 ...
最新文章
- Android DHCP 启动分析【2】
- CTFshow 反序列化 web257
- Centos6.5安装/运行/启动/登录docker
- 在Vue2.0项目中与H5项目中获取、设置、清除cookie的一些注意点
- linux中没有semanagea安装包,如何使用semanage管理SELinux安全策略
- 航海王_html_css3_旋转效果demo
- 非线性光纤光学_1.56 m波段高能量百飞秒光纤激光器
- Oracle监听的静态注册和动态注册
- 深度学习之数学基础(临时记录)
- linux有名管道 复用,关于LINUX有名管道的多路复用有关问题
- 信号量sem 的用法
- VS Code 的插件位置更改
- Python3的opencv环境搭建简易教程
- Altium Designer使用-----LOGO脚本的使用
- PLC控制系统设计的一般步骤是什么?
- AlphaGo来了,终结者不远了
- 2020 JUSTCTF F@k3 0ff1c@l REVERSE WP
- GoLang之浅析unsafe.Pointer与uintptr
- (日常)Dell R740 XD 服务器安装GPU显卡记录
- H3C WA4320H-ACN 无线AP改成12V DC供电