Python爬虫-博客and贴吧

使用环境为python3.7

本文主要是为了截取html代码段中超链接地址

# coding:utf-8
#coding:gbk
from urllib.request import urlopen
#html代码
str0 = 'blabla<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102wrup.html">写给那个茶水妹的《乘风破浪》诞生…</a>'title = str0.find(r'<a title')#使用find从<a title开始查找
print(title)#返回的是int型数字href = str0.find(r'href=')
print(href)#返回的是int型数字html = str0.find(r'.html')
print(href)#返回的是int型数字url = str0[href+6:html+5]#使用列表 [] ，截取代码段得到地址url
print(url)content = urlopen(url).read().decode('utf-8')
#print(content)
filename = url[-26:]
print(filename)
open('a.txt','w').write(content)
'''
在Python的string前面加上‘r’， 是为了告诉编译器这个string是个raw string，不要转意backslash '\' 。 例如，\n 在raw string中，是两个字符，\和n， 而不会转意为换行符。由于正则表达式和 \ 会有冲突，因此，当一个字符串使用了正则表达式后，最好在前面加上'r'。例：r"\n\n\n\n\n\n”
作用：声明后面的字符串是普通字符串
特殊字符串中含有：转义字符 \n \t 什么什么的
用途：一般用在 正则表达式、文件绝对地址
'''

帝吧网页下载，哈哈

import requests
class TiebaSpider:def __init__(self, tieba_name):self.tiebb_name = tieba_nameself.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&ie=utf-8&pn={}"self.headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}def get_url_list(self):url_list = []for i in range(10):url_list.append(self.url_temp.format(i*50))return url_listdef parse_url(self,url):response = requests.get(url,headers=self.headers)return response.content.decode()def save_html(self,html_str,page_num):file_path = r"/home/linux/Desktop/{}-第{}页.html".format(self.tiebb_name,page_num)with open(file_path,"w",encoding="utf-8") as f:f.write(html_str)def run(self):url_list = self.get_url_list()for url in url_list:html_parse = self.parse_url(url)page_num = url_list.index(url)+1 #页码数self.save_html(html_parse,page_num)if __name__ == '__main__':t = TiebaSpider("李毅")t.run()
'''
format 函数可以接受不限个参数，位置可以不按顺序。
>>> "{1} {0} {1}".format("hello", "world")  # 设置指定位置
'world hello world'
'''

Python爬虫-博客and贴吧相关推荐

Python爬虫-博客园首页推荐博客排行(整合词云+邮件发送)
1.前提: 总体思路,利用多线程(mutiSpider)爬取博客园首页推荐博客,根据用户名爬取该用户的阅读排行榜(TopViewPosts),评论排行榜(TopFeedbackPosts),推荐排行榜 ...
python 爬虫博客园_Python爬虫爬取博客园作业
分析一下他们的代码,我在浏览器中对应位置右键,然后点击检查元素,可以找到对应部分的代码.但是,直接查看当前网页的源码发现,里面并没有对应的代码.我猜测这里是根据服务器上的数据动态生成的这部分代码,所以 ...
第一个Python程序——博客自动访问脚本
第一个Python程序--博客自动访问脚本动机今天有朋友写信说他认为自己的wordpress博客内显示的访问统计信息不正常,希望我能为他制造一些访问信息,供他对比.朋友提出的请求是在短时间内快速打 ...
Python个人博客项目-5.统计数据应用开发
学习Python已经6年有余,从事的行业数据分析师,算法工程师.爬虫工程师.目前准备正式入行全栈,先做一个个人的博客系统,用来记录日常工作的每一天,也是为自己做一个展示自己的空间. 本身该项目与之前的 ...
Python个人博客项目-3.用户应用开发
学习Python已经6年有余,从事的行业数据分析师,算法工程师.爬虫工程师.目前准备正式入行全栈,先做一个个人的博客系统,用来记录日常工作的每一天,也是为自己做一个展示自己的空间. 本身该项目与之前的 ...
用Python编写博客导出工具
用Python编写博客导出工具罗朝辉 (http://kesalin.github.io/) CC 许可,转载请注明出处写在前面的话我在 github 上用 octopress 搭建了个人博客, ...
基于Python个人博客系统设计与实现开题报告
本科生毕业论文基于python个人博客系统Django框架开题报告学院: 专业: 计算机科学与技术年级: 学生姓名: 指导教师: 黄菊华 XXXX大学本科生毕业 ...
这是我的第一个学Python的博客
这是我的第一个学Python的博客前言至于什么学,怎么学好我始终觉得先在路上比较重要,先开始在坚持,如果一直停留在自我满足的状态,迟早要被社会淘汰. 1.计算机的基本概念 1.1概念: " ...
python爬虫翻页_使用Python实现博客上进行自动翻页
先上一张代码及代码运行后的输出结果的图! 下面上代码: # coding=utf-8 import os import time from selenium import webdriver #打开火 ...
Python个人博客项目-1.项目分析与环境配置
学习Python已经6年有余,从事的行业数据分析师,算法工程师.爬虫工程师.目前准备正式入行全栈,先做一个个人的博客系统,用来记录日常工作的每一天,也是为自己做一个展示自己的空间. 本身该项目与之前的 ...

Python爬虫-博客and贴吧

Python爬虫-博客and贴吧相关推荐

最新文章

热门文章