珍爱网html模板,python爬虫基础实战:爬取珍爱网征婚女士信息,爬取Discuz论坛发帖和回帖代码案例...

环境准备

搭建Python环境

略

安装requests:

进入Python安装目录下的Scripts目录(确保pip.exe文件存在,正常情况下存在)

进入cmd终端并进入该目录,输入命令"pip install requests"

安装re(可以省略)

输入pip install re

爬取珍爱网信息代码

import requests

import re

class Zhenghun(object):

url = "http://www.zhenai.com/zhenghun/"

# 爬取类型为指定城市的女性

def __init__(self,city):

self.newurl = Zhenghun.url + city + "/nv"

# 获取html内容

def getHtml(self):

return requests.get(self.newurl).content.decode("utf-8")

# 通过正则表达式过滤html中的内容并返回数组

def parse(self):

html = self.getHtml()

rex = ']*[^'

list = re.findall(rex,html)

return list

def main():

# 设定城市

citylist = ["dongcheng","chaoyang1","changping"]

# 按城市遍历

for city in citylist:

zhenghun = Zhenghun(city)

list = zhenghun.parse()

# 按解析遍历

for l in list:

# 切片

u = l.split('"')

#print(u[1])

n = l[l.rfind('"')+2:l.rfind("

爬取结果(已遮挡网址,侵删)

爬取Discuz论坛发帖和回帖代码

代码尚未优化

import requests

import re

# 爬取Discuz发帖和回帖内容

class Discuz(object):

# 用于存取主题链接的集合

list2 = set()

# 初始页面

url = "https://www.discuz.net/forum-plugin-1.html"

def __init__(self):

self.firstUrl = Discuz.url

# 获取初始页面html内容

def getFirstHtml(self):

return requests.get(self.firstUrl).content.decode("gbk")

# 获取跳转路径

def getPath(self):

html = self.getFirstHtml()

# 正则匹配

secondUrl = '', '', content, 0).replace(" ", "").replace("\n", "")

# 切片

sp1 = sp.split('99">')

# 将切片结果输出

word = sp1[1]

print(word)

def main():

discuz = Discuz()

getUrl = discuz.getSecondHtml()

# for i in getUrl:

# print(i)

discuz.getThirdHtml(getUrl)

# print(discuz.list2)

if __name__ == "__main__":

main()

爬取结果

由于该网站对于匹配发帖和回帖内容的标签有多种,导致爬取结果不全,可以使用多种正则匹配方法匹配信息

珍爱网html模板,python爬虫基础实战:爬取珍爱网征婚女士信息,爬取Discuz论坛发帖和回帖代码案例...相关推荐

零基础入门python爬虫之《青春有你2》选手信息爬取
零基础入门python爬虫之<青春有你2>选手信息爬取完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...
python爬虫京东，苏宁，小米众筹网站信息爬取
可代写python爬虫,收费可协商,用途需提前说明. 下面爬虫爬到的数据有100天左右,100家众筹的完整数据,需要的或者有写爬虫需求的同学可发邮件至starinsunriseabovesea@ali ...
【Python爬虫练习】虎扑社区步行街版块首页信息爬取（BeautifulSoup+MongoDB）
严正声明:爬虫仅用于学习研究,不做商业或者其它非法用途! 首先我们要爬取的网页地址为:https://bbs.hupu.com/bxj 页面的样子是这样的: 红色圈出来的部分就是我们所要爬取的内容信息 ...
python爬虫翻页操作——ajax肯德基餐厅门店信息爬取
需求:输入城市名称就可以查询到所在地区的肯德基餐厅门店地址,并以文本形式保存. 文章目录一.打开肯德基官方网站利用抓包工具进行分析二.编码三.总结一.打开肯德基官方网站利用抓包工具进行分析示 ...
python爬虫知网实例-33个Python爬虫项目实战(推荐)
今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...
python基础知识整理-python爬虫基础知识点整理
首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 根据我的经验,要学习Python爬虫 ...
python爬虫基础-requests库
python爬虫基础-requests库 python爬虫 1.什么是爬虫? 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程. 注意:浏览器抓取的数据对应的页面是一个完整的页面. 为什 ...
python爬虫基础知识点整理
更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.sfkyty.com ...
python爬虫项目-33个Python爬虫项目实战(推荐)
今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...
python爬虫基础(一)～爬虫概念和架构
目录 1. 爬虫 1.1 概念 1.2 分类 2. 爬虫架构 2.1 url管理器 2.2 网页(html)下载(download)器 2.2.1 urllib下载html源码 2.2.2 reque ...

珍爱网html模板,python爬虫基础实战:爬取珍爱网征婚女士信息,爬取Discuz论坛发帖和回帖代码案例...

珍爱网html模板,python爬虫基础实战:爬取珍爱网征婚女士信息,爬取Discuz论坛发帖和回帖代码案例...相关推荐

最新文章

热门文章