珍爱网html模板,python爬虫基础实战:爬取珍爱网征婚女士信息,爬取Discuz论坛发帖和回帖代码案例...
环境准备
搭建Python环境
略
安装requests:
进入Python安装目录下的Scripts目录(确保pip.exe文件存在,正常情况下存在)
进入cmd终端并进入该目录,输入命令"pip install requests"
安装re(可以省略)
输入pip install re
爬取珍爱网信息代码
import requests
import re
class Zhenghun(object):
url = "http://www.zhenai.com/zhenghun/"
# 爬取类型为指定城市的女性
def __init__(self,city):
self.newurl = Zhenghun.url + city + "/nv"
# 获取html内容
def getHtml(self):
return requests.get(self.newurl).content.decode("utf-8")
# 通过正则表达式过滤html中的内容并返回数组
def parse(self):
html = self.getHtml()
rex = ']*[^'
list = re.findall(rex,html)
return list
def main():
# 设定城市
citylist = ["dongcheng","chaoyang1","changping"]
# 按城市遍历
for city in citylist:
zhenghun = Zhenghun(city)
list = zhenghun.parse()
# 按解析遍历
for l in list:
# 切片
u = l.split('"')
#print(u[1])
n = l[l.rfind('"')+2:l.rfind("
爬取结果(已遮挡网址,侵删)
爬取Discuz论坛发帖和回帖代码
代码尚未优化
import requests
import re
# 爬取Discuz发帖和回帖内容
class Discuz(object):
# 用于存取主题链接的集合
list2 = set()
# 初始页面
url = "https://www.discuz.net/forum-plugin-1.html"
def __init__(self):
self.firstUrl = Discuz.url
# 获取初始页面html内容
def getFirstHtml(self):
return requests.get(self.firstUrl).content.decode("gbk")
# 获取跳转路径
def getPath(self):
html = self.getFirstHtml()
# 正则匹配
secondUrl = '', '', content, 0).replace(" ", "").replace("\n", "")
# 切片
sp1 = sp.split('99">')
# 将切片结果输出
word = sp1[1]
print(word)
def main():
discuz = Discuz()
getUrl = discuz.getSecondHtml()
# for i in getUrl:
# print(i)
discuz.getThirdHtml(getUrl)
# print(discuz.list2)
if __name__ == "__main__":
main()
爬取结果
由于该网站对于匹配发帖和回帖内容的标签有多种,导致爬取结果不全,可以使用多种正则匹配方法匹配信息
珍爱网html模板,python爬虫基础实战:爬取珍爱网征婚女士信息,爬取Discuz论坛发帖和回帖代码案例...相关推荐
- 零基础入门python爬虫之《青春有你2》选手信息爬取
零基础入门python爬虫之<青春有你2>选手信息爬取 完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...
- python爬虫 京东,苏宁,小米众筹网站信息爬取
可代写python爬虫,收费可协商,用途需提前说明. 下面爬虫爬到的数据有100天左右,100家众筹的完整数据,需要的或者有写爬虫需求的同学可发邮件至starinsunriseabovesea@ali ...
- 【Python爬虫练习】虎扑社区步行街版块首页信息爬取(BeautifulSoup+MongoDB)
严正声明:爬虫仅用于学习研究,不做商业或者其它非法用途! 首先我们要爬取的网页地址为:https://bbs.hupu.com/bxj 页面的样子是这样的: 红色圈出来的部分就是我们所要爬取的内容信息 ...
- python爬虫翻页操作——ajax肯德基餐厅门店信息爬取
需求:输入城市名称就可以查询到所在地区的肯德基餐厅门店地址,并以文本形式保存. 文章目录 一.打开肯德基官方网站利用抓包工具进行分析 二.编码 三.总结 一.打开肯德基官方网站利用抓包工具进行分析 示 ...
- python爬虫知网实例-33个Python爬虫项目实战(推荐)
今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...
- python基础知识整理-python爬虫基础知识点整理
首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 根据我的经验,要学习Python爬虫 ...
- python爬虫基础-requests库
python爬虫基础-requests库 python爬虫 1.什么是爬虫? 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程. 注意:浏览器抓取的数据对应的页面是一个完整的页面. 为什 ...
- python爬虫基础知识点整理
更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.sfkyty.com ...
- python爬虫项目-33个Python爬虫项目实战(推荐)
今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...
- python爬虫基础(一)~爬虫概念和架构
目录 1. 爬虫 1.1 概念 1.2 分类 2. 爬虫架构 2.1 url管理器 2.2 网页(html)下载(download)器 2.2.1 urllib下载html源码 2.2.2 reque ...
最新文章
- 使用 Web 标准生成 ASP.NET 2.0 Web 站点
- 【效率】又来一个Windows神器!!!
- 当ABAP遇见普罗米修斯
- pytorch torch.arange
- python遍历数组的两种方法及将print的内容写入文件中
- java(15)-策略模式(Strategy Pattern)
- RetinaNet算法详解及其在垃圾检测中的应用
- 单变量分析、组合变量分析
- 删除可恶的7654.com,7654导航篡改首页恢复,如何解决浏览器被7654劫持
- 利用Jquery实现动态增加、修改html元素
- JOB DESCRIPTION
- 拼写检查(深度讲解,普通方法+进阶版)
- 项目——3——lnmp-gitlab-jenkins-ansible
- ANSVC无功补偿装置在南京某高等院校中的应用
- 传统安防互联网化无插件直播分析及解决方案
- gitlab服务器社区版安装与使用
- 进化论VS中性突变理论
- AD PCB设计入门总结(一)
- Pico neo3最新版SDK导入Unity详细教程(包含眼动)
- 手机网络游戏 一座尚待挖掘的金矿