环境准备

搭建Python环境

安装requests:

进入Python安装目录下的Scripts目录(确保pip.exe文件存在,正常情况下存在)

进入cmd终端并进入该目录,输入命令"pip install requests"

安装re(可以省略)

输入pip install re

爬取珍爱网信息代码

import requests

import re

class Zhenghun(object):

url = "http://www.zhenai.com/zhenghun/"

# 爬取类型为指定城市的女性

def __init__(self,city):

self.newurl = Zhenghun.url + city + "/nv"

# 获取html内容

def getHtml(self):

return requests.get(self.newurl).content.decode("utf-8")

# 通过正则表达式过滤html中的内容并返回数组

def parse(self):

html = self.getHtml()

rex = ']*[^'

list = re.findall(rex,html)

return list

def main():

# 设定城市

citylist = ["dongcheng","chaoyang1","changping"]

# 按城市遍历

for city in citylist:

zhenghun = Zhenghun(city)

list = zhenghun.parse()

# 按解析遍历

for l in list:

# 切片

u = l.split('"')

#print(u[1])

n = l[l.rfind('"')+2:l.rfind("

爬取结果(已遮挡网址,侵删)

爬取Discuz论坛发帖和回帖代码

代码尚未优化

import requests

import re

# 爬取Discuz发帖和回帖内容

class Discuz(object):

# 用于存取主题链接的集合

list2 = set()

# 初始页面

url = "https://www.discuz.net/forum-plugin-1.html"

def __init__(self):

self.firstUrl = Discuz.url

# 获取初始页面html内容

def getFirstHtml(self):

return requests.get(self.firstUrl).content.decode("gbk")

# 获取跳转路径

def getPath(self):

html = self.getFirstHtml()

# 正则匹配

secondUrl = '', '', content, 0).replace(" ", "").replace("\n", "")

# 切片

sp1 = sp.split('99">')

# 将切片结果输出

word = sp1[1]

print(word)

def main():

discuz = Discuz()

getUrl = discuz.getSecondHtml()

# for i in getUrl:

# print(i)

discuz.getThirdHtml(getUrl)

# print(discuz.list2)

if __name__ == "__main__":

main()

爬取结果

由于该网站对于匹配发帖和回帖内容的标签有多种,导致爬取结果不全,可以使用多种正则匹配方法匹配信息

珍爱网html模板,python爬虫基础实战:爬取珍爱网征婚女士信息,爬取Discuz论坛发帖和回帖代码案例...相关推荐

  1. 零基础入门python爬虫之《青春有你2》选手信息爬取

    零基础入门python爬虫之<青春有你2>选手信息爬取 完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...

  2. python爬虫 京东,苏宁,小米众筹网站信息爬取

    可代写python爬虫,收费可协商,用途需提前说明. 下面爬虫爬到的数据有100天左右,100家众筹的完整数据,需要的或者有写爬虫需求的同学可发邮件至starinsunriseabovesea@ali ...

  3. 【Python爬虫练习】虎扑社区步行街版块首页信息爬取(BeautifulSoup+MongoDB)

    严正声明:爬虫仅用于学习研究,不做商业或者其它非法用途! 首先我们要爬取的网页地址为:https://bbs.hupu.com/bxj 页面的样子是这样的: 红色圈出来的部分就是我们所要爬取的内容信息 ...

  4. python爬虫翻页操作——ajax肯德基餐厅门店信息爬取

    需求:输入城市名称就可以查询到所在地区的肯德基餐厅门店地址,并以文本形式保存. 文章目录 一.打开肯德基官方网站利用抓包工具进行分析 二.编码 三.总结 一.打开肯德基官方网站利用抓包工具进行分析 示 ...

  5. python爬虫知网实例-33个Python爬虫项目实战(推荐)

    今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...

  6. python基础知识整理-python爬虫基础知识点整理

    首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 根据我的经验,要学习Python爬虫 ...

  7. python爬虫基础-requests库

    python爬虫基础-requests库 python爬虫 1.什么是爬虫? 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程. 注意:浏览器抓取的数据对应的页面是一个完整的页面. 为什 ...

  8. python爬虫基础知识点整理

    更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.sfkyty.com ...

  9. python爬虫项目-33个Python爬虫项目实战(推荐)

    今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...

  10. python爬虫基础(一)~爬虫概念和架构

    目录 1. 爬虫 1.1 概念 1.2 分类 2. 爬虫架构 2.1 url管理器 2.2 网页(html)下载(download)器 2.2.1 urllib下载html源码 2.2.2 reque ...

最新文章

  1. 使用 Web 标准生成 ASP.NET 2.0 Web 站点
  2. 【效率】又来一个Windows神器!!!
  3. 当ABAP遇见普罗米修斯
  4. pytorch torch.arange
  5. python遍历数组的两种方法及将print的内容写入文件中
  6. java(15)-策略模式(Strategy Pattern)
  7. RetinaNet算法详解及其在垃圾检测中的应用
  8. 单变量分析、组合变量分析
  9. 删除可恶的7654.com,7654导航篡改首页恢复,如何解决浏览器被7654劫持
  10. 利用Jquery实现动态增加、修改html元素
  11. JOB DESCRIPTION
  12. 拼写检查(深度讲解,普通方法+进阶版)
  13. 项目——3——lnmp-gitlab-jenkins-ansible
  14. ANSVC无功补偿装置在南京某高等院校中的应用
  15. 传统安防互联网化无插件直播分析及解决方案
  16. gitlab服务器社区版安装与使用
  17. 进化论VS中性突变理论
  18. AD PCB设计入门总结(一)
  19. Pico neo3最新版SDK导入Unity详细教程(包含眼动)
  20. 手机网络游戏 一座尚待挖掘的金矿

热门文章

  1. BN讲的很好的一篇文章
  2. Linux-页、页表、页框(块)+虚拟内存
  3. log4j+flume+HDFS实现日志存储
  4. 第三季-第16课-信号量互斥编程
  5. 高通又失一员大将,英特尔成功挖角高通CFO
  6. 对volatile不具有原子性的理解
  7. 浅谈Mysql 表设计规范(转)
  8. nginx allow 多个ip ipv4的网段表示方法解析
  9. CentOS 7 下的LVM 实战
  10. WebService高级,可靠消息