上一篇Python抓取糗事百科网页信息以及源码下载
也是利用python抓取网页信息,轻车熟路,知道一个之后,轻轻松松就是实现啦。
淘女郎网页地址:https://mm.taobao.com/json/request_top_list.htm?page=1
page=1代表第一页淘女郎信息列表。
页面信息如下;

页面整体的html代码如下:

代码效果如下:

基本上可以把美眉的信息以及个人网址抓取到。其中的地址前面缺少https:,网址加上这个https:就可以了。
但是淘宝牛掰,把网址都使用了安全协议,需要登录认证之后才可以到页面信息中。现在还没有做登录之后的功能,所以目前仅仅把美眉的个人信息以及网址抓取到了。研究好利用python登录的功能之后,在把淘女郎的更加详细的信息以及海量图片抓取到。然后再更新本博客。

整个代码还是比较简单的。

#coding:utf-8
__author__ = 'CQC'
import re
import urllib2import tool#抓取MM
class Spider:#页面初始化def __init__(self):self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm'self.tool = tool.Tool()#获取索引页面的内容def getPage(self,pageIndex):url = self.siteURL + "?page=" + str(pageIndex)request = urllib2.Request(url)response = urllib2.urlopen(request)return response.read().decode('gbk')#获取索引界面所有MM的信息,list格式def getContents(self,pageIndex):page = self.getPage(pageIndex)# 这里获取六条信息 个人信息网址,头像图片地址,美眉个人信息页地址,美眉名字,年龄,居住地址pattern = re.compile('<div class="list-item".*?pic-word.*?'+'<a href="(.*?)".target=.*?<img src="(.*?)".alt.*?'+'<a class="lady-name".href="(.*?)".target=.*?>(.*?)'+'</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)items = re.findall(pattern,page)contents = []for item in items:contents.append([item[0],item[1],item[2],item[3],item[4],item[5]])return contents#将一页淘宝MM的信息保存起来def savePageInfo(self,pageIndex):#获取第一页淘宝MM列表contents = self.getContents(pageIndex)for item in contents:#item[0]个人详情URL,item[1]头像URL,item[2]是个人信息地址,item[3]姓名,#item[4]年龄,item[5]居住地print u"发现一位模特,名字叫",item[3],u"芳龄",item[4],u",她在",item[5]print u"正在偷偷地保存",item[3],"的信息"print u"又意外地发现她的个人地址是",item[0] #这个地址需要登录print u"名字对应的个人信息地址是",item[2]  #这个地址有用#个人详情页面的URLdetailURL = item[0]print 'detailURL=https:%s' %detailURLdef savePagesInfo(self,start,end):for i in range(start,end+1):print u"正在偷偷寻找第",i,u"个地方,看看MM们在不在"self.savePageInfo(i)
#传入起止页码即可,在此传入了1,10,表示抓取第1到10页的MM
spider = Spider()
spider.savePagesInfo(1,10)

其中关键的部分还是正则表达式部分:

# 这里获取六条信息 个人信息网址,头像图片地址,美眉个人信息页地址,美眉名字,年龄,居住地址pattern = re.compile('<div class="list-item".*?pic-word.*?'+'<a href="(.*?)".target=.*?<img src="(.*?)".alt.*?'+'<a class="lady-name".href="(.*?)".target=.*?>(.*?)'+'</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)

这里需要对照网页的html代码进行比对:

仔细比对html和正则表达式部分,然后利用(.*?)这个表达式把有用信息进行分组得到想要获取的信息。每个圆括号对应元组的一个值。这里有六个圆括号,每一个元组有六个数据。

这里对获取到的六个item数据进行输出。

还是要提醒一句,上面的内容对于我现在是有用的,如果当你看到这篇文章的时候,可能网页的html代码已经改变,则需要调整正则表达式的代码才能与网页进行匹配,进而获取有用的信息。

python代码下载,请猛戳这里!

Github地址,在这里!
github地址不仅仅有淘女郎网页的抓取,还有糗事百科网页信息的抓取,后期还会有更多内容加入。欢迎关注!^_^【握手~】

Python抓取淘女郎网页信息以及代码下载相关推荐

  1. Python 抓取动态网页表格信息

    五一假期,研究了下Python抓取动态网页信息的相关操作,结合封面的参考书.网上教程编写出可以满足需求的代码.由于初涉python,过程中曲折很多,为了避免以后遇到问题找不到相关的信息创建本文. 准备 ...

  2. python 抓取的网页默认是bytes的,要转码

    python 抓取的网页默认是bytes的,要转码. 查看网页源码可以看到,我本次抓取的网页的编码方式是utf-8的. req = urllib.request.Request(url=myurl,h ...

  3. 雪球python爬虫炒股_如何使用 Python 抓取雪球网页?

    我想使用beautifulsoup或者其他的python包 抓取 雪球网页上面的一些组合,因为雪球网的组合持仓变动的时候,雪球网不会给提示,比如说,我想抓取这个http://xueqiu.com/P/ ...

  4. python爬取网页停止_如何使用Python抓取雪球网页?

    我想使用beautifulsoup或者其他的python包 抓取 雪球网页上面的一些组合,因为雪球网的组合持仓变动的时候,雪球网不会给提示,比如说,我想抓取这个http://xueqiu.com/P/ ...

  5. 抓取网站网页信息中的TD信息

    python 抓取某网站网页信息中的TD信息 通过用户名和密码直接登录到网站,然后下载相应的表格信息:或者直接抓取HTML页面中的table下tr的相关内容 引入代码中需要的相关库或者类 import ...

  6. 使用python抓取美团商家信息

    抓取美团商家信息 import requests from bs4 import BeautifulSoup import jsonurl = 'http://bj.meituan.com/' url ...

  7. Python抓取百度贴吧网页信息以及代码下载

    代码是抓取百度贴吧帖子的回复内容的.包括帖子标题.帖子回复数量,帖子页码,回复楼层.回复时间,也可以只查看楼主的回复信息.最后将获取到的帖子信息记录到记事本中. 具体结果看图: 上面的图片打印的是帖子 ...

  8. 简单的Python抓取招聘网站信息(1)

    作为一名大四狗刚刚经历完找工作的浪潮,发现每天需要去各类招聘网站进行看招聘信息非常麻烦,想到用Python爬虫抓取招聘网站的招聘信息.同届的同学大多找完了工作,文章就给将来需要的同学看吧~因为不着急, ...

  9. python抓取交易所_Python百行代码抓取美股三大交易所历史数据

    最近闲来无事,琢磨着去投资下美股,投资嘛,当然得先分析下市场行情个股行情啦, 分析就需要有数据,那么数据从哪里来呢,当然是从交易所官方网站获取咯.自己动手丰衣足食,于是花了点时间写个Python脚本来 ...

最新文章

  1. cefsharp 加载慢_知道硬盘很慢,但没想到比 CPU Cache 慢 10000000 倍!
  2. Spring中IoC的入门实例
  3. python对异常_关于python中的异常
  4. 【转载】ogre内存管理
  5. spring 中 Hibernate 事务和JDBC事务嵌套问题
  6. ospf 环回口的路由条目_路由策略之重分发示例分析
  7. 13 岁自学编程,提出演进式架构的她,成 ThoughtWorks CTO!
  8. pytorch GPU加速运算
  9. 管家婆sql2005数据库一键安装
  10. [re入门]一个简单的加密程序的逆向破解与解密
  11. 【学术报告】几经沉浮,人工智能(AI)前路何方?
  12. java 资格证_程序员从业资格证
  13. 软件架构模式 mark Richards - 读后总结 6 - 整合
  14. Ubuntu 下eclipse安装
  15. iOS安全攻与防(总篇)
  16. 读书笔记: 当我谈跑步时,我谈些什么
  17. Docker删除镜像/容器
  18. 嵌入式Linux应用开发 1.系统编程 文件IO:open close write read lseek 通过文件io实现cp命令
  19. 模仿是一种最好的学习方法
  20. 计算机在生态学的应用,应用生态学

热门文章

  1. 加一行代码,让你的Python的运算速度加快100倍
  2. 广西机电职院计算机系,广西机电职院崇左东盟学院办学点揭牌仪式暨2019级大专班开学典礼在东盟学院隆重举行...
  3. Meting-JS APlayer丨网页音乐播放器
  4. 网页版音频播放器,歌词随音乐而动
  5. 过敏性鼻炎是怎么引起的?
  6. Soso(嗖嗖)移动 java 项目
  7. 【红米刷机】红米手机卡刷稳定版教程
  8. 通过机器学习的线性回归算法预测股票走势(用Python实现)
  9. Linux centos+selenium+firefox+java (无图形界面)获取动态网页
  10. 致给迷茫与失落时的的自己