1、爬虫分析

分析结果对:

http://xxx.com?method=getrequest&gesnum=00000001

http://xxx.com?method=getrequest&gesnum=00000002

http://xxx.com?method=getrequest&gesnum=00000003

返回的数据进行爬取

由于返回的python3 JSON数据中存在单个转义字符“\”的处理 没有处理好

req =requests.get(url=url,headers=headers,verify=False,timeout=60).json()

于是通过返回的是 bytes 型的二进制数据 进行处理。

req =requests.get(url=url,headers=headers,verify=False,allow_redirects=False,timeout=60)

data= json.dumps(bytes.decode(req.content,'UTF-8'))

2、python3爬虫编写

#!/usr/bin/python3

#-*- coding:utf-8 -*-

#编写环境 windows 7 x64 Notepad++ + Python3.5.0

import urllib3

urllib3.disable_warnings()

import sys

import requests

import re

import json

cookie = '''JSESSIONID=1B7407076DE01727BC48DCD56FF9BA70; entsoft=entsoft; JSESSIONID=4877B5AC1DF6307E90CF1641D3863A6C; radId=45991FBF-0BC4-3BA4-08E2-00072022FB2C'''

headers ={

'Accept': 'application/json, text/plain, */*',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',

'Accept-Encoding': 'gzip, deflate',

'Accept-Language': 'zh-CN,zh;q=0.9',

'Cookie': cookie,

}

#输出00000001-00000300存放在num.txt中

def getNum():

filename='C:\\Users\\Administrator\\Desktop\\脚本\\num.txt'

file = open(filename,'w')

for i in range(1,300):

file.write(("%08d" % i)+'\n')

file.close()

def main():

#url ='http://xxx.com?method=getrequest&gesnum=00000001'

getNum()

filename='C:\\Users\\Administrator\\Desktop\\脚本\\num.txt'

with open(filename,'r') as file:

for line in file:

url ='http://xxx.com?method=getrequest&gesnum={line}'.format(line=line)

#print(url)

#req =requests.get(url=url,headers=headers,verify=False,timeout=60).json()

#遇到问题: python3 JSON数据中存在单个转义字符“\”的处理没解决 于是使用下面的方式

req =requests.get(url=url,headers=headers,verify=False,allow_redirects=False,timeout=60)

#使用json.dumps的方法,可以将json对象转化为字符串

#print(req.content)

#response.text 返回的是一个 unicode 型的文本数据

#response.content 返回的是 bytes 型的二进制数据

#由于返回unicode 型的文本数据报错,使用返回bytes 型的二进制数据

data= json.dumps(bytes.decode(req.content,'UTF-8'))

#print(data)

#正则匹配邮箱地址

emailRegex = r"[-_\w\.]{0,64}@([-\w]{1,63}\.)*[-\w]{1,63}"

email = re.search(emailRegex,data)

print(email)

if __name__ == '__main__':

main()

3、输出邮件格式如下:

<_sre.SRE_Matchobject; span=(158,184), match='xxxx@hotmail.com'>

<_sre.SRE_Matchobject; span=(145,170), match='xxxx@nordictelecom.net'>

4、对返回邮件格式进行处理如下:

#!/usr/bin/python3

#-*- coding:utf-8 -*-

#编写环境 windows 7 x64 Notepad++ + Python3.5.0

def main():

filename = "C:\\Users\\Administrator\\Desktop\\脚本\\email_handle.txt"

filename1 = "C:\\Users\\Administrator\\Desktop\\脚本\\email_handle_handle.txt"

file1 = open(filename1,'w')

with open(filename,'r') as file:

for line in file:

data=line[48:]

print(data)

file1.write(data)

file.close()

file1.close()

if __name__ == '__main__':

main()

5、处理后邮件格式如下,在txt文本中查找替换'>为空即可:

xxxx@hotmail.com'>

xxxx@nordictelecom.net'>

6、参考

python爬虫使用Cookie的两种方法

https://blog.csdn.net/weixin_38706928/article/details/80376572

Python3 关于UnicodeDecodeError/UnicodeEncodeError: ‘gbk’ codec can’t decode/encode bytes类似的文本编码问题

https://www.cnblogs.com/worstprogrammer/p/5189758.html

Python模拟登陆(使用requests库)

https://blog.csdn.net/majianfei1023/article/details/49927969

Python的urllib3软件包的证书认证及警告的禁用

https://blog.csdn.net/taiyangdao/article/details/72825735

JSON在线解析及格式化验证

https://www.json.cn/

python最简单的爬取邮箱地址_python3爬取网页中的邮箱地址相关推荐

  1. php 采集邮箱,采集邮箱的php代码(抓取网页中的邮箱地址)

    采集邮箱的php代码(抓取网页中的邮箱地址) 复制代码 代码如下: $url='http://www.jb51.net'; //这个网页里绝对含有邮件地址. $content=file_get_con ...

  2. 一个用php抓取网页中电子邮箱的实例

    原文出自: http://outofmemory.cn/code-snippet/36020/php-how-zhuaqu-wangye-youxiangdizhi-code php如何抓取网页中邮箱 ...

  3. CSS 使用 a 标签的 mailto 属性在网页中链接 Email 地址(琐碎知识点整理)

    之前有整理过一部分知识点, 一直没有发布, 因为都是有关 前端 方面的零散内容; 现在想想无论分享什么内容都需要慢慢积累, 所以还是决定将之前整理的相关内容验证之后慢慢分享给大家 这个专题 就是 工作 ...

  4. asp自动解析网页中的图片地址,并将其保存到本地服务器

    程序实现功能:自动将远程页面的文件中的图片下载到本地. 程序代码 <% '将本文保存为 save2local.asp '测试:save2local.asp?url=http://ent.sina ...

  5. [html] 如何在网页中嵌入公司地址的地图?

    [html] 如何在网页中嵌入公司地址的地图? <script src='http://api.map.baidu.com/api?v=2.0&ak=BG9Wtw7egUbIQHPjG9 ...

  6. Python小应用1 - 抓取网页中的链接地址

    看到一篇博文上讲到用Python写自动访问博客的功能,里面的核心功能就是抓取网页中的链接,类似一个网页爬虫工具.正好我刚学习Python,就决定自己练习一下.写了一下,原本觉得很简单的东西,搞了半天才 ...

  7. java wsdl接口地址_java如何实现webservice中wsdlLocation访问地址的可配置化

    背景:项目中调用了别的系统的webservice接口,调用成功之后发现wsdlLocation的地址是写死的,不方便修改,所以需要实现地址,包括用户名密码的可配置.项目的框架是Spring,调用web ...

  8. FCF中地址控制域设定值对帧中所包含地址的影响

    本文讨论的是FCF中相关的地址控制域的设定值对帧中所包含地址的影响. 一.概述 FCF涉及地址控制的域包括PAN ID Compression.destination address mode和sou ...

  9. python 爬取百度知道_python3爬取百度知道的问答并存入数据库(MySQL)

    一.链接分析: 以"Linux"为搜索的关键字为例: 首页的链接为:https://zhidao.baidu.com/search?lm=0&rn=10&pn=0& ...

最新文章

  1. 医疗行业的AI应用,要避免“垃圾进、垃圾出”
  2. python学习笔记-Day17(jinja2)
  3. RabbitMQ系列教程之三:发布\/订阅(Publish\/Subscribe)
  4. 信号时频图的横纵坐标对调
  5. linux目录结构及作用详图
  6. Java并发编程笔记之ArrayBlockingQueue源码分析
  7. 明解c语言中级篇微盘,明解C语言:中级篇
  8. quartz定时任务xml配置
  9. android 指纹存储密码,安卓指纹认证(Android Fingerprint Auth)
  10. 获取post请求的几种常见方式
  11. LSTM案例——动态和可解释的ICU死亡风险预测
  12. Android NDK开发配置NDK
  13. 国内新的HTTP代理要求有哪些
  14. GetLastError错误码中文大全
  15. java-生成印章swing
  16. 认清面向服务架构(SOA)的本来面目
  17. Could not set property ‘id‘ of ‘‘ with value Cause: IllegalArgumentException: argument type mismatch
  18. 打印助手-打印暂停/开始问题原因调研记录
  19. Pytorch resnet花朵识别(5种花)附完整代码
  20. Omni Recover适用的IOS数据恢复方案

热门文章

  1. android 逆向ida,浅谈安卓逆向协议(四)- ida pro - 小红书
  2. MAC 权限Permission denied XXX
  3. firebox 浏览器查看cookie的方法
  4. 微信24小时到账_微信转账24小时可撤销吗?延时到账功能可帮忙!
  5. 云计算基础概念——Iaas、PaaS、SaaS
  6. UV汞灯-UVLED光源能量计、强度计通用品牌-WKM-UV1
  7. 域控服务器可以加几个辅域,如何搭建AD域控的辅域控(20200927213255).docx
  8. 最新 eCharts 世界地图国家名映射
  9. 基于java的俄罗斯方块小游戏设计(含源文件)
  10. Abaqus 沙漏模式