python爬取网络中的QQ号码
import urllib.request
import ssl
import re
import os
#博客地址:https://blog.csdn.net/qq_36374896def writeFile1Bytes(htmlBytes,toPath): with open(toPath,"wb") as f:f.write(htmlBytes)
def writeFile1Str(htmlBytes,toPath):with open(toPath,"wb") as f:f.write(htmlBytes)def getHtmlBytes(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"}req = urllib.request.Request(url, headers=headers)context = ssl._create_unverified_context()response = urllib.request.urlopen(req,context=context)return response.read()def qqCrawler(url, toPath):htmlBytes = getHtmlBytes(url)# writeFile1Bytes(htmlBytes,r"C:\Users\admin\Desktop\360学习\爬虫\image\qq1.html")# writeFile1Str(htmlBytes,r"C:\Users\admin\Desktop\360学习\爬虫\image\qq2.txt")htmlStr = str(htmlBytes)pat = r"[1-9]\d{4,9}"re_qq= re.compile(pat)qqsList = re_qq.findall(htmlStr)qqsList = list(set(qqsList))print(qqsList)print(len(qqsList))url="http://tieba.baidu.com/p/5471533241?traceid="
toPath=r"C:\Users\admin\Desktop\360学习\爬虫\image\qq.txt"
qqCrawler(url,toPath)
代码年代久远,注释当时没写,现在懒得写了
python爬取网络中的QQ号码相关推荐
- 完全小白篇-使用Python爬取网络小说
完全小白篇-使用Python爬取网络小说 一.找一个你要爬取的小说 二.分析网页 网页的展示方式 需要用到的库文件 三.向网站发送请求 四.正则提取 五.跳转的逻辑 六.后续处理 七.保存信息进入do ...
- python爬取图片-Python爬取网页中的图片(搜狗图片)详解
前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载 本地下载 我们这里以sogou作为爬取的对象. 首先 ...
- python爬取app中的音频_Python爬取喜马拉雅音频数据详解
码农公社 210.net.cn 210是何含义?10月24日是程序员节,1024 =210.210既 210 之意. Python爬取喜马拉雅音频数据详解 一.项目目标 爬取喜马拉雅音频数据 受害 ...
- python爬取app中的音频_Python爬取抖音APP,只需要十行代码
环境说明 环境: python 3.7.1 centos 7.4 pip 10.0.1 部署 [root@localhost ~]# python3.7 --version Python 3.7.1 ...
- python爬取去哪网数据_Python爬虫入门:使用Python爬取网络数据
1 网络爬虫 引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 简单的说,就是有一个程序可以自动去访问网页. 2 Python爬虫 如何实现爬虫? 简单的讲,一共 ...
- python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...
python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...
- python 获取qq群成员信息_教你用python爬取自己加入的QQ群成员名单,它们竟然是这样的人...
本次实验环境: 操作系统:Mac OS 开发语言:python 3.6 IDE:jupyter notebook(建议使用) 浏览器:Chrome(版本75.0.3770.100) 需要用到的库:se ...
- python爬取qq群成员_教你用python爬取自己加入的QQ群成员名单
本次实验环境: 操作系统:Mac OS 开发语言:python 3.6 IDE:jupyter notebook(建议使用) 浏览器:Chrome(版本75.0.3770.100) 需要用到的库:se ...
- python爬取豌豆荚中的详细信息并存储到SQL Server中
买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLe ...
- Python爬取网页中表格数据并导出为Excel文件
本文使用自己创建的网页进行模拟和演示,在爬取真实网页时,分析网页源代码然后修改代码中的正则表达式即可. 假设某网页源代码为: 在Hbuilder中单击菜单"运行",选择使用Goog ...
最新文章
- Percy Liang、李飞飞等百余位学者联名发布:「基础模型」的机遇与挑战
- golang []byte和string相互转换
- P3233-[HNOI2014]世界树【虚树,倍增】
- 从0到1设计业务系统
- gcc 编译python_4 个快速的 Python 编译器 for 2018
- Oracle的云计算模式
- Java实现List集合去重的5种方式
- 葫芦兄弟java7723_雪人兄弟(官方正版)
- Windows聚焦壁纸保存方法
- 撒花!苹果iOS迅雷手机版终于上架App Store
- CAN 接收邮箱 掩码设置
- 路由器密码重置(更改寄存器的值)
- 微信小程序 scroll-view详解
- 阿里云服务器是如何计费的?包年包月与按量付费有什么区别?
- 一键ghost【onekey ghost】最新版本下载,一键ghost官网
- 87work 项目实战2
- MCU-51:单片机之AD模数转换与DA数模转换
- 软件系统的测试记录表,最新DCS系统测试记录表格.doc
- 2019美洲杯抽签时间揭晓 巴西名宿卡福任大使
- 基于wireshark的HTTP请求报文分析