import urllib.request
import ssl
import re
import os
#博客地址:https://blog.csdn.net/qq_36374896def writeFile1Bytes(htmlBytes,toPath):  with open(toPath,"wb") as f:f.write(htmlBytes)
def writeFile1Str(htmlBytes,toPath):with open(toPath,"wb") as f:f.write(htmlBytes)def getHtmlBytes(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"}req = urllib.request.Request(url, headers=headers)context = ssl._create_unverified_context()response = urllib.request.urlopen(req,context=context)return response.read()def qqCrawler(url, toPath):htmlBytes = getHtmlBytes(url)# writeFile1Bytes(htmlBytes,r"C:\Users\admin\Desktop\360学习\爬虫\image\qq1.html")# writeFile1Str(htmlBytes,r"C:\Users\admin\Desktop\360学习\爬虫\image\qq2.txt")htmlStr = str(htmlBytes)pat = r"[1-9]\d{4,9}"re_qq= re.compile(pat)qqsList = re_qq.findall(htmlStr)qqsList = list(set(qqsList))print(qqsList)print(len(qqsList))url="http://tieba.baidu.com/p/5471533241?traceid="
toPath=r"C:\Users\admin\Desktop\360学习\爬虫\image\qq.txt"
qqCrawler(url,toPath)

代码年代久远,注释当时没写,现在懒得写了

python爬取网络中的QQ号码相关推荐

  1. 完全小白篇-使用Python爬取网络小说

    完全小白篇-使用Python爬取网络小说 一.找一个你要爬取的小说 二.分析网页 网页的展示方式 需要用到的库文件 三.向网站发送请求 四.正则提取 五.跳转的逻辑 六.后续处理 七.保存信息进入do ...

  2. python爬取图片-Python爬取网页中的图片(搜狗图片)详解

    前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载 本地下载 我们这里以sogou作为爬取的对象. 首先 ...

  3. python爬取app中的音频_Python爬取喜马拉雅音频数据详解

    码农公社  210.net.cn  210是何含义?10月24日是程序员节,1024 =210.210既 210 之意. Python爬取喜马拉雅音频数据详解 一.项目目标 爬取喜马拉雅音频数据 受害 ...

  4. python爬取app中的音频_Python爬取抖音APP,只需要十行代码

    环境说明 环境: python 3.7.1 centos 7.4 pip 10.0.1 部署 [root@localhost ~]# python3.7 --version Python 3.7.1 ...

  5. python爬取去哪网数据_Python爬虫入门:使用Python爬取网络数据

    1 网络爬虫 引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 简单的说,就是有一个程序可以自动去访问网页. 2 Python爬虫 如何实现爬虫? 简单的讲,一共 ...

  6. python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...

    python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...

  7. python 获取qq群成员信息_教你用python爬取自己加入的QQ群成员名单,它们竟然是这样的人...

    本次实验环境: 操作系统:Mac OS 开发语言:python 3.6 IDE:jupyter notebook(建议使用) 浏览器:Chrome(版本75.0.3770.100) 需要用到的库:se ...

  8. python爬取qq群成员_教你用python爬取自己加入的QQ群成员名单

    本次实验环境: 操作系统:Mac OS 开发语言:python 3.6 IDE:jupyter notebook(建议使用) 浏览器:Chrome(版本75.0.3770.100) 需要用到的库:se ...

  9. python爬取豌豆荚中的详细信息并存储到SQL Server中

    买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLe ...

  10. Python爬取网页中表格数据并导出为Excel文件

    本文使用自己创建的网页进行模拟和演示,在爬取真实网页时,分析网页源代码然后修改代码中的正则表达式即可. 假设某网页源代码为: 在Hbuilder中单击菜单"运行",选择使用Goog ...

最新文章

  1. Percy Liang、李飞飞等百余位学者联名发布:「基础模型」的机遇与挑战
  2. golang []byte和string相互转换
  3. P3233-[HNOI2014]世界树【虚树,倍增】
  4. 从0到1设计业务系统
  5. gcc 编译python_4 个快速的 Python 编译器 for 2018
  6. Oracle的云计算模式
  7. Java实现List集合去重的5种方式
  8. 葫芦兄弟java7723_雪人兄弟(官方正版)
  9. Windows聚焦壁纸保存方法
  10. 撒花!苹果iOS迅雷手机版终于上架App Store
  11. CAN 接收邮箱 掩码设置
  12. 路由器密码重置(更改寄存器的值)
  13. 微信小程序 scroll-view详解
  14. 阿里云服务器是如何计费的?包年包月与按量付费有什么区别?
  15. 一键ghost【onekey ghost】最新版本下载,一键ghost官网
  16. 87work   项目实战2
  17. MCU-51:单片机之AD模数转换与DA数模转换
  18. 软件系统的测试记录表,最新DCS系统测试记录表格.doc
  19. 2019美洲杯抽签时间揭晓 巴西名宿卡福任大使
  20. 基于wireshark的HTTP请求报文分析

热门文章

  1. H5开发html文件转换pdf,将HTML页面转换为PDF文件并导出
  2. task7b-TP53突变与否的TNBC病人基因表达相关性改变
  3. Excel函数 - Round函数使用方法
  4. 安装Windows Server 2003 sp1/sp2提示产品密钥无效
  5. NextCloud如何共享文件
  6. win10本地Docker搭建青龙面板
  7. 嵌入式学习是什么?嵌入式开发入门教程带你了解
  8. 哎 !互联网又偷偷进行了裁员
  9. IELTS11 Test2 laws are needed to make people recycle more of their waste
  10. 大数据时代的 10 个重大变化