爬取中国所有银行官网网址信息,并保存在文档中。

from urllib import request

from urllib.request import urlopen
import re
url = 'http://www.cbrc.gov.cn/chinese/jrjg/index.html'
def get_file_content(filName):
    with open('bank.txt') as f:
        return f.read().replace('\t', '')
def pattern_html():
    content = get_file_content('bank.txt')
    # < a href = "https://www.sc.com/cn/" target = "_blank" style = "color:#08619D">渣打银行</a>
    pattern1 = r'<a href="(https?://.+|www.+)" target="_blank"  style="color:#08619D">\s*(.+)'
    bank_li1 = re.findall(pattern1, content)
    return bank_li1
def write_to_file(filename, bank_li):
    with open(filename, 'w') as f:
        f.write("银行名称\tURL\n")
        for url,name in bank_li:
            f.write("%s\t%s\n" %(name.strip(), url))
    print("写入成功!")
bank_li = pattern_html()
for ur, name in bank_li:
    print(ur, '\t', name)
write_to_file('bank1.txt', bank_li)

爬取中国所有银行官网网址信息相关推荐

  1. Node 插件 爬取王者荣耀官网英雄信息,并生成数据库

    文章结构 打开官网看接口地址 打开官网 游戏资料里的英雄资料,并打开后台 接下来是英雄技能 技能结构路径方便抓取 jQ的获取元素这里不细说 重头戏 抓包到到数据库 全部代码 看数据库 总结 打开官网看 ...

  2. Python网络爬虫:爬取腾讯招聘网职位信息 并做成简单可视化图表

    hello,大家好,我是wangzirui32,今天我们来学习如何爬取腾讯招聘网职位信息,并做成简单可视化图表,开始学习吧! 文章目录 1. 网页分析 2. 获取json数据 3. 转换为Excel ...

  3. Python爬虫之简单爬虫之爬取英雄联盟官网的英雄的皮肤

    Python爬虫之简单爬虫之爬取英雄联盟官网的英雄的皮肤 文章目录 Python爬虫之简单爬虫之爬取英雄联盟官网的英雄的皮肤 背景:LOL这款游戏有着大量的玩家,这个游戏里面人们津津乐道的皮肤,每一款 ...

  4. 爬取中国最好大学网数据(Python的Scrapy框架与Xpath联合运用)

    前言        大二上学期学校外出实习,做了一个关于爬取中国最好大学网http://www.zuihaodaxue.com/rankings.html的项目用的这个Scrapy框架,多线程还挺好用 ...

  5. Python爬虫实战 | (1) 爬取猫眼电影官网的TOP100电影榜单

    在本篇博客中,我们将使用requests+正则表达式来爬取猫眼电影官网的TOP100电影榜单,获取每部电影的片名,主演,上映日期,评分和封面等内容. 打开猫眼Top100,分析URL的变化:发现Top ...

  6. 使用selenium + chrome爬取中国大学Mooc网的计算机学科的所有课程链接

    目的:使用selenium + chrome爬取中国大学Mooc网计算机学科的所有的课程链接列表 思路:找到每个分页的节点属性为class="m-course-list" 的div ...

  7. 爬虫实战6:爬取英雄联盟官网五个位置的综合排行榜保存到excel

    申明:资料来源于网络及书本,通过理解.实践.整理成学习笔记. 文章目录 英雄联盟官网 获取一个位置的综合排行榜所有数据(上单为例) 获取所有位置的综合排行榜所有数据 英雄联盟官网 获取一个位置的综合排 ...

  8. python利用mysql数据库实现一个中英文翻译程序兼单词试卷生成并改阅功能,并可以爬取有道官网进行在线翻译。

    直接上运行截图(代码在后面) 开始界面 使用navicat查看mysql数据库中的数据 单词查询功能测试 本地翻译一个本地数据库中有的单词 本地翻译一个本地数据库中没有的单词 爬取有道官网进行在线翻译 ...

  9. python爬虫爬取王者荣耀官网全部英雄头像(源码分享)

    这篇文章为源码分享,爬虫的分析过程请阅读文章 <用python爬取王者荣耀官网的英雄皮肤海报(含源码)> 源码 import requests import json from bs4 i ...

最新文章

  1. 是固执成见还是步步为营,工程建筑行业如何追赶人工智能化潮流?
  2. Python学习入门基础:一篇文章搞定函数基础、函数进阶
  3. CURL 模拟post和get请求
  4. 库克也有手机瘾:每天拿起iPhone200次 比预想多一倍
  5. python程序编译成exe格式
  6. 获得输入框的文本document.getElementById('id').value;
  7. IntelliJ IDEA 自定义控制台输出多颜色格式功能 --- 安装Grep Console插件
  8. Google Chrome 初试手记
  9. 选择mysql开发的原因_MySQL开发技巧
  10. python airflow_airflow python 包采坑指南
  11. java ts视频文件合并
  12. 讲讲NVivo11的版本细节
  13. 通过AWS创建无服务器的动态DNS系统
  14. zabbix触发器通过钉钉发送警报
  15. 高德智慧交通地图空间可视化SDK设计与实现
  16. abb 机械手臂 示例程序
  17. js“弹出对话框”和“弹出窗口”详解
  18. 用AI生成的画作,在淘宝拍卖到了4位数
  19. 基于ssm医药药品管理系统
  20. 华远汽车递交招股书:年营收4.54亿 姜肖斐为大股东

热门文章

  1. 计算机二级考试失误有提示吗,2016年计算机二级考试应该避免的失误
  2. 用HTML实现旋转地球,使用CSS3和贴图实现的旋转的蓝色地球
  3. 大学生活:贫穷而快乐的日子
  4. mysql中英文姓名按照首字母排序_mysql 汉字根据首字母排序
  5. win10网络重置后无法上网
  6. win7系统 修改默认管理员用户名administrator方法
  7. [附源码]Nodejs计算机毕业设计面向老年群体的健康养生系统Express(程序+LW)
  8. java中peek是什么意思,在Java流中,PEEK真的只用于调试吗?
  9. 【设计模式】—-(12)代理模式(结构型)
  10. 发布本人整理的面试问题大全,为准备找工作的同行们尽一份力 希望大家多补充或回答