目标:爬取某网站比赛赛程,动态网页,则需找到对应ajax请求(具体可参考:https://blog.csdn.net/you_are_my_dream/article/details/53399949)

# -*- coding:utf-8 -*-

import sys

import re

import urllib.request

link = "https://***"

r = urllib.request.Request(link)

r.add_header(‘User-Agent‘,‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36‘)

html = urllib.request.urlopen(r,timeout=500).read()

html = bytes.decode(html,encoding="gbk")

#返回大量json,需提取

#找出返回json中对应正则匹配的字符串

js = re.findall(‘"n":"(.*?)"‘,html)

i=0

#循环打印比赛信息

try:

while(1):#将字符串Unicode转化为中文,并输出

print (js[i].encode(‘utf-8‘).decode(‘unicode_escape‘),js[i+1].encode(‘utf-8‘).decode(‘unicode_escape‘),"VS",js[i+2].encode(‘utf-8‘).decode(‘unicode_escape‘))

i=i+3

#当所有赛程爬取结束时,会报错“IndexError:list index out of range”,所以进行异常处理

except IndexError:

print ("finished")

总结注意点:

1、python  3 采用这个import urllib.request

因为urllib和urllib2合体了。

2、字符串Unicode转为中文需注意python3与python2的表示方法不同:

python3:print  字符串.encode(‘utf-8‘).decode(‘unicode_escape‘)

python2:print  字符串.decode(‘unicode_escape‘)

3、re.findall()

关于这个函数,他的输出内容规律可以参考我之前写的:http://www.cnblogs.com/4wheel/p/8497121.html

"n":"(.*?)" 这个表达式只输出(.*?)这部分(为什么,还是参考我之前写的那篇文章),加上问号就是非贪婪模式,不加就是贪婪模式

顺便实践解释下贪婪模式

example:

总结:非贪婪模式就是在满足正则表达式的情况下,尽可能少的匹配。

相反,贪婪模式就是在满足正则表达式的情况下,尽可能多的匹配。

python足球联赛赛程_python爬取足球比赛赛程笔记相关推荐

  1. python获取游戏数据_Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是.........

    原标题:Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是...... 作者 |量化小白H 责编 | 胡巍巍 本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几 ...

  2. python获取天气分析_Python爬取南京市往年天气预报,使用pyecharts进行分析

    上一次分享了使用matplotlib对爬取的豆瓣书籍排行榜进行分析,但是发现python本身自带的这个绘图分析库还是有一些局限,绘图不够美观等,在网上搜索了一波,发现现在有很多的支持python的绘图 ...

  3. python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

  4. python外汇兑换代码_python爬取人民币汇率中间价

    python爬取人民币汇率中间价,从最权威的网站中国外汇交易中心. 首先找到相关网页,解析链接,这中间需要经验和耐心,在此不多说. 以人民币兑美元的汇率为例(CNY/USD),脚本详情如下: wind ...

  5. python制作手机壁纸_Python爬取手机壁纸图片

    使用Python爬取图片. 1 说明 本文通过爬虫程序的编写,实现了一个简单易懂的爬虫程序,方便初学者理解,主要程序分为网页获取函数,以及保存下载函数,这就是所有爬虫程序的基本思想.(本文不涉及反爬, ...

  6. python爬虫好友图片_Python爬取所有微信好友头像,制作微信好友图片墙

    今天咱就试试怎么爬取微信列表中所有好友的头像,并做成一张图片墙,代码不长,60 行就可以搞定. 核心是利用三个库:wxpy 库,用于获取好友头像然后下载 Pillow 库,用于拼接头像 Pyinsta ...

  7. python 制作网站教程_Python爬取网站博客教程并制作成PDF

    要把教程变成PDF有三步: 1.先生成空html,爬取每一篇教程放进一个新生成的div,这样就生成了包含所有教程的html文件(BeautifulSoup) 2.将html转换成pdf(wkhtmlt ...

  8. python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...

    1. 爬虫项目介绍 爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...

  9. 爬虫python代码网易云_python爬取网易云音乐热歌榜实例代码

    首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我 ...

最新文章

  1. ImageNet Classification with Deep Convolutional Nerual Networks(AlexNet)
  2. 电脑常见故障排除方法
  3. IAR需要注意的地方
  4. 通过Flume简单实现Kafka与Hive对接(Json格式)
  5. PDS+VL Motion对发动机曲轴系统不平衡载荷进行仿真分析
  6. 小森林顺序_这篇微推价值过亿!仁恒公园世纪二期选房顺序“摇号”,1:7!
  7. 俺也用一下mandriva,恩,KDE的效果的确不错
  8. PHP错误处理注册机制
  9. js-实现数组翻转(倒序)
  10. AsyncTask下载图片
  11. 计算机网络拓扑结构 教案,计算机网络拓扑结构获奖教案.docx
  12. 台式计算机把光驱改成硬盘,笔记本电脑光驱怎么改换硬盘?笔记本光驱改装固态硬盘图文教程...
  13. 软件测试2年,想去培训性能测试自动化测试,28岁了,要不要培训?
  14. php rsa 模数 指数,密码:使用模数和指数生成RSA私钥
  15. 关于extern用法说明
  16. Are Graph Augmentations Necessary? Simple Graph Contrastive Learning for Recommendation
  17. Linux x8664汇编,xorl%eax,g86生成的x86_64汇编代码中的%eax
  18. WebPack安装记录
  19. 【Python核心】字典和集合
  20. Java笔记018-抽象类、抽象类最佳实践-模板设计模式、接口、内部类

热门文章

  1. Making Your Own iPhone Frameworks. In Xcode
  2. IE浏览器下ajax缓存导致数据不更新的解决方法
  3. nginx产生【413 request entity too large】错误的原因与解决方法
  4. C# 出现System.TypeInitializationException类型初始值设定项引发异常
  5. intellij idea的TFS拉取项目文件不完全、文件误删恢复、TFS忽略文件解决方法
  6. 如何在TypeScript中删除数组项?
  7. Python字典理解
  8. 集成Netty|tensorflow实现 聊天AI--PigPig养成记(2)
  9. MySQL简单快速入门 (三)高级查询——JEPLUS软件快速开发平台
  10. vue无缝滚动的插件开发填坑分享