一、正则表达式

*     表匹配0次或者多次  a*b*

+    表至少一次

[ ]   匹配任意一个

( )  辨识一个编组

{m,n} m或者n 次

[^]  匹配任意不在中括号里的字符

|    表示或者

.    表示匹配任意字符

^    表字符的开始 ^a  表示以a开始

\    表示转义字符

$  和^ 相反  从字符串的末尾开始匹配

?! 不包含

二、获得属性

获得一个标签的全部属性

myTag.attrs

获取图片的资源位置src

myImgTag.attrs["src"]

获取网页的函数:

random.seed(datetime.datetime.now())
def getLinks(articleUrl):
html = urlopen("http://en.wikipedia.org"+articleUrl)
bs0bj = BeautifulSoup(html)
return bs0bj.find("div",{"id":"bodyContent"}).findAll("a",herf=re.compile("^(/wiki/)((?!:).)*$"))
links = getLinks("/wiki/Kevin_Bacon")
while len(links) > 0:
newArticle = links[random.randint(0,len(links)-1)].attrs["href"]
print(newArticle)
link = getLinks(newArticle)

转载于:https://www.cnblogs.com/tyyhph/p/7582446.html

Python网络数据采集相关推荐

  1. Python网络数据采集2-wikipedia

    Python网络数据采集2-wikipedia 随机链接跳转 获取维基百科的词条超链接,并随机跳转.可能侧边栏和低栏会有其他链接.这不是我们想要的,所以定位到正文.正文在id为bodyContent的 ...

  2. python数据采集框架_20190715《Python网络数据采集》第 1 章

    <Python网络数据采集>7月8号-7月10号,这三天将该书精读一遍,脑海中有了一个爬虫大体框架后,对于后续学习将更加有全局感. 此前,曾试验看视频学习,但是一个视频基本2小时,全部拿下 ...

  3. Python 网络数据采集(三):采集整个网站

    Python 网络数据采集(三):采集整个网站 1.采集整个网站 2. 完整代码 3. 下一节,继续优化这个"爬虫"程序 参见  作者:高玉涵  时间:2022.5.30 15:3 ...

  4. Python 网络数据采集(中文版)

    Python 网络数据采集(中文版) 链接:https://pan.baidu.com/s/1vXtIUXVFlGLBnA3BbWFAAg 提取码:f2a8

  5. 笔记之Python网络数据采集

    笔记之Python网络数据采集 非原创即采集 一念清净, 烈焰成池, 一念觉醒, 方登彼岸 网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息 通常, ...

  6. 《深入浅出Python》与《Python网络数据采集》读后感

    本学期在课程之外,自主计划学习Python语言以及爬虫知识.书籍方面,采用了O`Reilly的<深入浅出Python>与<Python网络数据采集>.前者用于Python语法的 ...

  7. python网络数据采集学习笔记-前言

    <Python网络数据采集>,英文名<web scraping with python>     Ryan Mitchell著     陶俊杰 陈小莉 译 那老僧道:" ...

  8. python网络数据爬取及分析_《Python网络数据采集》读后总结--第3章开始爬取数据及天善用户关系分析实例...

    这次介绍一下<Python网络数据采集>这本书的第3章内容(Chpt03.开始爬数据的内容), 使用了天善用户关系分析的示例来介绍一下具体实践. 1.第3章内容简介 1-getWikiLi ...

  9. 笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫

    笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫 本资料为最新整理高清带目录pdf,百度网盘下载~~~ 本资料为最新整理高清带目 ...

  10. 《python网络数据采集》读后感 第六章:读取文档

    1.文档编码: 文档编码是一种告诉程序--无论是计算机的操作系统还是 Python 代码--读取文档的规 则.文档编码的方式通常可以根据文件的扩展名进行判断,虽然文件扩展名并不是由编码 确定的,而是由 ...

最新文章

  1. 几分钟让小孩的人物涂鸦「动起来」,Meta AI创建了一个奇妙的火柴人世界
  2. 用 Redis 搞定游戏中的实时排行榜,附源码!
  3. 近期活动盘点:统计学概论和医疗临床大数据分析讲座、24小时创新挑战:数字时代的人类健康与福祉...
  4. window环境安装composer
  5. 发现保存GIF格式后相素发生变化咋办
  6. luogu P2216 [HAOI2007]理想的正方形 递推+ST表
  7. 高擎信息安全大旗,打造“互联网+”新服务模式
  8. sax 解析 xml
  9. IDEA自动生成序列化ID
  10. 骁龙870对比天玑1200,到底谁更优秀?
  11. Windows10清理C盘
  12. win10设置Ctrl+Shift切换输入法
  13. 梅花雨日历date.js
  14. 小木虫网站无法登陆(账号突然被封禁)的解决办法
  15. WPF:MouseDown、MouseUP事件,鼠标按下不起作用
  16. 计算机末端网络,计算机线缆末端的圆球是什么?
  17. 不用电线使灯泡 特斯拉_特斯拉方式如何使其领先
  18. 【 C++11 】列表初始化、声明、范围for、STL中一些变化
  19. 支付退款流程设计_如何设计订单系统?不妨看看这篇文章
  20. OpenKruise原理介绍和安装

热门文章

  1. openstack管理员手册下载_城市绿心森林公园app下载-城市绿心森林公园客户端下载v1.1 安卓版...
  2. c++ 获取当前时间_【Python】日期和时间
  3. Kotlin 系统入门到进阶
  4. web项目html页面过多,详解webpack4多入口、多页面项目构建案例
  5. SpringBoot开发最佳实践
  6. jmh气象传真图网站_在冬奥滑雪场,他凭着气象信息,念好一本生意经
  7. nginx安装包_安装nginx与fastdfs-nginx-module
  8. hao123电脑版主页_生活小技巧003:电脑主页被恶意篡改怎么办?
  9. php7与php5的区别,PHP7和PHP5区别
  10. linux vg主备机同步,切换VG主备链路(简)