这里是前章,我们做一下预备。之前太多事情没能写博客~。。             (此博客只适合python3x,python2x请自行更改代码)

首先你要有bs4模块

windows下安装:pip3 install bs4,如果你电脑有python2x和python3x的话,在python3x中安装bs4请已管理员的身份运行cmd执行pip3 install bs4安装bs4。

linux下安装:sudo pip3 install bs4

还有urllib.request模块

windows下安装:pip3 install urllib.request,如果你电脑有python2x和python3x的话,在python3x中安装bs4请已管理员的身份运行cmd执行pip3 install urllib.request安装urllib.request模块

例子1:获取源码

from urllib.request import urlopen

from bs4 import BeautifulSoup

html=urlopen("http://wikipedia.org")

dgc=BeautifulSoup(html)

print(dgc)

输出图如下:

这里我忘记加自定义错误了,当然你也可以不加。保险起见还是加

例子二:匹配对应的标签

from urllib.request import urlopen

from bs4 import BeautifulSouptry: html=urlopen("http://dlszx.dgjy.net/")except EOFError as a:    print("404 ")except:    print("404")dgc=BeautifulSoup(html)
fbc=dgc.findAll("img",{"src":"uploadfile/201762105219962.jpg"})print(fbc)

例子3:正则匹配所有对应的标签

不会正则的请去学习

from urllib.request import urlopenimport refrom bs4 import BeautifulSouptry: html=urlopen("http://dlszx.dgjy.net/")except EOFError as a:    print("404 ")except:    print("404")dgc=BeautifulSoup(html)fbc=dgc.findAll("img",{"src":re.compile("img/.*?\.jpg")})for inks in fbc:    print(inks)注意事项!!!:不要拿findAll去搜索引擎匹配,乱的你想死搜索引擎正则匹配要求很高:http:\/\/[a-zA-z].*?\[a-z]

例子4:

匹配网站所有的链接

from urllib.request import urlopenimport refrom bs4 import BeautifulSouptry: html=urlopen("http://wikipeda.org")except EOFError as a:    print("EOFError")
except:    print("I dont EOFError")
gfc=BeautifulSoup(html)for inks in gfc.findAll("a")  if 'href' in inks.attrs:    print("inks.attrs["href"]")
现在的时间是
2017-8-13-13:38

转载于:https://www.cnblogs.com/haq5201314/p/7353257.html

python网络数据采集(伴奏曲)相关推荐

  1. Python网络数据采集2-wikipedia

    Python网络数据采集2-wikipedia 随机链接跳转 获取维基百科的词条超链接,并随机跳转.可能侧边栏和低栏会有其他链接.这不是我们想要的,所以定位到正文.正文在id为bodyContent的 ...

  2. python数据采集框架_20190715《Python网络数据采集》第 1 章

    <Python网络数据采集>7月8号-7月10号,这三天将该书精读一遍,脑海中有了一个爬虫大体框架后,对于后续学习将更加有全局感. 此前,曾试验看视频学习,但是一个视频基本2小时,全部拿下 ...

  3. Python 网络数据采集(三):采集整个网站

    Python 网络数据采集(三):采集整个网站 1.采集整个网站 2. 完整代码 3. 下一节,继续优化这个"爬虫"程序 参见  作者:高玉涵  时间:2022.5.30 15:3 ...

  4. Python 网络数据采集(中文版)

    Python 网络数据采集(中文版) 链接:https://pan.baidu.com/s/1vXtIUXVFlGLBnA3BbWFAAg 提取码:f2a8

  5. 笔记之Python网络数据采集

    笔记之Python网络数据采集 非原创即采集 一念清净, 烈焰成池, 一念觉醒, 方登彼岸 网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息 通常, ...

  6. 《深入浅出Python》与《Python网络数据采集》读后感

    本学期在课程之外,自主计划学习Python语言以及爬虫知识.书籍方面,采用了O`Reilly的<深入浅出Python>与<Python网络数据采集>.前者用于Python语法的 ...

  7. python网络数据采集学习笔记-前言

    <Python网络数据采集>,英文名<web scraping with python>     Ryan Mitchell著     陶俊杰 陈小莉 译 那老僧道:" ...

  8. python网络数据爬取及分析_《Python网络数据采集》读后总结--第3章开始爬取数据及天善用户关系分析实例...

    这次介绍一下<Python网络数据采集>这本书的第3章内容(Chpt03.开始爬数据的内容), 使用了天善用户关系分析的示例来介绍一下具体实践. 1.第3章内容简介 1-getWikiLi ...

  9. 笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫

    笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫 本资料为最新整理高清带目录pdf,百度网盘下载~~~ 本资料为最新整理高清带目 ...

  10. 《python网络数据采集》读后感 第六章:读取文档

    1.文档编码: 文档编码是一种告诉程序--无论是计算机的操作系统还是 Python 代码--读取文档的规 则.文档编码的方式通常可以根据文件的扩展名进行判断,虽然文件扩展名并不是由编码 确定的,而是由 ...

最新文章

  1. 在Ubuntu 14.04 64bit上下载更新x265源码
  2. linux下MyEclipse 安装
  3. Android 11 Frameworks中引用aar包
  4. 摘自《解析极限编程-拥抱变化》
  5. mongodump 失败且导致mongo服务挂掉【本质原因,wt文件损坏】
  6. SAP CRM Fiori 标准应用 My Account - search by ID 根据 ID 进行搜索的标准功能实现原理
  7. Unity3D4.* NGUI制作动态字库
  8. python编程语言继承_Python面向对象程序设计类的封装与继承用法示例
  9. MySQL配置文件详解
  10. 如何提升Javascript 基础
  11. stm32驱动ili9486液晶显示屏
  12. 近况记录丨脑子错乱!
  13. 20200413 jzoj 普及c组 Loan Repayment
  14. excel表格打印每页都有表头_表头如何自动编号?日常工作中的表格打印常见问题解答...
  15. 角点检测的几种基本方法
  16. 文献阅读经验--以基于深度学习的医学图像配准为例
  17. 八位计算机最小二进制,八位二进制补码最小值
  18. 计算机无法连接到internet的操作,修复无法连接到internet 【运用方式】 的设置步骤...
  19. B2B电子商务网站建设怎么做:B2B系统开发流程、语言、架构解答
  20. 联想电脑 linux BIOS,Ubuntu 17.10让一些联想笔记本电脑的BIOS出现问题

热门文章

  1. 就在这段时间让自己充实起来
  2. 哪些事情瞬间暴露了你的贫穷?
  3. 经常有人问我:我想招个会写文案的,可是好文案真的很难招,自己写吧,又不会……
  4. 昨天和一位成功的创业者聊天,他说了一番话,有价值,与大家分享
  5. 如何在几天时间内快速理解一个陌生行业?
  6. Usually, these regular meetings do not have
  7. 最小路径问题_BFS
  8. linux mysql跑高_linux 下如何查看mysql跑了哪些服务
  9. iif sql_SQL IIF语句概述
  10. sql power bi_在SQL,Power BI和MS Excel中计算移动平均值