python网络数据采集（伴奏曲）

这里是前章，我们做一下预备。之前太多事情没能写博客~。。 (此博客只适合python3x,python2x请自行更改代码)

首先你要有bs4模块

windows下安装:pip3 install bs4，如果你电脑有python2x和python3x的话,在python3x中安装bs4请已管理员的身份运行cmd执行pip3 install bs4安装bs4。

linux下安装：sudo pip3 install bs4

还有urllib.request模块

windows下安装:pip3 install urllib.request,如果你电脑有python2x和python3x的话,在python3x中安装bs4请已管理员的身份运行cmd执行pip3 install urllib.request安装urllib.request模块

例子1：获取源码

from urllib.request import urlopen

from bs4 import BeautifulSoup

html=urlopen("http://wikipedia.org")

dgc=BeautifulSoup(html)

print(dgc)

输出图如下：

这里我忘记加自定义错误了，当然你也可以不加。保险起见还是加

例子二：匹配对应的标签

from urllib.request import urlopen

from bs4 import BeautifulSouptry: html=urlopen("http://dlszx.dgjy.net/")except EOFError as a:    print("404 ")except:    print("404")dgc=BeautifulSoup(html)

fbc=dgc.findAll("img",{"src":"uploadfile/201762105219962.jpg"})print(fbc)

例子3：正则匹配所有对应的标签

不会正则的请去学习

from urllib.request import urlopenimport refrom bs4 import BeautifulSouptry: html=urlopen("http://dlszx.dgjy.net/")except EOFError as a:    print("404 ")except:    print("404")dgc=BeautifulSoup(html)fbc=dgc.findAll("img",{"src":re.compile("img/.*?\.jpg")})for inks in fbc:    print(inks)注意事项！！！：不要拿findAll去搜索引擎匹配，乱的你想死搜索引擎正则匹配要求很高：http:\/\/[a-zA-z].*?\[a-z]

例子4：

匹配网站所有的链接

from urllib.request import urlopenimport refrom bs4 import BeautifulSouptry: html=urlopen("http://wikipeda.org")except EOFError as a:    print("EOFError")

except:    print("I dont EOFError")

gfc=BeautifulSoup(html)for inks in gfc.findAll("a")  if 'href' in inks.attrs:    print("inks.attrs["href"]")

现在的时间是

2017-8-13-13:38

转载于:https://www.cnblogs.com/haq5201314/p/7353257.html

python网络数据采集（伴奏曲）相关推荐

Python网络数据采集2-wikipedia
Python网络数据采集2-wikipedia 随机链接跳转获取维基百科的词条超链接,并随机跳转.可能侧边栏和低栏会有其他链接.这不是我们想要的,所以定位到正文.正文在id为bodyContent的 ...
python数据采集框架_20190715《Python网络数据采集》第 1 章
<Python网络数据采集>7月8号-7月10号,这三天将该书精读一遍,脑海中有了一个爬虫大体框架后,对于后续学习将更加有全局感. 此前,曾试验看视频学习,但是一个视频基本2小时,全部拿下 ...
Python 网络数据采集（三）：采集整个网站
Python 网络数据采集(三):采集整个网站 1.采集整个网站 2. 完整代码 3. 下一节,继续优化这个"爬虫"程序参见作者:高玉涵时间:2022.5.30 15:3 ...
Python 网络数据采集（中文版）
Python 网络数据采集(中文版) 链接:https://pan.baidu.com/s/1vXtIUXVFlGLBnA3BbWFAAg 提取码:f2a8
笔记之Python网络数据采集
笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息通常, ...
《深入浅出Python》与《Python网络数据采集》读后感
本学期在课程之外,自主计划学习Python语言以及爬虫知识.书籍方面,采用了O`Reilly的<深入浅出Python>与<Python网络数据采集>.前者用于Python语法的 ...
python网络数据采集学习笔记-前言
<Python网络数据采集>,英文名<web scraping with python> Ryan Mitchell著陶俊杰陈小莉译那老僧道:" ...
python网络数据爬取及分析_《Python网络数据采集》读后总结--第3章开始爬取数据及天善用户关系分析实例...
这次介绍一下<Python网络数据采集>这本书的第3章内容(Chpt03.开始爬数据的内容), 使用了天善用户关系分析的示例来介绍一下具体实践. 1.第3章内容简介 1-getWikiLi ...
笨办法学Python（第四版）最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫
笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫本资料为最新整理高清带目录pdf,百度网盘下载~~~ 本资料为最新整理高清带目 ...
《python网络数据采集》读后感第六章：读取文档
1.文档编码: 文档编码是一种告诉程序--无论是计算机的操作系统还是 Python 代码--读取文档的规则.文档编码的方式通常可以根据文件的扩展名进行判断,虽然文件扩展名并不是由编码确定的,而是由 ...

python网络数据采集（伴奏曲）

python网络数据采集（伴奏曲）相关推荐

最新文章

热门文章