python网络数据采集(伴奏曲)
这里是前章,我们做一下预备。之前太多事情没能写博客~。。 (此博客只适合python3x,python2x请自行更改代码)
首先你要有bs4模块
windows下安装:pip3 install bs4,如果你电脑有python2x和python3x的话,在python3x中安装bs4请已管理员的身份运行cmd执行pip3 install bs4安装bs4。
linux下安装:sudo pip3 install bs4
还有urllib.request模块
windows下安装:pip3 install urllib.request,如果你电脑有python2x和python3x的话,在python3x中安装bs4请已管理员的身份运行cmd执行pip3 install urllib.request安装urllib.request模块
例子1:获取源码
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://wikipedia.org")
dgc=BeautifulSoup(html)
print(dgc)
输出图如下:
这里我忘记加自定义错误了,当然你也可以不加。保险起见还是加
例子二:匹配对应的标签
from urllib.request import urlopen from bs4 import BeautifulSouptry: html=urlopen("http://dlszx.dgjy.net/")except EOFError as a: print("404 ")except: print("404")dgc=BeautifulSoup(html)
fbc=dgc.findAll("img",{"src":"uploadfile/201762105219962.jpg"})print(fbc)
例子3:正则匹配所有对应的标签
不会正则的请去学习
from urllib.request import urlopenimport refrom bs4 import BeautifulSouptry: html=urlopen("http://dlszx.dgjy.net/")except EOFError as a: print("404 ")except: print("404")dgc=BeautifulSoup(html)fbc=dgc.findAll("img",{"src":re.compile("img/.*?\.jpg")})for inks in fbc: print(inks)注意事项!!!:不要拿findAll去搜索引擎匹配,乱的你想死搜索引擎正则匹配要求很高:http:\/\/[a-zA-z].*?\[a-z]
例子4:
匹配网站所有的链接
from urllib.request import urlopenimport refrom bs4 import BeautifulSouptry: html=urlopen("http://wikipeda.org")except EOFError as a: print("EOFError")
except: print("I dont EOFError")
gfc=BeautifulSoup(html)for inks in gfc.findAll("a") if 'href' in inks.attrs: print("inks.attrs["href"]")
现在的时间是
2017-8-13-13:38
转载于:https://www.cnblogs.com/haq5201314/p/7353257.html
python网络数据采集(伴奏曲)相关推荐
- Python网络数据采集2-wikipedia
Python网络数据采集2-wikipedia 随机链接跳转 获取维基百科的词条超链接,并随机跳转.可能侧边栏和低栏会有其他链接.这不是我们想要的,所以定位到正文.正文在id为bodyContent的 ...
- python数据采集框架_20190715《Python网络数据采集》第 1 章
<Python网络数据采集>7月8号-7月10号,这三天将该书精读一遍,脑海中有了一个爬虫大体框架后,对于后续学习将更加有全局感. 此前,曾试验看视频学习,但是一个视频基本2小时,全部拿下 ...
- Python 网络数据采集(三):采集整个网站
Python 网络数据采集(三):采集整个网站 1.采集整个网站 2. 完整代码 3. 下一节,继续优化这个"爬虫"程序 参见 作者:高玉涵 时间:2022.5.30 15:3 ...
- Python 网络数据采集(中文版)
Python 网络数据采集(中文版) 链接:https://pan.baidu.com/s/1vXtIUXVFlGLBnA3BbWFAAg 提取码:f2a8
- 笔记之Python网络数据采集
笔记之Python网络数据采集 非原创即采集 一念清净, 烈焰成池, 一念觉醒, 方登彼岸 网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息 通常, ...
- 《深入浅出Python》与《Python网络数据采集》读后感
本学期在课程之外,自主计划学习Python语言以及爬虫知识.书籍方面,采用了O`Reilly的<深入浅出Python>与<Python网络数据采集>.前者用于Python语法的 ...
- python网络数据采集学习笔记-前言
<Python网络数据采集>,英文名<web scraping with python> Ryan Mitchell著 陶俊杰 陈小莉 译 那老僧道:" ...
- python网络数据爬取及分析_《Python网络数据采集》读后总结--第3章开始爬取数据及天善用户关系分析实例...
这次介绍一下<Python网络数据采集>这本书的第3章内容(Chpt03.开始爬数据的内容), 使用了天善用户关系分析的示例来介绍一下具体实践. 1.第3章内容简介 1-getWikiLi ...
- 笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫
笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫 本资料为最新整理高清带目录pdf,百度网盘下载~~~ 本资料为最新整理高清带目 ...
- 《python网络数据采集》读后感 第六章:读取文档
1.文档编码: 文档编码是一种告诉程序--无论是计算机的操作系统还是 Python 代码--读取文档的规 则.文档编码的方式通常可以根据文件的扩展名进行判断,虽然文件扩展名并不是由编码 确定的,而是由 ...
最新文章
- 在Ubuntu 14.04 64bit上下载更新x265源码
- linux下MyEclipse 安装
- Android 11 Frameworks中引用aar包
- 摘自《解析极限编程-拥抱变化》
- mongodump 失败且导致mongo服务挂掉【本质原因,wt文件损坏】
- SAP CRM Fiori 标准应用 My Account - search by ID 根据 ID 进行搜索的标准功能实现原理
- Unity3D4.* NGUI制作动态字库
- python编程语言继承_Python面向对象程序设计类的封装与继承用法示例
- MySQL配置文件详解
- 如何提升Javascript 基础
- stm32驱动ili9486液晶显示屏
- 近况记录丨脑子错乱!
- 20200413 jzoj 普及c组 Loan Repayment
- excel表格打印每页都有表头_表头如何自动编号?日常工作中的表格打印常见问题解答...
- 角点检测的几种基本方法
- 文献阅读经验--以基于深度学习的医学图像配准为例
- 八位计算机最小二进制,八位二进制补码最小值
- 计算机无法连接到internet的操作,修复无法连接到internet
【运用方式】
的设置步骤...
- B2B电子商务网站建设怎么做:B2B系统开发流程、语言、架构解答
- 联想电脑 linux BIOS,Ubuntu 17.10让一些联想笔记本电脑的BIOS出现问题
热门文章
- 就在这段时间让自己充实起来
- 哪些事情瞬间暴露了你的贫穷?
- 经常有人问我:我想招个会写文案的,可是好文案真的很难招,自己写吧,又不会……
- 昨天和一位成功的创业者聊天,他说了一番话,有价值,与大家分享
- 如何在几天时间内快速理解一个陌生行业?
- Usually, these regular meetings do not have
- 最小路径问题_BFS
- linux mysql跑高_linux 下如何查看mysql跑了哪些服务
- iif sql_SQL IIF语句概述
- sql power bi_在SQL,Power BI和MS Excel中计算移动平均值