python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...
page = urllib2.urlopen(url)
contents = page.read()
#获得了整个网页的内容也就是源代码
print(contents)
url代表网址,contents代表网址所对应的源代码,urllib2是需要用到的包,以上三句代码就能获得网页的整个源代码
2 获取网页中想要的内容(先要获得网页源代码,再分析网页源代码,找所对应的标签,然后提取出标签中的内容)
2.1 以豆瓣电影排名为例子
网址是http://movie.douban.com/top250?format=text,进入网址后就出现如下的图
然后查看源码,找到对应的内容:(直接按f12)
就得到下面这张图:
然后划出重点
然后开始编写代码:
#coding:utf-8
'''''
@author: 徐松伟
'''
import urllib.request
import re
from bs4 import BeautifulSoup
from distutils.filelist import findall
page = urllib.request.urlopen('http://movie.douban.com/top250?format=text')
contents = page.read()
#print(contents)
soup = BeautifulSoup(contents,"html.parser")
print("豆瓣电影TOP250" + "
" +" 影片名 评分 评价人数 链接 ")
for tag in soup.find_all('div', class_='info'):
# print tag
m_name = tag.find('span', class_='title').get_text()
m_rating_score = float(tag.find('span',class_='rating_num').get_text())
m_people = tag.find('div',class_="star")
m_span = m_people.findAll('span')
m_peoplecount = m_span[3].contents[0]
m_url=tag.find('a').get('href')
print( m_name+" " + str(m_rating_score) + " " + m_peoplecount + " " + m_url )
遇到的问题:
安装相关的库文件,会遇到反爬取 。就是说不能一直爬取 。代码经过多次运行以后就会触动该网站的反爬取。
现在python3.X以后urllib2和urllib合并了 所以导入的时候用 import urllib.request 有什么说的不对的地方请评论指出。
以上就是Python获取网页指定内容(BeautifulSoup工具的使用方法)的全部内容。
python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...相关推荐
- python requests 动态加载_Python获取网页中动态加载的数据
Python获取网页中动态加载的数据 0.XHR 是什么? XHR是 XMLHttpRequest 对象.既Ajax功能实现所依赖的对象,在JQuery中的Ajax是对 XHR的封装. 1.查看异步加 ...
- python打开网页存图_python 获取网页图片 保存在本地
标签:import urllib import string import re def getHtml(url): page=urllib.urlopen(url) html=page.read() ...
- python打开浏览器全屏_python 设置网页全屏显示
备注:安装pyqt 1.sudo apt-get -y install python-qt4 2.sudo apt-get install python-dev 3.sudo apt-get inst ...
- Python批量处理lrmx格式文档内指定内容
Python批量处理lrmx格式文档内指定内容 实现代码: import glob import random xing = [ '赵', '钱', '孙', '李', '周', '吴', '郑', ...
- header python 环境信息_python获取网页header头部信息(python小白学习笔记二)
方法一:代码查看 通过python获取网页的链接url,返回码,以及相关的信息 #对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 import urllib.request ur ...
- python读取图片分辨率_python获取网页中所有图片并筛选指定分辨率的方法
压测时,图片太少,想着下载网页中的图片,然后过滤指定分辨率,但网页中指定分辨率的图片太少了(见下) 后使用格式工厂转换图片 import urllib.request # 导入urllib模块 imp ...
- python获取网页图片_Python获取网页上图片下载地址的方法
本文实例讲述了Python获取网页上图片下载地址的方法.分享给大家供大家参考.具体如下: 这里获取网页上图片的下载地址是正在写的数据采集中的一段,代码如下: #!/user/bin/python3 i ...
- pyquery获取不到网页完整源代码_python动态网页爬取:爬取pexel上的图片
前言 同样的,我们在写一个爬虫前要明确自己想要爬取的东西是什么,明确下载目标数据在浏览器的操作如何 对于动态网页的爬取,在网页地址不变的情况下,我们首先要明确如何获取AJAX请求 首先我们看看这个网站 ...
- python提取网页表格信息_python 提取网页表格数据库数据库
python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...
最新文章
- 工业相机参数之帧率相关知识详解
- 一个标准的PID算法
- 《R数据可视化手册》一1.4 从Excel文件中加载数据
- 移动 Azure 资源后如何快速修复 Dashboard
- nssl1478-题【dp】
- 一步步编写操作系统4 安装x86虚拟机 bochs
- 转载于:http://blog.csdn.net/iorikyo/article/details/1314892
- 淘宝PK京东:哥刷的不是广告,刷的是存在
- 微星主板黑苹果_组装电脑哪个主板好?如何选择电脑主板?2020年电脑主板推荐及分析。...
- iphone4刷android,iPhone4如何刷机
- PhoneGap VS. Titanium
- 网络营销培训:如何进行H5活动宣传?
- c++ 高效位运算函数之 __builtin_
- Qt 编程 —— 字体对话框(QFontDialog)的使用 【学习笔记】
- 【整蛊系列大合集】整蛊又有新套路,遇到这种情况你会怎么办?看完笑死爹了。
- QT210 自制bootloader 移植kernel3.4.2 制作ramdisk busybox1.20.2
- 大数据和区块链技术是什么关系?
- 如何做好自动化运维?自动化运维必备技能有哪些?
- 表格文件返回给浏览器下载时不是.xlsx表格格式
- Yolo算法-车辆检测
热门文章
- 阿里物联网套件在laravel框架中的使用--第一弹
- tmail.exe各项命令参数
- Linux使用技巧6--Ubuntu笔记本屏幕亮度调节
- [Java]SpringBoot2整合mqtt服务器EMQ实现消息订阅发布入库(二)
- 修复IE不能正常上网的工具
- Dell 服务器 无线网卡,家庭无线互联方案:DELL 戴尔 发布 WiGig无线坞
- 铜陵新松工业机器人项目_首期投资约12亿元 新松机器人(苏州)未来科技城项目在苏州相城开工奠基...
- 几何坐标转化为极坐标
- 露脸了,大衣哥新儿媳科目三一次性通过,开车技术比小伟强多了
- 【回馈粉丝】小米平板电脑免费送!!!