python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...

page = urllib2.urlopen(url)

contents = page.read()

#获得了整个网页的内容也就是源代码

print(contents)

url代表网址，contents代表网址所对应的源代码，urllib2是需要用到的包，以上三句代码就能获得网页的整个源代码

2 获取网页中想要的内容(先要获得网页源代码，再分析网页源代码，找所对应的标签，然后提取出标签中的内容)

2.1 以豆瓣电影排名为例子

网址是http://movie.douban.com/top250?format=text，进入网址后就出现如下的图

然后查看源码，找到对应的内容：(直接按f12)

就得到下面这张图：

然后划出重点

然后开始编写代码：

#coding:utf-8

'''''

@author: 徐松伟

'''

import urllib.request

import re

from bs4 import BeautifulSoup

from distutils.filelist import findall

page = urllib.request.urlopen('http://movie.douban.com/top250?format=text')

contents = page.read()

#print(contents)

soup = BeautifulSoup(contents,"html.parser")

print("豆瓣电影TOP250" + "

" +" 影片名评分评价人数链接 ")

for tag in soup.find_all('div', class_='info'):

# print tag

m_name = tag.find('span', class_='title').get_text()

m_rating_score = float(tag.find('span',class_='rating_num').get_text())

m_people = tag.find('div',class_="star")

m_span = m_people.findAll('span')

m_peoplecount = m_span[3].contents[0]

m_url=tag.find('a').get('href')

print( m_name+" " + str(m_rating_score) + " " + m_peoplecount + " " + m_url )

遇到的问题：

安装相关的库文件，会遇到反爬取。就是说不能一直爬取。代码经过多次运行以后就会触动该网站的反爬取。

现在python3.X以后urllib2和urllib合并了所以导入的时候用 import urllib.request 有什么说的不对的地方请评论指出。

以上就是Python获取网页指定内容(BeautifulSoup工具的使用方法)的全部内容。

python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...相关推荐

python requests 动态加载_Python获取网页中动态加载的数据
Python获取网页中动态加载的数据 0.XHR 是什么? XHR是 XMLHttpRequest 对象.既Ajax功能实现所依赖的对象,在JQuery中的Ajax是对 XHR的封装. 1.查看异步加 ...
python打开网页存图_python 获取网页图片保存在本地
标签:import urllib import string import re def getHtml(url): page=urllib.urlopen(url) html=page.read() ...
python打开浏览器全屏_python 设置网页全屏显示
备注:安装pyqt 1.sudo apt-get -y install python-qt4 2.sudo apt-get install python-dev 3.sudo apt-get inst ...
Python批量处理lrmx格式文档内指定内容
Python批量处理lrmx格式文档内指定内容实现代码: import glob import random xing = [ '赵', '钱', '孙', '李', '周', '吴', '郑', ...
header python 环境信息_python获取网页header头部信息（python小白学习笔记二）
方法一:代码查看通过python获取网页的链接url,返回码,以及相关的信息 #对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 import urllib.request ur ...
python读取图片分辨率_python获取网页中所有图片并筛选指定分辨率的方法
压测时,图片太少,想着下载网页中的图片,然后过滤指定分辨率,但网页中指定分辨率的图片太少了(见下) 后使用格式工厂转换图片 import urllib.request # 导入urllib模块 imp ...
python获取网页图片_Python获取网页上图片下载地址的方法
本文实例讲述了Python获取网页上图片下载地址的方法.分享给大家供大家参考.具体如下: 这里获取网页上图片的下载地址是正在写的数据采集中的一段,代码如下: #!/user/bin/python3 i ...
pyquery获取不到网页完整源代码_python动态网页爬取：爬取pexel上的图片
前言同样的,我们在写一个爬虫前要明确自己想要爬取的东西是什么,明确下载目标数据在浏览器的操作如何对于动态网页的爬取,在网页地址不变的情况下,我们首先要明确如何获取AJAX请求首先我们看看这个网站 ...
python提取网页表格信息_python 提取网页表格数据库数据库
python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库网络通用urllib -网络库(stdlib). ...

python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...

python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...相关推荐

最新文章

热门文章