page = urllib2.urlopen(url)

contents = page.read()

#获得了整个网页的内容也就是源代码

print(contents)

url代表网址,contents代表网址所对应的源代码,urllib2是需要用到的包,以上三句代码就能获得网页的整个源代码

2 获取网页中想要的内容(先要获得网页源代码,再分析网页源代码,找所对应的标签,然后提取出标签中的内容)

2.1 以豆瓣电影排名为例子

网址是http://movie.douban.com/top250?format=text,进入网址后就出现如下的图

然后查看源码,找到对应的内容:(直接按f12)

就得到下面这张图:

然后划出重点

然后开始编写代码:

#coding:utf-8

'''''

@author: 徐松伟

'''

import urllib.request

import re

from bs4 import BeautifulSoup

from distutils.filelist import findall

page = urllib.request.urlopen('http://movie.douban.com/top250?format=text')

contents = page.read()

#print(contents)

soup = BeautifulSoup(contents,"html.parser")

print("豆瓣电影TOP250" + "

" +" 影片名              评分       评价人数     链接 ")

for tag in soup.find_all('div', class_='info'):

# print tag

m_name = tag.find('span', class_='title').get_text()

m_rating_score = float(tag.find('span',class_='rating_num').get_text())

m_people = tag.find('div',class_="star")

m_span = m_people.findAll('span')

m_peoplecount = m_span[3].contents[0]

m_url=tag.find('a').get('href')

print( m_name+"        "  +  str(m_rating_score)   + "           " + m_peoplecount + "    " + m_url )

遇到的问题:

安装相关的库文件,会遇到反爬取 。就是说不能一直爬取 。代码经过多次运行以后就会触动该网站的反爬取。

现在python3.X以后urllib2和urllib合并了 所以导入的时候用  import urllib.request  有什么说的不对的地方请评论指出。

以上就是Python获取网页指定内容(BeautifulSoup工具的使用方法)的全部内容。

python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...相关推荐

  1. python requests 动态加载_Python获取网页中动态加载的数据

    Python获取网页中动态加载的数据 0.XHR 是什么? XHR是 XMLHttpRequest 对象.既Ajax功能实现所依赖的对象,在JQuery中的Ajax是对 XHR的封装. 1.查看异步加 ...

  2. python打开网页存图_python 获取网页图片 保存在本地

    标签:import urllib import string import re def getHtml(url): page=urllib.urlopen(url) html=page.read() ...

  3. python打开浏览器全屏_python 设置网页全屏显示

    备注:安装pyqt 1.sudo apt-get -y install python-qt4 2.sudo apt-get install python-dev 3.sudo apt-get inst ...

  4. Python批量处理lrmx格式文档内指定内容

    Python批量处理lrmx格式文档内指定内容 实现代码: import glob import random xing = [ '赵', '钱', '孙', '李', '周', '吴', '郑', ...

  5. header python 环境信息_python获取网页header头部信息(python小白学习笔记二)

    方法一:代码查看 通过python获取网页的链接url,返回码,以及相关的信息 #对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 import urllib.request ur ...

  6. python读取图片分辨率_python获取网页中所有图片并筛选指定分辨率的方法

    压测时,图片太少,想着下载网页中的图片,然后过滤指定分辨率,但网页中指定分辨率的图片太少了(见下) 后使用格式工厂转换图片 import urllib.request # 导入urllib模块 imp ...

  7. python获取网页图片_Python获取网页上图片下载地址的方法

    本文实例讲述了Python获取网页上图片下载地址的方法.分享给大家供大家参考.具体如下: 这里获取网页上图片的下载地址是正在写的数据采集中的一段,代码如下: #!/user/bin/python3 i ...

  8. pyquery获取不到网页完整源代码_python动态网页爬取:爬取pexel上的图片

    前言 同样的,我们在写一个爬虫前要明确自己想要爬取的东西是什么,明确下载目标数据在浏览器的操作如何 对于动态网页的爬取,在网页地址不变的情况下,我们首先要明确如何获取AJAX请求 首先我们看看这个网站 ...

  9. python提取网页表格信息_python 提取网页表格数据库数据库

    python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...

最新文章

  1. 工业相机参数之帧率相关知识详解
  2. 一个标准的PID算法
  3. 《R数据可视化手册》一1.4 从Excel文件中加载数据
  4. 移动 Azure 资源后如何快速修复 Dashboard
  5. nssl1478-题【dp】
  6. 一步步编写操作系统4 安装x86虚拟机 bochs
  7. 转载于:http://blog.csdn.net/iorikyo/article/details/1314892
  8. 淘宝PK京东:哥刷的不是广告,刷的是存在
  9. 微星主板黑苹果_组装电脑哪个主板好?如何选择电脑主板?2020年电脑主板推荐及分析。...
  10. iphone4刷android,iPhone4如何刷机
  11. PhoneGap VS. Titanium
  12. 网络营销培训:如何进行H5活动宣传?
  13. c++ 高效位运算函数之 __builtin_
  14. Qt 编程 —— 字体对话框(QFontDialog)的使用 【学习笔记】
  15. 【整蛊系列大合集】整蛊又有新套路,遇到这种情况你会怎么办?看完笑死爹了。
  16. QT210 自制bootloader 移植kernel3.4.2 制作ramdisk busybox1.20.2
  17. 大数据和区块链技术是什么关系?
  18. 如何做好自动化运维?自动化运维必备技能有哪些?
  19. 表格文件返回给浏览器下载时不是.xlsx表格格式
  20. Yolo算法-车辆检测

热门文章

  1. 阿里物联网套件在laravel框架中的使用--第一弹
  2. tmail.exe各项命令参数
  3. Linux使用技巧6--Ubuntu笔记本屏幕亮度调节
  4. [Java]SpringBoot2整合mqtt服务器EMQ实现消息订阅发布入库(二)
  5. 修复IE不能正常上网的工具
  6. Dell 服务器 无线网卡,家庭无线互联方案:DELL 戴尔 发布 WiGig无线坞
  7. 铜陵新松工业机器人项目_首期投资约12亿元 新松机器人(苏州)未来科技城项目在苏州相城开工奠基...
  8. 几何坐标转化为极坐标
  9. 露脸了,大衣哥新儿媳科目三一次性通过,开车技术比小伟强多了
  10. 【回馈粉丝】小米平板电脑免费送!!!