有一个简单的错误。HTML文件不能用正则表达式parse,因为他的文法比正则表达式高级,具体原因参考这里。

推荐解析这种HTML用一些第三方库,例如mechanize

我的代码如下:import mechanize

import cookielib

if __name__=='__main__':

br = mechanize.Browser()

br.set_cookiejar(cookielib.LWPCookieJar()) # Cookie jar

br.set_handle_equiv(True) # Browser Option

br.set_handle_gzip(True)

br.set_handle_redirect(True)

br.set_handle_referer(True)

br.set_handle_robots(False)

br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

br.open("http://apple.com")

print br.title()

输出为Apple

对于mechanize的详细使用,参考这里

安装mechanize,就easy_install一下就好。

python爬取新闻网站标题_python如何正确抓取网页标题相关推荐

  1. python数据库抓取并保存_python:微信消息抓取、转发和数据库存储及源码

    前言 python的强大在于丰富的类库,经常会看到几行代码就可以实现非常强大的功能.它可以做爬虫.AI.自动化测试.小工具(抢票.抓包.微信消息抓取)等等. 本次我们来讲讲怎么来抓取微信消息?抓取微信 ...

  2. python音乐的数据抓取与分析_Python练习之抓取QQ音乐数据

    [一.目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二.需要的库] 主要涉及的库有:requests.json.o ...

  3. Python爬虫采集抓取:Python3.x+Fiddler 采集抓取 APP 数据

    随着移动互联网的市场份额逐步扩大,手机 APP 已经占据我们的生活,以往的数据分析都借助于爬虫采集爬取网页数据进行分析,但是新兴的产品有的只有 APP,并没有网页端这对于想要提取数据的我们就遇到了些问 ...

  4. Python学习笔记——爬虫原理与Requests数据抓取

    目录 为什么要做网络爬虫? 通用爬虫和聚焦爬虫 HTTP和HTTPS 客户端HTTP请求 请求方法 HTTP请求主要分为Get和Post两种方法 常用的请求报头 1. Host (主机和端口号) 2. ...

  5. python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取

    本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...

  6. 小猪的Python学习之旅 —— 14.项目实战:抓取豆瓣音乐Top 250数据存到Excel中

    小猪的Python学习之旅 -- 14.项目实战:抓取豆瓣音乐Top 250数据存到Excel中 标签:Python 一句话概括本文: 利用Excel存储爬到的抓取豆瓣音乐Top 250数据信息,还有 ...

  7. Python 3.X 要使用urllib.request 来抓取网络资源。转

    Python 3.X 要使用urllib.request 来抓取网络资源. 最简单的方式: #coding=utf-8 import urllib.request response = urllib. ...

  8. 蜘蛛能抓取thinkphp的html页面,搜索引擎的蜘蛛是如何爬的,如何吸引蜘蛛来抓取页面...

    搜索引擎的蜘蛛是如何爬的,如何吸引蜘蛛来抓取页面 搜索引擎的工作过程大体可以分成三个阶段: (1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问页面,读取页面HTML代码,存到数据库. (2)预处理: ...

  9. python爬虫之Ajax动态加载数据抓取--豆瓣电影/腾讯招聘

    动态加载数据抓取-Ajax 特点 1.右键 -> 查看网页源码中没有具体数据 2.滚动鼠标滑轮或其他动作时加载 抓取 1.F12打开控制台,页面动作抓取网络数据包 2.抓取json文件URL地址 ...

最新文章

  1. linux 占用缓存前10_Linux 中的零拷贝技术
  2. 8-7复习 stl常用算法
  3. 使用Nancy打造TaskManager2.0管理系统
  4. 静态编译和动态编译区别
  5. 用一张图片告诉你芯片设计
  6. 标签管理体系之业务应用
  7. 苹果 Mac 电脑将采用自研芯片、App Store 上线“小程序”,WWDC20 为开发者带来了什么 ?
  8. java性能检测工具_老李分享:JAVA性能监控工具
  9. linux NFS共享
  10. 数据挖掘概念与技术复习
  11. 实用性超高的工具箱多功能微信小程序源码下载支持流量主
  12. 图论及其应用:第二次作业
  13. 【Vue脚手架安装教程】
  14. 人民币大写金额转换C#方法
  15. Luogu3403: 跳楼机
  16. 北京地铁2015年规划(清晰、大图、可下载)
  17. dhcp failover linux,Centos7 安装 DHCP 4.1 服务器配置及热备
  18. wishbone bus
  19. 使用Xcode的Instruments检测内存泄漏
  20. 老友记台词中英文对照Part1

热门文章

  1. [QGLViewer]3D场景鼠标点击位置
  2. 创建laravel项目
  3. 使用python 对图片进行水印,保护自己写的文章
  4. thinkphp单入口和多入口的访问方法
  5. mysql连接非常慢的觖决办法及其它常见问题解决办法
  6. bzoj 2121 DP
  7. java简单自定义Annotation
  8. .Net Micro Framework导航总贴(新手必看)
  9. 【转】关键字过滤算法
  10. x264编码参数大测试:08 subme与指定码率(1000Kbps)