python爬取新闻网站标题_python如何正确抓取网页标题
有一个简单的错误。HTML文件不能用正则表达式parse,因为他的文法比正则表达式高级,具体原因参考这里。
推荐解析这种HTML用一些第三方库,例如mechanize
我的代码如下:import mechanize
import cookielib
if __name__=='__main__':
br = mechanize.Browser()
br.set_cookiejar(cookielib.LWPCookieJar()) # Cookie jar
br.set_handle_equiv(True) # Browser Option
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
br.open("http://apple.com")
print br.title()
输出为Apple
对于mechanize的详细使用,参考这里
安装mechanize,就easy_install一下就好。
python爬取新闻网站标题_python如何正确抓取网页标题相关推荐
- python数据库抓取并保存_python:微信消息抓取、转发和数据库存储及源码
前言 python的强大在于丰富的类库,经常会看到几行代码就可以实现非常强大的功能.它可以做爬虫.AI.自动化测试.小工具(抢票.抓包.微信消息抓取)等等. 本次我们来讲讲怎么来抓取微信消息?抓取微信 ...
- python音乐的数据抓取与分析_Python练习之抓取QQ音乐数据
[一.目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二.需要的库] 主要涉及的库有:requests.json.o ...
- Python爬虫采集抓取:Python3.x+Fiddler 采集抓取 APP 数据
随着移动互联网的市场份额逐步扩大,手机 APP 已经占据我们的生活,以往的数据分析都借助于爬虫采集爬取网页数据进行分析,但是新兴的产品有的只有 APP,并没有网页端这对于想要提取数据的我们就遇到了些问 ...
- Python学习笔记——爬虫原理与Requests数据抓取
目录 为什么要做网络爬虫? 通用爬虫和聚焦爬虫 HTTP和HTTPS 客户端HTTP请求 请求方法 HTTP请求主要分为Get和Post两种方法 常用的请求报头 1. Host (主机和端口号) 2. ...
- python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
- 小猪的Python学习之旅 —— 14.项目实战:抓取豆瓣音乐Top 250数据存到Excel中
小猪的Python学习之旅 -- 14.项目实战:抓取豆瓣音乐Top 250数据存到Excel中 标签:Python 一句话概括本文: 利用Excel存储爬到的抓取豆瓣音乐Top 250数据信息,还有 ...
- Python 3.X 要使用urllib.request 来抓取网络资源。转
Python 3.X 要使用urllib.request 来抓取网络资源. 最简单的方式: #coding=utf-8 import urllib.request response = urllib. ...
- 蜘蛛能抓取thinkphp的html页面,搜索引擎的蜘蛛是如何爬的,如何吸引蜘蛛来抓取页面...
搜索引擎的蜘蛛是如何爬的,如何吸引蜘蛛来抓取页面 搜索引擎的工作过程大体可以分成三个阶段: (1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问页面,读取页面HTML代码,存到数据库. (2)预处理: ...
- python爬虫之Ajax动态加载数据抓取--豆瓣电影/腾讯招聘
动态加载数据抓取-Ajax 特点 1.右键 -> 查看网页源码中没有具体数据 2.滚动鼠标滑轮或其他动作时加载 抓取 1.F12打开控制台,页面动作抓取网络数据包 2.抓取json文件URL地址 ...
最新文章
- linux 占用缓存前10_Linux 中的零拷贝技术
- 8-7复习 stl常用算法
- 使用Nancy打造TaskManager2.0管理系统
- 静态编译和动态编译区别
- 用一张图片告诉你芯片设计
- 标签管理体系之业务应用
- 苹果 Mac 电脑将采用自研芯片、App Store 上线“小程序”,WWDC20 为开发者带来了什么 ?
- java性能检测工具_老李分享:JAVA性能监控工具
- linux NFS共享
- 数据挖掘概念与技术复习
- 实用性超高的工具箱多功能微信小程序源码下载支持流量主
- 图论及其应用:第二次作业
- 【Vue脚手架安装教程】
- 人民币大写金额转换C#方法
- Luogu3403: 跳楼机
- 北京地铁2015年规划(清晰、大图、可下载)
- dhcp failover linux,Centos7 安装 DHCP 4.1 服务器配置及热备
- wishbone bus
- 使用Xcode的Instruments检测内存泄漏
- 老友记台词中英文对照Part1