###准备### 本实例使用辅助工具Fiddler抓取网页数据和使用文档查看工具sublime正则过滤(也可使用其它文档编辑工具),python开发工具使用Pycharm编辑 我们选取搜狐网的新闻页面进行爬取,对搜狐新闻以列表的形式显示出来。首先我们打开Fiddler 添加一个Filters,将搜狐网址放入Filters,在浏览器访问搜狐新闻网并刷新,从Fiddler中选中该访问记录,找出请求数据:

我们将Raw中的内容复制到sublime中:

选取User-Agent中的内容 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'作为我们访问数据的头文件,并选中http://www.sohu.com/c/8/进行访问,可以查看到新闻页面:

我们将http://www.sohu.com/c/8/作为我们爬取数据的url。 在页面中右击查看页面源代码,查看源代码并复制到sublime中,在sublime中进行查找并输入(点击左下角的正则过滤:.*)target="_blank">(.*)可以查看到新闻标题,我们将target="_blank">(.*)作为正则表达式的匹配内容 ###程序实现###

class HandleNews(object):

def __init__(self):

self.request = requests.session()

# self.head = 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \

# 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'

self.header={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',

}

self.newslist = ''

def handle_list(self):

handle_patten=re.compile(r'target="_blank">(.*)')

handle_url='http://www.sohu.com/c/8'

handle_news=self.handle_request(methon='GET',url=handle_url,head=self.header)

self.newslist=re.findall(handle_patten,handle_news)

def handle_request(self,methon,url,head,data=None , info=None):

if methon == 'GET':

handle_respone=self.request.get(url=url,headers=head)

else:

handle_respone=' '

return handle_respone.text

if __name__ == '__main__':

handle=HandleNews()

handle.handle_list()

print(handle.newslist)

其中我们需要引用requests和re模块(用于正则表达式匹配) import requests import re 运行结果:

python爬取网站新闻_Python爬取网站新闻相关推荐

  1. python爬取网页新闻_Python爬取新闻网数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 基本开发环境 Pyth ...

  2. python爬取腾讯新闻_Python采集腾讯新闻实例

    目标是把腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主页上所有链接爬取出来,写到文件里. python在获取html方面十分方 ...

  3. python爬取腾讯新闻_Python 实现腾讯新闻抓取

    原博文 2012-08-14 09:56 − 思路: 1.抓取腾讯新闻列表页面: http://news.qq.com/ 2.提取详细页面的url:http://news.qq.com/a/20120 ...

  4. python爬取学校新闻_Python抓取学院新闻报告

    们发现,我们能够直接在新闻详情页面抓取到我们需要的数据:标题,时间,内容.URL. 好,到现在我们清楚抓取一篇新闻的思路了.但是,如何抓取所有的新闻内容呢? 这显然难不到我们. 我们在新闻栏目的最下方 ...

  5. python爬取地理数据_python爬取所有人位置信息——腾讯位置大数据

    腾讯位置大数据 网站 https://heat.qq.com/ 网站功能介绍 腾讯位置大数据会将提供所有用户使用腾讯位置的数据信息,但没有用户信息(只有位置信息).从这个网站我们可以获取所有使用腾讯位 ...

  6. python爬虫淘宝评论_Python爬取淘宝店铺和评论

    1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...

  7. python软件安装链接电视_Python爬取电影天堂指定电视剧或者电影

    1.分析搜索请求 一位高人曾经说过,想爬取数据,要先分析网站 今天我们爬取电影天堂,有好看的美剧我在上面都能找到,算是很全了. 这个网站的广告出奇的多,用过都知道,点一下搜索就会弹出个窗口,伴随着滑稽 ...

  8. python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?

    开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...

  9. python爬取天气数据_Python爬取历史天气数据

    Python爬取历史天气数据 作者:梅昊铭 1. 导读 之前Mo给大家分享过杭州历年天气情况的数据集,相信有不少小伙伴好奇这些数据是怎么获取.今天Mo就来教大家如何使用Python来进行历史天气数据的 ...

  10. python爬取历史天气_Python 爬取历史天气数据

    Python 爬取历史天气数据 作者:梅昊铭 1. 导读 之前Mo给大家分享过杭州历年天气情况的数据集,相信有不少小伙伴好奇这些数据是怎么获取.今天Mo就来教大家如何使用Python来进行历史天气数据 ...

最新文章

  1. 检查用户是否有权限从ABAP里调用C kernel functions
  2. 将字符串的部分保存,剩余删去,或只保留指定一段子字符串
  3. Java IP地址解析工具ip2region
  4. 服务器装win7没有硬盘模式,联想电脑BIOS里硬盘的SATA,AHCI模式里面怎么没有I...-联想p310工作站装win7,联想电脑工作站...
  5. SWUSTOJ #69 偷菜时间表
  6. 华住季琦谈未来酒店的趋势:传统星级酒店将会逐渐消亡与演变
  7. 天气预报apipython_基于Python的免费天气预报接口查询
  8. win10 android ios,一机多用?Win10可运行安卓和iOS应用
  9. Android集成百度人脸识别(一)基础版SDK
  10. 健身行业大洗牌 Keep还会有未来吗?
  11. excel透视表 统计结果 累加
  12. 全国最先进的期货仓单系统|外盘期货仓单软件|内盘期货仓单软件
  13. nginx环境配置Windows本地测试,测试打包后的代码
  14. BGP团体属性 选路原则
  15. 拥抱Swift吧,骚年!
  16. 程序员的浪漫而简单:新年祝福语
  17. 大数据-phoenix
  18. 【数据库】关系数据库与非关系数据库的优缺点汇总
  19. 如果善于提问,你会厉害很多
  20. 使用nexus搭建局域网私服Maven仓库(Windows版)

热门文章

  1. linux tahoma字体,Linux字体安装与简单美化(实践篇)(转)
  2. 洛谷刷题C语言:数字反转、再分肥皂水、三角形面积、Apples Prologue/苹果和虫子、数的性质
  3. vue项目中实现汉字转拼音缩写
  4. 使用Fluxion搭建钓鱼热点破解WiFi密码
  5. HCU500主轴编码器检测工具
  6. 自动驾驶域控制器话题下的软件系统设计和研发管理
  7. dell12v18a怎么改_几招教你改DELL 12V/18A适配器电压和保护方法
  8. java绘制聊天气泡代码_封装一个canvas画对话气泡的函数
  9. html5 模仿语音聊天气泡,HTML5实现对话气泡动画方法
  10. php 母版页,.NET_ASP.NET 2.0 中的创建母版页,  虽然母版页和内容页功能 - phpStudy...