python爬虫新闻网页的浏览量转载量,Python爬取新闻网标题、日期、点击量
最近接触Python爬虫,以爬取学校新闻网新闻标题、日期、点击量为例,记录一下工作进度
目前,感觉Python爬虫的过程无非两步:
Step1.获取网页url(利用Python库函数import urllib2)
Step2.利用正则表达式对html中的字符串进行匹配、查找等操作
自我感觉sublime text2编辑器真心好用,部署Python后不会像WingIDE、notepad++那样存在那么多头疼的小问题,推荐使用
学校新闻网:西南交通大学新闻网--交大新闻
# -*- coding: UTF-8 -*-
import urllib2
import sys
import re
import os
#***********fuction define************#
def extract_url(info):
rege="
"#fei tan lan mo shi
re_url = re.findall(rege, info)
n=len(re_url)
for i in range(0,n):
re_url[i]="http://news.swjtu.edu.cn/"+re_url[i]
return re_url
def extract_title(sub_web):
re_key = "
\r\n (.*)\r\n
"
title = re.findall(re_key,sub_web)
return title
def extract_date(sub_web):
re_key = "日期:(.*?) "
date = re.findall(re_key,sub_web)
return date
def extract_counts(sub_web):
re_key = "点击数:(.*?) "
counts = re.findall(re_key,sub_web)
return counts
#*************main**************#
fp=open('output.txt','w')
content = urllib2.urlopen('http://news.swjtu.edu.cn/ShowList-82-0-1.shtml').read()
url=extract_url(content)
string=""
n=len(url)
print n
for i in range(0,n):
sub_web = urllib2.urlopen(url[i]).read()
sub_title = extract_title(sub_web)
string+=sub_title[0]
string+=' '
sub_date = extract_date(sub_web)
string+="日期:"+sub_date[0]
string+=' '
sub_counts = extract_counts(sub_web)
string+="点击数:"+sub_counts[0]
string+='\n'
# print string
print string
fp.close()
附:Python爬虫学习系列教程
python爬虫新闻网页的浏览量转载量,Python爬取新闻网标题、日期、点击量相关推荐
- Python爬虫新手入门教学(十八):爬取yy全站小视频
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
- Python爬虫 | 对广州市政府数据统一开放平台数据的爬取
Python爬虫 | 对广州市政府数据统一开放平台数据的爬取 简单爬虫 网页分析 爬虫代码 简单爬虫 本次爬虫演示的是对 广州市政府数据统一开放平台 数据的爬取 网页分析 我们先到url=' http ...
- Python爬虫系列之多多买菜小程序数据爬取
Python爬虫系列之多多买菜小程序数据爬取 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流, ...
- Python爬虫新手入门教学(十六):爬取好看视频小视频
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
- Python爬虫新手入门教学(十五):爬取网站音乐素材
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
- Python爬虫新手入门教学(二十):爬取A站m3u8视频格式视频
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前文内容 Python爬虫新手入门教学(一):爬取豆瓣电影排行信息 Python爬虫新手入门 ...
- python爬虫实践——零基础快速入门(四)爬取小猪租房信息
上篇文章我们讲到python爬虫实践--零基础快速入门(三)爬取豆瓣电影 接下来我们爬取小猪短租租房信息.进入主页后选择深圳地区的位置.地址如下: http://sz.xiaozhu.com/ 一,标 ...
- python爬虫和数据分析的书籍_豆瓣书籍数据爬取与分析
前言 17年底,买了清华大学出版社出版的<Hadoop权威指南>(第四版)学习,没想到这本书质量之差,超越我的想象,然后上网一看,也是骂声一片.从那个时候其就对出版社综合实力很感兴趣,想通 ...
- 「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫
本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...
最新文章
- oracle视图(转)
- 使用tortoise git管理gitolite版本库
- loadClass和forName 的区别
- linux运维安全方案,LINUX 安全运维 (一)
- 如何用php采集照片,使用PHP采集远程图片
- 使用logrotate切割nginx日志文件,其他日志文件切割类似
- 英语不会读怎么办?它来教你……
- mysql to data_mysql str_to_date 字符串转换为日期
- python 读取地震道头数据_【Python】OGR库(1):读取矢量数据
- ros基础知识(1)
- python面向对象编程指南 脚本之家_python对象及面向对象技术详解
- 深度学习2.0-41.GRU原理及实战
- python语法学习第三天--列表
- 在浏览器上播放虚幻引擎:像素流前端教程
- 计算机网络管理员二级考试题,计算机网络管理员(二级)操作鉴定试题A
- 网站打开速度慢如何解决
- 使用html制作一个旅游网站
- [渝粤题库]西北工业大学材料力学(更新)
- Matlab二维图形绘制与图形处理
- 如何区别标准POE交换机和非标POE交换机
热门文章
- 单元测试中简单使用Mockito解决Spring Bean依赖树问题
- QT5.9连接MySQL5.7解决QSqlDatabase: QMYSQL driver not loaded问题
- InsecureRequestWarning: Unverified HTTPS request is being made.解决方法
- 解决plsql中中文乱码问题
- 是清单 Dog List的子类 Animal ? 为什么Java泛型不是隐式多态的?
- win11白屏死机怎么办 Windows11白屏死机的解决方法
- 补间动画android
- python竞赛试题及答案_【技术分享】用python解NOIP竞赛题
- 用python直接调用asr技术_python中asr
- pycharm配置python第三方库_解决pycharm每次新建项目都要重新安装一些第三方库的问题...