python爬虫新闻网页的浏览量转载量,Python爬取新闻网标题、日期、点击量

最近接触Python爬虫，以爬取学校新闻网新闻标题、日期、点击量为例，记录一下工作进度

目前，感觉Python爬虫的过程无非两步：

Step1.获取网页url(利用Python库函数import urllib2)

Step2.利用正则表达式对html中的字符串进行匹配、查找等操作

自我感觉sublime text2编辑器真心好用，部署Python后不会像WingIDE、notepad++那样存在那么多头疼的小问题，推荐使用

学校新闻网：西南交通大学新闻网--交大新闻

# -*- coding: UTF-8 -*-

import urllib2

import sys

import re

import os

#***********fuction define************#

def extract_url(info):

rege="

"#fei tan lan mo shi

re_url = re.findall(rege, info)

n=len(re_url)

for i in range(0,n):

re_url[i]="http://news.swjtu.edu.cn/"+re_url[i]

return re_url

def extract_title(sub_web):

re_key = "

\r\n (.*)\r\n

title = re.findall(re_key,sub_web)

return title

def extract_date(sub_web):

re_key = "日期：(.*?) "

date = re.findall(re_key,sub_web)

return date

def extract_counts(sub_web):

re_key = "点击数：(.*?) "

counts = re.findall(re_key,sub_web)

return counts

#*************main**************#

fp=open('output.txt','w')

content = urllib2.urlopen('http://news.swjtu.edu.cn/ShowList-82-0-1.shtml').read()

url=extract_url(content)

string=""

n=len(url)

print n

for i in range(0,n):

sub_web = urllib2.urlopen(url[i]).read()

sub_title = extract_title(sub_web)

string+=sub_title[0]

string+=' '

sub_date = extract_date(sub_web)

string+="日期："+sub_date[0]

string+=' '

sub_counts = extract_counts(sub_web)

string+="点击数："+sub_counts[0]

string+='\n'

# print string

print string

fp.close()

附：Python爬虫学习系列教程

python爬虫新闻网页的浏览量转载量,Python爬取新闻网标题、日期、点击量相关推荐

Python爬虫新手入门教学（十八）：爬取yy全站小视频
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫 | 对广州市政府数据统一开放平台数据的爬取
Python爬虫 | 对广州市政府数据统一开放平台数据的爬取简单爬虫网页分析爬虫代码简单爬虫本次爬虫演示的是对广州市政府数据统一开放平台数据的爬取网页分析我们先到url=' http ...
Python爬虫系列之多多买菜小程序数据爬取
Python爬虫系列之多多买菜小程序数据爬取小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码代码仅供学习交流, ...
Python爬虫新手入门教学（十六）：爬取好看视频小视频
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（十五）：爬取网站音乐素材
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
Python爬虫新手入门教学（二十）：爬取A站m3u8视频格式视频
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前文内容 Python爬虫新手入门教学(一):爬取豆瓣电影排行信息 Python爬虫新手入门 ...
python爬虫实践——零基础快速入门（四）爬取小猪租房信息
上篇文章我们讲到python爬虫实践--零基础快速入门(三)爬取豆瓣电影接下来我们爬取小猪短租租房信息.进入主页后选择深圳地区的位置.地址如下: http://sz.xiaozhu.com/ 一,标 ...
python爬虫和数据分析的书籍_豆瓣书籍数据爬取与分析
前言 17年底,买了清华大学出版社出版的<Hadoop权威指南>(第四版)学习,没想到这本书质量之差,超越我的想象,然后上网一看,也是骂声一片.从那个时候其就对出版社综合实力很感兴趣,想通 ...
「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫
本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...

python爬虫新闻网页的浏览量转载量,Python爬取新闻网标题、日期、点击量

\r\n (.*)\r\n

python爬虫新闻网页的浏览量转载量,Python爬取新闻网标题、日期、点击量相关推荐

最新文章

热门文章