最近接触Python爬虫,以爬取学校新闻网新闻标题、日期、点击量为例,记录一下工作进度

目前,感觉Python爬虫的过程无非两步:

Step1.获取网页url(利用Python库函数import urllib2)

Step2.利用正则表达式对html中的字符串进行匹配、查找等操作

自我感觉sublime text2编辑器真心好用,部署Python后不会像WingIDE、notepad++那样存在那么多头疼的小问题,推荐使用

学校新闻网:西南交通大学新闻网--交大新闻

# -*- coding: UTF-8 -*-

import urllib2

import sys

import re

import os

#***********fuction define************#

def extract_url(info):

rege="

"#fei tan lan mo shi

re_url = re.findall(rege, info)

n=len(re_url)

for i in range(0,n):

re_url[i]="http://news.swjtu.edu.cn/"+re_url[i]

return re_url

def extract_title(sub_web):

re_key = "

\r\n (.*)\r\n

"

title = re.findall(re_key,sub_web)

return title

def extract_date(sub_web):

re_key = "日期:(.*?)  "

date = re.findall(re_key,sub_web)

return date

def extract_counts(sub_web):

re_key = "点击数:(.*?)  "

counts = re.findall(re_key,sub_web)

return counts

#*************main**************#

fp=open('output.txt','w')

content = urllib2.urlopen('http://news.swjtu.edu.cn/ShowList-82-0-1.shtml').read()

url=extract_url(content)

string=""

n=len(url)

print n

for i in range(0,n):

sub_web = urllib2.urlopen(url[i]).read()

sub_title = extract_title(sub_web)

string+=sub_title[0]

string+=' '

sub_date = extract_date(sub_web)

string+="日期:"+sub_date[0]

string+=' '

sub_counts = extract_counts(sub_web)

string+="点击数:"+sub_counts[0]

string+='\n'

# print string

print string

fp.close()

附:Python爬虫学习系列教程

python爬虫新闻网页的浏览量转载量,Python爬取新闻网标题、日期、点击量相关推荐

  1. Python爬虫新手入门教学(十八):爬取yy全站小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  2. Python爬虫 | 对广州市政府数据统一开放平台数据的爬取

    Python爬虫 | 对广州市政府数据统一开放平台数据的爬取 简单爬虫 网页分析 爬虫代码 简单爬虫 本次爬虫演示的是对 广州市政府数据统一开放平台 数据的爬取 网页分析 我们先到url=' http ...

  3. Python爬虫系列之多多买菜小程序数据爬取

    Python爬虫系列之多多买菜小程序数据爬取 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流, ...

  4. Python爬虫新手入门教学(十六):爬取好看视频小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  5. Python爬虫新手入门教学(十五):爬取网站音乐素材

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  6. Python爬虫新手入门教学(二十):爬取A站m3u8视频格式视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前文内容 Python爬虫新手入门教学(一):爬取豆瓣电影排行信息 Python爬虫新手入门 ...

  7. python爬虫实践——零基础快速入门(四)爬取小猪租房信息

    上篇文章我们讲到python爬虫实践--零基础快速入门(三)爬取豆瓣电影 接下来我们爬取小猪短租租房信息.进入主页后选择深圳地区的位置.地址如下: http://sz.xiaozhu.com/ 一,标 ...

  8. python爬虫和数据分析的书籍_豆瓣书籍数据爬取与分析

    前言 17年底,买了清华大学出版社出版的<Hadoop权威指南>(第四版)学习,没想到这本书质量之差,超越我的想象,然后上网一看,也是骂声一片.从那个时候其就对出版社综合实力很感兴趣,想通 ...

  9. 「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫

    本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...

最新文章

  1. oracle视图(转)
  2. 使用tortoise git管理gitolite版本库
  3. loadClass和forName 的区别
  4. linux运维安全方案,LINUX 安全运维 (一)
  5. 如何用php采集照片,使用PHP采集远程图片
  6. 使用logrotate切割nginx日志文件,其他日志文件切割类似
  7. 英语不会读怎么办?它来教你……
  8. mysql to data_mysql str_to_date 字符串转换为日期
  9. python 读取地震道头数据_【Python】OGR库(1):读取矢量数据
  10. ros基础知识(1)
  11. python面向对象编程指南 脚本之家_python对象及面向对象技术详解
  12. 深度学习2.0-41.GRU原理及实战
  13. python语法学习第三天--列表
  14. 在浏览器上播放虚幻引擎:像素流前端教程
  15. 计算机网络管理员二级考试题,计算机网络管理员(二级)操作鉴定试题A
  16. 网站打开速度慢如何解决
  17. 使用html制作一个旅游网站
  18. [渝粤题库]西北工业大学材料力学(更新)
  19. Matlab二维图形绘制与图形处理
  20. 如何区别标准POE交换机和非标POE交换机

热门文章

  1. 单元测试中简单使用Mockito解决Spring Bean依赖树问题
  2. QT5.9连接MySQL5.7解决QSqlDatabase: QMYSQL driver not loaded问题
  3. InsecureRequestWarning: Unverified HTTPS request is being made.解决方法
  4. 解决plsql中中文乱码问题
  5. 是清单 Dog List的子类 Animal ? 为什么Java泛型不是隐式多态的?
  6. win11白屏死机怎么办 Windows11白屏死机的解决方法
  7. 补间动画android
  8. python竞赛试题及答案_【技术分享】用python解NOIP竞赛题
  9. 用python直接调用asr技术_python中asr
  10. pycharm配置python第三方库_解决pycharm每次新建项目都要重新安装一些第三方库的问题...