本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-

import re

from urllib import urlretrieve

from urllib import urlopen

#获取网页信息

doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站

#抓取新闻标题和链接

def extract_title(info):

pat = '

'

title = re.findall(pat, info)

titles='\n'.join(title)

#print titles

#修改指定字符串

titles1=titles.replace('class="title"','title')

titles2=titles1.replace('>',':')

titles3=titles2.replace('href','url:')

titles4=titles3.replace('="/','"http://www.itongji.cn/')

#写入文件

save=open('xinwen.txt','w')

save.write(titles4)

save.close()

titles = extract_title(doc)

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

希望本文所述对大家Python程序设计有所帮助。

python爬取新闻网站内容findall函数_Python正则抓取新闻标题和链接的方法示例相关推荐

  1. python爬取新闻网站内容findall函数爬取_Python爬取新闻网标题、日期、点击量

    最近接触Python爬虫,以爬取学校新闻网新闻标题.日期.点击量为例,记录一下工作进度 目前,感觉Python爬虫的过程无非两步: Step1.获取网页url(利用Python库函数import ur ...

  2. python爬取新闻网站内容findall函数爬取_【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地...

    这个实验主要爬取新闻网站首页的新闻内容保存到本地,爬取内容有标题.时间.来源.评论数和正文. 工具:python 3.6 谷歌浏览器 爬取过程: 一.安装库:urllib.requests.Beaut ...

  3. python爬取图片失败显示404_python3.7中Web抓取时出现http404错误

    我收到404错误代码(如下所示)当尝试对某个网站进行网页抓取时.在 我试着在不同的论坛上寻找答案,但找不到解决办法 有人有解决方案来修复这个404错误吗?>>> from urlli ...

  4. python飞机大战怎么将图片保存_python 图片抓取 并保存到本地

    原博文 2020-05-23 22:48 − import requests from bs4 import BeautifulSoup from PIL import Image import os ...

  5. python求1到n的乘积_Python简单实现两个任意字符串乘积的方法示例

    本文实例讲述了Python简单实现两个任意字符串乘积的方法.分享给大家供大家参考,具体如下: 题目: 给定两个任意数字组成的字符串,求乘积,字符可能很大,但是python具有无限精度的整数在这里就不需 ...

  6. python爬取文本中的成语_python正则表达式抓取成语网站

    #anthor jiqunpeng #time 20121124 import urllib import re def getHtml(url): #从URL中读取html内容 page = url ...

  7. Python 数据采集-爬取学校官网新闻标题与链接(基础)

    Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...

  8. Python爬虫实战(1)——百度贴吧抓取帖子并保存内容和图片

    最近在网上看了很多的爬虫脚本,写的参差不齐,但是其中有很多写的非常的优秀,代码质量很高,规范性也很好,很具有代表性,非常值得我们去学习!~ 写好一个python爬虫需要有以下几个必备条件: 1.足够好 ...

  9. Python 数据采集-爬取学校官网新闻标题与链接(进阶)

    Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言 一.拼接路径 二.存储 三.读取翻页数据 四.完整代码展示 五.小结 前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...

最新文章

  1. 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略
  2. 为什么不能够用unsigned 修饰 float和double
  3. java jni 参数_Java 与 JNI 互传数据的那些事
  4. 【未来可能用到】关于模型的100个问答-part1
  5. 先有鸡还是先有蛋?--IT公司用人困惑
  6. 阿里云服务器mysql莫名丢失_mysql数据库丢失
  7. try catch finally 中包含return的几种情况,及返回结果
  8. 【MySQL】基于MySQL的SQL增删改查实战演练
  9. php中onmouseover报错,php中文网--JavaScript
  10. Mr.J--心形跳动demo
  11. 基础才是重中之重~类是怎么执行的
  12. 更改select里面的值
  13. 正则表达式 —— Cases 与 Tricks
  14. 王阳明:一个人不开心的真正原因:智慧不够
  15. go——垃圾回收机制(GC)
  16. JavaScript中的模块化之AMD和CMD
  17. 什么叫资讯,资讯是什么?
  18. 研发工程师入门——Linux系统基础
  19. python如何读取outlook邮件_通过MAPI使用Python从Outlook中阅读电子邮件
  20. OpenAI在Dota 2游戏中虽败犹荣

热门文章

  1. 解决iOS h5 audio自动播放(亲测有效)
  2. 人工智能--深度强化模型
  3. go语言环境的安装配置
  4. 【运维面试】谈谈你对CDN的了解
  5. 股票多子模型的回归检验
  6. watchOS app开发概论
  7. Science DB | 如何科学地存储海量数据?
  8. html一些基本标签,HTML 基本标签的一些特性
  9. 2020年软件测试需要学什么技术?软件测试人员需要懂代码?软件测试工程师要经常加班吗?--华为十年测试老司机写给迷茫的你
  10. 媳妇儿让我给她找一个PDF转word免费工具,找了半天我决定给她写一个出来^-^