python爬取新闻网站内容findall函数_Python正则抓取新闻标题和链接的方法示例
本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:
#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
pat = '
'
title = re.findall(pat, info)
titles='\n'.join(title)
#print titles
#修改指定字符串
titles1=titles.replace('class="title"','title')
titles2=titles1.replace('>',':')
titles3=titles2.replace('href','url:')
titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
save=open('xinwen.txt','w')
save.write(titles4)
save.close()
titles = extract_title(doc)
PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:
希望本文所述对大家Python程序设计有所帮助。
python爬取新闻网站内容findall函数_Python正则抓取新闻标题和链接的方法示例相关推荐
- python爬取新闻网站内容findall函数爬取_Python爬取新闻网标题、日期、点击量
最近接触Python爬虫,以爬取学校新闻网新闻标题.日期.点击量为例,记录一下工作进度 目前,感觉Python爬虫的过程无非两步: Step1.获取网页url(利用Python库函数import ur ...
- python爬取新闻网站内容findall函数爬取_【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地...
这个实验主要爬取新闻网站首页的新闻内容保存到本地,爬取内容有标题.时间.来源.评论数和正文. 工具:python 3.6 谷歌浏览器 爬取过程: 一.安装库:urllib.requests.Beaut ...
- python爬取图片失败显示404_python3.7中Web抓取时出现http404错误
我收到404错误代码(如下所示)当尝试对某个网站进行网页抓取时.在 我试着在不同的论坛上寻找答案,但找不到解决办法 有人有解决方案来修复这个404错误吗?>>> from urlli ...
- python飞机大战怎么将图片保存_python 图片抓取 并保存到本地
原博文 2020-05-23 22:48 − import requests from bs4 import BeautifulSoup from PIL import Image import os ...
- python求1到n的乘积_Python简单实现两个任意字符串乘积的方法示例
本文实例讲述了Python简单实现两个任意字符串乘积的方法.分享给大家供大家参考,具体如下: 题目: 给定两个任意数字组成的字符串,求乘积,字符可能很大,但是python具有无限精度的整数在这里就不需 ...
- python爬取文本中的成语_python正则表达式抓取成语网站
#anthor jiqunpeng #time 20121124 import urllib import re def getHtml(url): #从URL中读取html内容 page = url ...
- Python 数据采集-爬取学校官网新闻标题与链接(基础)
Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...
- Python爬虫实战(1)——百度贴吧抓取帖子并保存内容和图片
最近在网上看了很多的爬虫脚本,写的参差不齐,但是其中有很多写的非常的优秀,代码质量很高,规范性也很好,很具有代表性,非常值得我们去学习!~ 写好一个python爬虫需要有以下几个必备条件: 1.足够好 ...
- Python 数据采集-爬取学校官网新闻标题与链接(进阶)
Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言 一.拼接路径 二.存储 三.读取翻页数据 四.完整代码展示 五.小结 前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...
最新文章
- 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略
- 为什么不能够用unsigned 修饰 float和double
- java jni 参数_Java 与 JNI 互传数据的那些事
- 【未来可能用到】关于模型的100个问答-part1
- 先有鸡还是先有蛋?--IT公司用人困惑
- 阿里云服务器mysql莫名丢失_mysql数据库丢失
- try catch finally 中包含return的几种情况,及返回结果
- 【MySQL】基于MySQL的SQL增删改查实战演练
- php中onmouseover报错,php中文网--JavaScript
- Mr.J--心形跳动demo
- 基础才是重中之重~类是怎么执行的
- 更改select里面的值
- 正则表达式 —— Cases 与 Tricks
- 王阳明:一个人不开心的真正原因:智慧不够
- go——垃圾回收机制(GC)
- JavaScript中的模块化之AMD和CMD
- 什么叫资讯,资讯是什么?
- 研发工程师入门——Linux系统基础
- python如何读取outlook邮件_通过MAPI使用Python从Outlook中阅读电子邮件
- OpenAI在Dota 2游戏中虽败犹荣