搜狗新闻语料库 python正则表达式新闻内容提取

最近在做数据挖掘大作业，老师要求100W新闻，自己爬了一大部分，但也还不够，就想到用语料库，

搜狗语料库来源：http://www.sogou.com/labs/resource/cs.php

打开是

<doc>

</doc>

这样的形式的已经切割好的一堆文件，这里我只写了运动的获取内容，只需读取后正则匹配写入就ok，如下：

# -*- coding: UTF-8 -*-
import codecs
import sys
import re
import csv
import os
import codecs
#cate = ['women','business','health','yule','sports','it','house','travel','mil','cul']
rootdir = './sougou_after2'
list = os.listdir(rootdir)
pattern1 = r'sports.sohu(.*?)<content>(.*?)</content>'
i= 0
for x in range(0,len(list)):
   path = os.path.join(rootdir, list[x])        #获取目录下文件名字
   if os.path.isfile(path):
      print pathcontent = open(path,'r').read()texts = re.findall(pattern1,content,re.S)for text in texts:
         if text:
            dir = './sport_' + str(i) + '.txt'
            output = open(dir, 'w')output.write(text[1])print i, ':', diri = i + 1

搜狗新闻语料库 python正则表达式新闻内容提取相关推荐

python正则表达式（关于提取数字）
text='POLO1.4自动舒适标准价121000元现价111600元降幅9400元预计再降400元桑塔纳3000手动标准型标准价118000元现价107000元降幅11000元预 ...
python官网中文版新闻-用python看新闻
▉一文带你入门爬虫--爬取百度风云榜实时新闻当我在想,第一期推文出什么的时候,各种想法在我脑子里闪过,后来我发现很多微信群会有早报推送而且每当我用百度的时候右侧会有一个实时新闻热度的排行.于是这个爬 ...
python正则匹配ip地址_Python正则表达式匹配和提取IP地址
Linux No.1 IPv4 下面是IPv4的IP正则匹配实例: 简单的匹配给定的字符串是否是ip地址 import re if re.match(r"^(?:[0-9]{1,3}.){3 ...
python re正则提取ip地址_Python正则表达式匹配和提取IP地址
No.1 IPv4 下面是IPv4的IP正则匹配实例: 简单的匹配给定的字符串是否是ip地址 import re if re.match(r"^(?:[0-9]{1,3}\.){3}[0-9 ...
python 爬取财经新闻_金融财经新闻的文本爬取
大家一定还记得<金融数据的获取--一个爬虫的简单例子>这篇文章中介绍的爬虫思想和方法吧.看过之后,大多数人都会有这样的感受,虽然爬虫的原理比较简单,但是正则表达式却很难写.对于每个页面内容 ...
python 自动编写新闻_Python多篇新闻自动采集
昨天用python写了一个天气预报采集,今天趁着兴头写个新闻采集的. 目标是,将腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主 ...
python 采集新闻_Python多篇新闻自动采集
昨天用python写了一个天气预报采集,今天趁着兴头写个新闻采集的. 目标是,将腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主 ...
python新闻聚合_基于Python的新闻聚合系统网络爬虫研究
基于 Python 的新闻聚合系统网络爬虫研究左卫刚 [摘要] 摘要本研究旨在创建一个能够从不同页面布局中提取数据的开源爬虫,其中包括网络爬虫. API .网络爬虫调度器以及 Socket ...
基于Python的新闻聚合网站设计与实现
摘要:本论文研究内容是基于Python的爬虫网络设计,利用Python的Scrapy的框架搭建爬虫网络,并设计一个全新的新闻网站,网站实现对新闻数据的分类,以及用户对新闻的分享.评论等,且本论题设计 ...
python新闻收集,Python采集腾讯新闻实例
目标是把腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主页上所有链接爬取出来,写到文件里. python在获取html方面十分方 ...

搜狗新闻语料库 python正则表达式新闻内容提取

搜狗新闻语料库 python正则表达式新闻内容提取相关推荐

最新文章

热门文章

搜狗新闻语料库 python正则表达式 新闻内容提取

搜狗新闻语料库 python正则表达式 新闻内容提取相关推荐

最新文章

热门文章

搜狗新闻语料库 python正则表达式新闻内容提取

搜狗新闻语料库 python正则表达式新闻内容提取相关推荐