最近在做数据挖掘大作业,老师要求100W新闻,自己爬了一大部分,但也还不够,就想到用语料库,

搜狗语料库来源:http://www.sogou.com/labs/resource/cs.php

打开是

<doc>

<url>...</url>

<docno>....</docno>

<contentitle>...</contenttitle>

<content>...</content>

</doc>

这样的形式的已经切割好的一堆文件,这里我只写了运动的获取内容,只需读取后正则匹配写入就ok,如下:

# -*- coding: UTF-8 -*-
import codecs
import sys
import re
import csv
import os
import codecs
#cate = ['women','business','health','yule','sports','it','house','travel','mil','cul']
rootdir = './sougou_after2'
list = os.listdir(rootdir)
pattern1 = r'sports.sohu(.*?)<content>(.*?)</content>'
i= 0
for x in range(0,len(list)):
   path = os.path.join(rootdir, list[x])        #获取目录下文件名字
   if os.path.isfile(path):
      print pathcontent = open(path,'r').read()texts = re.findall(pattern1,content,re.S)for text in texts:
         if text:
            dir = './sport_' + str(i) + '.txt'
            output = open(dir, 'w')output.write(text[1])print i, ':', diri = i + 1

搜狗新闻语料库 python正则表达式 新闻内容提取相关推荐

  1. python正则表达式(关于提取数字)

    text='POLO1.4自动舒适 标准价121000元 现价111600元 降幅9400元 预计再降400元 桑塔纳3000手动标准型 标准价118000元 现价107000元 降幅11000元 预 ...

  2. python官网 中文版 新闻-用python看新闻

    ▉一文带你入门爬虫--爬取百度风云榜实时新闻 当我在想,第一期推文出什么的时候,各种想法在我脑子里闪过,后来我发现很多微信群会有早报推送而且每当我用百度的时候右侧会有一个实时新闻热度的排行.于是这个爬 ...

  3. python正则匹配ip地址_Python正则表达式匹配和提取IP地址

    Linux No.1 IPv4 下面是IPv4的IP正则匹配实例: 简单的匹配给定的字符串是否是ip地址 import re if re.match(r"^(?:[0-9]{1,3}.){3 ...

  4. python re正则提取ip地址_Python正则表达式匹配和提取IP地址

    No.1 IPv4 下面是IPv4的IP正则匹配实例: 简单的匹配给定的字符串是否是ip地址 import re if re.match(r"^(?:[0-9]{1,3}\.){3}[0-9 ...

  5. python 爬取财经新闻_金融财经新闻的文本爬取

    大家一定还记得<金融数据的获取--一个爬虫的简单例子>这篇文章中介绍的爬虫思想和方法吧.看过之后,大多数人都会有这样的感受,虽然爬虫的原理比较简单,但是正则表达式却很难写.对于每个页面内容 ...

  6. python 自动编写新闻_Python多篇新闻自动采集

    昨天用python写了一个天气预报采集,今天趁着兴头写个新闻采集的. 目标是,将腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主 ...

  7. python 采集新闻_Python多篇新闻自动采集

    昨天用python写了一个天气预报采集,今天趁着兴头写个新闻采集的. 目标是,将腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主 ...

  8. python新闻聚合_基于Python的新闻聚合系统网络爬虫研究

    基于 Python 的新闻聚合系统网络爬虫研究 左卫刚 [摘 要] 摘 要 本研究旨在创建一个能够从不同页面布局中提取数据的开源爬 虫,其中包括网络爬虫. API .网络爬虫调度器以及 Socket ...

  9. 基于Python的新闻聚合网站设计与实现

    摘 要:本论文研究内容是基于Python的爬虫网络设计,利用Python的Scrapy的框架搭建爬虫网络,并设计一个全新的新闻网站,网站实现对新闻数据的分类,以及用户对新闻的分享.评论等,且本论题设计 ...

  10. python新闻收集,Python采集腾讯新闻实例

    目标是把腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主页上所有链接爬取出来,写到文件里. python在获取html方面十分方 ...

最新文章

  1. CentOS常见配置
  2. 比double精度更高的数据类型_MATLAB中图像的数据类型
  3. uniapp uni.request GET方式请求,不能直接传数组解决方法
  4. layer —— 一个简单的jQuery弹出层插件
  5. [CM311-1A]-全网最全 Android 用户管理及用户应用权限
  6. 紫书刷题记录 UVa1593 代码对齐
  7. Python编程:Python2和Python3环境下re正则匹配中文
  8. Zope/Plone内容管理系统的探讨与应用
  9. 苹果发布AirPods 3,TWS真无线蓝牙耳机市场活力依旧
  10. 【JavaScript】转载:JS高端奇淫技巧
  11. python3flask教程_Python3 Flask bootstrap教程(1)
  12. 通给给定旋转轴向量v,旋转角度ang,计算出旋转矩阵
  13. 安徽全省谷歌卫星地图免费下载的方法
  14. 基于微信小程序视频点播系统、电影播放系统、在线教育视频系统 系统的设计与实现 开题报告和效果图
  15. 苹果 MAC 电脑 boot camp 助手装 Windows10 双系统出现的各种问题和解决方法
  16. 优秀书籍推荐:《用户体验要素设计》
  17. Excel VS BI,谁才是真正的大数据分析工具?
  18. 倾我万缕柔情,共你一帘幽梦
  19. 电梯、保温杯、电脑、签到的测试用例
  20. Android悬浮窗开启 适配所有机型(附源码)

热门文章

  1. 计算机外设原理,计算机外设原理是什么
  2. 互联网创业怎么做?分享我的7个网创实操心得
  3. three.js示例之旋转立方体
  4. 关于利用Windows的Paint 3D制作透明背景图片的说明
  5. c++中计算2得n次方_【复习专题】解析二元一次方程知识点及应用
  6. 最新win10安装版激活方法 一键激活win10
  7. CSDN:2020年度CSDN博客之星评选竞赛——180号【一个处女座的程序猿】,感谢您,投上的宝贵一票,感谢!感恩!
  8. 计算机视觉轮廓检测,轮廓检测
  9. 每日新闻:雷军微博互动李东生,小米又有新动作?
  10. 模拟赛 东风谷早苗