一、文件处理

gzip -d SogouCA.tar.gz
tar -xvf SogouCA.tar
cat *.txt > SogouCA.txt
cat SogouCA.txt | iconv -f gbk -t utf-8 -c > SougouCA_UTF8.txt

二、数据清理与入库

建表:

CREATE TABLE `news` (`id` int(10) NOT NULL AUTO_INCREMENT,`docno` varchar(100) NOT NULL,`url` varchar(255) DEFAULT NULL,`contenttitle` varchar(255) DEFAULT NULL,`content` text,PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1498017 DEFAULT CHARSET=utf8;

入库:

#!/usr/bin/python
# -*- coding: utf8 -*-
import re
import MySQLdbif __name__ == '__main__':count = 0p1 = re.compile(r'(?<=<url>)(.*?)(?=</url>)')p2 = re.compile(r'(?<=<docno>)(.*?)(?=</docno>)')p3 = re.compile(r'(?<=<contenttitle>)(.*?)(?=</contenttitle>)')p4 = re.compile(r'(?<=<content>)(.*?)(?=</content>)')parr = [p1, p2, p3, p4]# connect mysqldb = MySQLdb.connect("127.0.0.1", "root", "Node2019!", "sg_news",charset='utf8')# get cutsorcursor = db.cursor()# SQL 插入语句sql = """INSERT INTO news(url,docno, contenttitle, content)VALUES (%s, %s, %s, %s)"""news = []with open('SougouCA_UTF8.txt', 'r') as f:for line in f.readlines():if '<doc>' in line.strip():continueif count < 4:#print 'count:', count, parr[count].findall(line.strip())[0]pres = parr[count].findall(line.strip())[0]if pres:news.append(pres)else:news.append(' ')if '</doc>' in line.strip():count = 0sql = sql % ('\''+str(news[0])+'\'', '\''+str(news[1])+'\'', '\''+str(news[2])+'\'','\'' +str(news[3])+'\'')try:cursor.execute(sql)# 提交到数据库执行db.commit()except:# Rollback in case there is any errordb.rollback()news = []sql = """INSERT INTO news(url, docno, contenttitle, content)VALUES (%s, %s, %s, %s)"""continuecount += 1

python处理搜狗新闻数据_140万条相关推荐

  1. Python 6个维度,数万条数据帮你揭秘房租大涨!

    最近休息了一段时间,现在开启更新模式! 8月初,有网友在"水木论坛"发帖控诉长租公寓加价抢房引起关注.据说,一名业主打算出租自己位于天通苑的三居室,预期租金7500元/月,结果被二 ...

  2. 北京房租大涨?Python 6个维度,数万条数据帮你揭秘

    昨天还幻想海边别墅的年轻人,今天可能开始对房租绝望了. 8月初,有网友在"水木论坛"发帖控诉长租公寓加价抢房引起关注.据说,一名业主打算出租自己位于天通苑的三居室,预期租金7500 ...

  3. 使用Python抓取猫眼近10万条评论并分析

    <一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...

  4. 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?

    视频课程链接:https://edu.csdn.net/course/detail/9348 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多 ...

  5. 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?...

    黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的. 目前<一出好戏>在猫眼上已经获得近60万个评价,评分为 ...

  6. SqlBulkCopy类进行大数据(一万条以上)插入测试

    SqlBulkCopy类进行大数据(一万条以上)插入测试 转载于:https://www.cnblogs.com/macT/p/10213882.html

  7. 我们用Python分析了B站4万条数据评论,揭秘本山大叔《念诗之王》大热原因!...

    来源:恋习Python 本文约2000字,建议阅读10分钟. 我们通过Python大法通过获取B站:[春晚鬼畜]赵本山:我就是念诗之王!4万条数据评论,与大家一起看看其背后火起来的原因. 1990年本 ...

  8. 利用python脚本一键为MySQL插入万条数据

    运行环境:Windows 10 技术栈:python3,MySQL8.x 编写目的 MySQL是我们研究开发时最常用的关系型数据库.当需要向MySQL数据库中插入大量数据时,一次一条地插入显然不得劲. ...

  9. 深圳python如何评价_Python分析18万条《八佰》影评,看看观众怎么说?

    原标题:Python分析18万条<八佰>影评,看看观众怎么说? 最近<八佰>这部电影比较火,上映仅15天就已斩获22亿票房.对于沉寂了半年.影院上座率仍限定在50%的电影市场而 ...

  10. Python 爬取了 121.3 万条大众点评,告诉你哪里的小龙虾才是一绝!

    俗语有云,酷暑三伏钓早晚.那么啤酒配上小龙虾,岂不甚妙哉?本文是一篇吃货指南,给广大的小龙虾爱好者扒一扒,哪里的小龙虾才是一绝. 题图来源:金渡广告摄影 获得数据 本次数据我们爬取了大众点评中所有打上 ...

最新文章

  1. 比特币的挑战者 BCH 带着开发者们来到湾区了!
  2. Digital Image Processing 学习笔记3
  3. rhel dns 配置
  4. [EffectiveC++]item22:Declare data members private
  5. HELP! I’m an Object Factory!
  6. 计算机软件性能测试的过程,性能测试过程的规范
  7. 汇编试验四:[bx] 和 loop 的使用
  8. java io异常处理_IO流异常处理
  9. linux 统计代码行数,shell 命令统计代码行数的简单代码
  10. 自考总结——软件开发工具
  11. Kubernetes 集群安全 - 鉴权 实战rolebinding和clusterrole
  12. Ti的C28x系列的DSP(28069)使用经验,SCI与RS485(ADM2587EBRWZ)
  13. STREAM内存带宽测试工具介绍及其内部实现
  14. vue 点击某一行的按钮,获取当前行的数据
  15. 小心利用大家的爱国热情来传播Worm.Win32.AutoRun.dgk的网页
  16. 零跑坚持自主研发,探索数字时代的驾驶体验
  17. 生死看淡,不服就GAN
  18. 苹果系统虚拟计算机win7,Mac虚拟机安装Win7 64位系统教程_苹果虚拟机安装Win7真的很简单...
  19. OSCS开源软件供应链安全社区上线,携手开源社区共同提升开源安全质量
  20. Unity 网络摄像设备 - WebCamDevice

热门文章

  1. LabVIEW编程基础:条件结构编程
  2. coderunner运行c语言提示错误,vscode安装及使用coderunner运行C程序教程
  3. 天地图经纬度精确拾取的方法
  4. Mandelbrot集Julia集分形的MATLAB实现(分形艺术)
  5. 现在学 Prolog 递归
  6. win32项目--获取、修改计算机屏幕分辨率
  7. timestamp和datetime的区别
  8. 用JAVA语言完成实验——猴子摘香蕉
  9. fms安装教程 linux_如何借助Pandora FMS监控CentOS和Ubuntu服务器?
  10. 3套鱼塘合作引流话术模板?