python处理搜狗新闻数据_140万条
一、文件处理
gzip -d SogouCA.tar.gz
tar -xvf SogouCA.tar
cat *.txt > SogouCA.txt
cat SogouCA.txt | iconv -f gbk -t utf-8 -c > SougouCA_UTF8.txt
二、数据清理与入库
建表:
CREATE TABLE `news` (`id` int(10) NOT NULL AUTO_INCREMENT,`docno` varchar(100) NOT NULL,`url` varchar(255) DEFAULT NULL,`contenttitle` varchar(255) DEFAULT NULL,`content` text,PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1498017 DEFAULT CHARSET=utf8;
入库:
#!/usr/bin/python
# -*- coding: utf8 -*-
import re
import MySQLdbif __name__ == '__main__':count = 0p1 = re.compile(r'(?<=<url>)(.*?)(?=</url>)')p2 = re.compile(r'(?<=<docno>)(.*?)(?=</docno>)')p3 = re.compile(r'(?<=<contenttitle>)(.*?)(?=</contenttitle>)')p4 = re.compile(r'(?<=<content>)(.*?)(?=</content>)')parr = [p1, p2, p3, p4]# connect mysqldb = MySQLdb.connect("127.0.0.1", "root", "Node2019!", "sg_news",charset='utf8')# get cutsorcursor = db.cursor()# SQL 插入语句sql = """INSERT INTO news(url,docno, contenttitle, content)VALUES (%s, %s, %s, %s)"""news = []with open('SougouCA_UTF8.txt', 'r') as f:for line in f.readlines():if '<doc>' in line.strip():continueif count < 4:#print 'count:', count, parr[count].findall(line.strip())[0]pres = parr[count].findall(line.strip())[0]if pres:news.append(pres)else:news.append(' ')if '</doc>' in line.strip():count = 0sql = sql % ('\''+str(news[0])+'\'', '\''+str(news[1])+'\'', '\''+str(news[2])+'\'','\'' +str(news[3])+'\'')try:cursor.execute(sql)# 提交到数据库执行db.commit()except:# Rollback in case there is any errordb.rollback()news = []sql = """INSERT INTO news(url, docno, contenttitle, content)VALUES (%s, %s, %s, %s)"""continuecount += 1
python处理搜狗新闻数据_140万条相关推荐
- Python 6个维度,数万条数据帮你揭秘房租大涨!
最近休息了一段时间,现在开启更新模式! 8月初,有网友在"水木论坛"发帖控诉长租公寓加价抢房引起关注.据说,一名业主打算出租自己位于天通苑的三居室,预期租金7500元/月,结果被二 ...
- 北京房租大涨?Python 6个维度,数万条数据帮你揭秘
昨天还幻想海边别墅的年轻人,今天可能开始对房租绝望了. 8月初,有网友在"水木论坛"发帖控诉长租公寓加价抢房引起关注.据说,一名业主打算出租自己位于天通苑的三居室,预期租金7500 ...
- 使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...
- 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?
视频课程链接:https://edu.csdn.net/course/detail/9348 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多 ...
- 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?...
黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的. 目前<一出好戏>在猫眼上已经获得近60万个评价,评分为 ...
- SqlBulkCopy类进行大数据(一万条以上)插入测试
SqlBulkCopy类进行大数据(一万条以上)插入测试 转载于:https://www.cnblogs.com/macT/p/10213882.html
- 我们用Python分析了B站4万条数据评论,揭秘本山大叔《念诗之王》大热原因!...
来源:恋习Python 本文约2000字,建议阅读10分钟. 我们通过Python大法通过获取B站:[春晚鬼畜]赵本山:我就是念诗之王!4万条数据评论,与大家一起看看其背后火起来的原因. 1990年本 ...
- 利用python脚本一键为MySQL插入万条数据
运行环境:Windows 10 技术栈:python3,MySQL8.x 编写目的 MySQL是我们研究开发时最常用的关系型数据库.当需要向MySQL数据库中插入大量数据时,一次一条地插入显然不得劲. ...
- 深圳python如何评价_Python分析18万条《八佰》影评,看看观众怎么说?
原标题:Python分析18万条<八佰>影评,看看观众怎么说? 最近<八佰>这部电影比较火,上映仅15天就已斩获22亿票房.对于沉寂了半年.影院上座率仍限定在50%的电影市场而 ...
- Python 爬取了 121.3 万条大众点评,告诉你哪里的小龙虾才是一绝!
俗语有云,酷暑三伏钓早晚.那么啤酒配上小龙虾,岂不甚妙哉?本文是一篇吃货指南,给广大的小龙虾爱好者扒一扒,哪里的小龙虾才是一绝. 题图来源:金渡广告摄影 获得数据 本次数据我们爬取了大众点评中所有打上 ...
最新文章
- 比特币的挑战者 BCH 带着开发者们来到湾区了!
- Digital Image Processing 学习笔记3
- rhel dns 配置
- [EffectiveC++]item22:Declare data members private
- HELP! I’m an Object Factory!
- 计算机软件性能测试的过程,性能测试过程的规范
- 汇编试验四:[bx] 和 loop 的使用
- java io异常处理_IO流异常处理
- linux 统计代码行数,shell 命令统计代码行数的简单代码
- 自考总结——软件开发工具
- Kubernetes 集群安全 - 鉴权 实战rolebinding和clusterrole
- Ti的C28x系列的DSP(28069)使用经验,SCI与RS485(ADM2587EBRWZ)
- STREAM内存带宽测试工具介绍及其内部实现
- vue 点击某一行的按钮,获取当前行的数据
- 小心利用大家的爱国热情来传播Worm.Win32.AutoRun.dgk的网页
- 零跑坚持自主研发,探索数字时代的驾驶体验
- 生死看淡,不服就GAN
- 苹果系统虚拟计算机win7,Mac虚拟机安装Win7 64位系统教程_苹果虚拟机安装Win7真的很简单...
- OSCS开源软件供应链安全社区上线,携手开源社区共同提升开源安全质量
- Unity 网络摄像设备 - WebCamDevice