将一个TSV文件运用Kettle工具进行抽取并保存至数据库中的数据表TSV中。实现将一个保存在本地的TSV文件进行抽取

1.数据准备与查看数据

2.在Kettle新建转换,添加“文本输入”控件“表输出”控件以及Hop跳连线

3.配置“文本文件输入”控件

(1).双击“文本文件输入”控件,进入“文本文件输入”界面

(2).选择数据

 (3).点击“预览”按钮,选择要抽取的文件tsv_extract.tsv

(4).点击“增加”按钮,将要抽取的TSV文件添加到转换中

(5).点击“内容”选项卡

(6)清除分隔符处的默认分隔符“;”,点击Insert TAB按钮,在分隔符处插入一个制表符,取消勾选“头部”复选框

(7)点击“字段”选项卡,切换到“字段”选项卡界面

(8)根距TSV文件的内容添加对应的字段名称,并指定数据类型,在“去除空字符串方式”列,所添加是字段都应选择“不去除空格”

(9)点击”预览记录“查看数据是否抽取到文本文件输入流中,如果成功抽取则点击“关闭”“确定”

3.配置“表输出”控件

(1).双击进入“表输出”控件,进入“表输出”界面

(2)新建数据库运行sql文件

(3)选择新建按钮,配置数据库连接,测试是否成功

(4)点击“目标表”右侧的“浏览”按钮,指定输出表

(5)勾选“指定数据库字段”复选框,用于将数据表tsv的字段与文件中的字段进行匹配

(6)点击“数据库字段”选项卡

(7)点击“输入字段映射”按钮,弹出“映射匹配”对话框。依次选中“原字段”中的字段和“目标字段”中对应的字段,在点击Add按钮

(8)点击“确定”按钮完成“表输出”控件配置。

4.运行转换

5.查看tsv数据库中的数据

抽取文本数据(TSV文件的抽取)相关推荐

  1. kettle案例4.1.1--抽取文本数据---TSV文件的抽取

    kettle案例4.1–抽取文本数据-TSV文件的抽取 在数据清洗中,数据抽取主要是从一个或多个数据源中获取所需的数据.数据抽取的数据源可以是文本数据.Web数据以及数据库数据. 4.1 抽取文本数据 ...

  2. 第四章 Tsv文件的抽取

    目录 一.Tsv介绍 二.案例介绍 三.案例实现 1.建立转换 2.配置控件 四.运行结果 一.Tsv介绍 TSV是Tab-separated values的缩写,即制表符分隔值.使用制表符分隔数据字 ...

  3. kettle(4.1 TSV文件的抽取)

    一.创建转换 二.配置控件 1.文本文件输入 先点击"浏览",选择要抽取的TSV文件 再点击"增加" 单击"内容"选项卡,清除分隔符处默认分 ...

  4. ​达摩院文档级关系抽取新数据集和五元组抽取新任务

    ©PaperWeekly 原创 · 作者 | 邴立东.谭清宇等 单位 | Alibaba DAMO, NUS, SUTD 关系抽取(RE)是 NLP 的核心任务之一,是构建知识库.事件抽取等下游应用的 ...

  5. 【C 语言】文件操作 ( 配置文件读写 | 写出或更新配置文件 | 逐行遍历文件文本数据 | 获取文件中的文本行 | 查询文本行数据 | 追加文件数据 | 使用占位符方式拼接字符串 )

    文章目录 一.逐行遍历文件文本数据 1.获取文件中的文本行 2.查询文本行数据 3.追加文件数据 4.使用占位符方式拼接字符串 二.完整代码示例 一.逐行遍历文件文本数据 1.获取文件中的文本行 调用 ...

  6. 信息抽取(三)三元关系抽取——改良后的层叠式指针网络,让我的模型F1提升近4%(接上篇)

    信息抽取(三)三元关系抽取--改良后的层叠式指针网络 前言 优化在验证集上的模型推理结果的SPO抽取方法 不随机选择S(subject),⽽是遍历所有不同主语的标注样本构建训练集. 模型优化 加入对抗 ...

  7. C++按要求生成数据和文件操作

    目录 一.C++按要求随机生成数据 1.题目要求 2.代码实现 二.C++文件操作 1.文件操作说明 2.读取文件 3.写入文件 一.C++按要求随机生成数据 1.题目要求 用名称.人口.海拔高度.天 ...

  8. 数据预处理之抽取文本信息

    抽取文本信息(支持doc.docx.pdf) 环境要求:Python3.6 : pycharmIDE :anaconda 需要插件:win32com ps:建议使用---->在cmd中使用pyt ...

  9. 在线文本实体抽取能力,助力应用解析海量文本数据

    随着信息化的发展,很多具有重要价值的知识隐藏分布在海量数据中,影响了人们获取知识的效率,如何处理繁杂的非结构化文本数据成为难题. 近日,HMS Core机器学习服务6.5.0版本新增在线文本实体抽取能 ...

最新文章

  1. YOLOv4 论文翻译
  2. JAVA escape/unescape
  3. vb小工具-----txt转为excel
  4. 推荐:复旦邱锡鹏教授开源发布的《神经网络与深度学习》
  5. hibernate中的所有属性
  6. 素数路(prime)
  7. python 列表推导 为什么快_python 列表推导 为什么快
  8. 漫谈Google的Native Client(NaCl)技术(二)–技术篇(兼谈LLVM)
  9. JNI之常用函数大全
  10. gc android,Android GC Log解读
  11. 2018/3/9 省选模拟赛 0分
  12. 华为NP课程笔记4-中间系统到中间系统
  13. 【python】牛客竞赛语法入门班选择结构习题 python解法
  14. aptana手动配置python环境_Aptana Studio 3配置Python开发环境图文教程
  15. manchi翻译中文 mi_求这一段意大利文歌词中文翻译(MiManchi)?
  16. 环境诉讼与当事人适格
  17. 2022第十四届环泰山T60线上大徒步活动线下启动仪式圆满结束
  18. 春节大优惠,蓝牙耳机推荐,低延迟日常通勤必备蓝牙耳机
  19. linux编译文件 no such,Linux中编译或安装程序时提示No such file or directory
  20. C语言中 *x++ (*x)++ ++*x *++x的区别

热门文章

  1. Python4.定义类及使用类,类的继承,抽象方法多态
  2. 搜狗高速浏览器2014 v5.0.0515 官方最新版
  3. 房租房贷可税前抵扣,等等!你还要考虑这个
  4. 【测试工程师的核心竞争力是什么】
  5. SpringBoot 异常后更改响应状态码
  6. android手机图标 足球球星,盘点六大世界足坛球星logo,贝尔艺术感十足
  7. MEM/MBA数学强化(04)方程 函数 不等式
  8. Gulp折腾记 - (3)常用任务构建的demo[改进版]
  9. 读书笔记:NOSQL 菜鸟教程
  10. 如何完善培训开发系统