在前面一文中,正式引出了SSIS专业数据ETL工具,笔者仅能作引路作用,未能使用文章的方式给大家写出更多的入门级的文章,希望读者们可以自行根据分享的学习资源自行完成入门及进阶的学习。
同时也想给大家分享到SSIS的能力边界性,让大家可以先打开思路,见识到其能力的所在,日后在学习过程中,可以有更清晰的进步方向。

dotNET遇上SSIS

在笔者过往的文章里已经反复提到过,学习dotNET的性价比是比较高的,不止于可以做任何专业程序员做的领域,更是可以让我们这些业余的人员大有作为,例如可以开发OFFICE插件,可以使用PowerShell来做运维(会dotNET的很快上手,都是广义的dotNET体系),同时在微软的产品系里开放了各产品的对象模型,使我们可以轻松地和各大产品作交互如Windows的WMI模型,Sqlserver的SMO、AMO模型,当然还有我们熟悉的OFFICE对象模型等。

今天来到SSIS中,我们可以有另外一层能力,让dotNET和SSIS集成,在SSIS中,提供了VSTA的开放接口(Visual Studio Tools For Application),相对于VSTO(Visual Studio Tools For Office)来说,一个是对OFFICE产品,一个是对程序,这里的程序就是SSIS。

所以我们可以在SSIS环境下使用dotNET语言,这个极大地增强了我们的数据ETL能力,大凡dotNET能够做的部分,SSIS也可以加上这些能力,并且起点是SSIS给我们做好了模板,自动化写了许多设计代码,就如Winform开发拖拉控件一样的体验,我们在SSIS中,VSTA已经为我们做了非常棒的框架,可以让我们在数据流中轻松访问我们的数据对象。

实际演示

本篇只是导读类,并非要手把手教会大家,读者们仅需了解下SSIS的功能扩展边界,评估此工具能够给自己的数据方案做到何种程度,真正要学习时,建议仍然需要按步就班,从低到高地不断地进步。

在dotNET的自带的类库中,已经提供了非常强大的数据处理能力,特别是linq查询和我们很常用到的文件类操作,字符串处理特别是正则处理等,这里不展开,此篇给大家一个开放的思路,怎样从外界寻获更多的资源来武装自己的数据处理方案,给大家带来在SSIS环境下调用百度AI接口,让非结构化的数据转换为可分析的结构化数据供下游Excel、PowerBI等分析工具使用。

在Excel催化剂上同样实现了此功能,详见以下文章。
第15波-接入AI人工智能NLP自然语言处理

准备工作

获取百度AI的SDK,可以在百度AI后台有跳转链接到github,下载整个项目再编译。

因SSIS需要签名的dll类库,在Nuget上的百度AI类库,没有进行签名操作,故不能直接在Nuget上下载。

同样地SSIS对外部dll引用的要求是需要注册到GAC容器中。所以需要对下载编译好的dll使用gacutil工具注册到GAC中,具体自行查阅相关文档。

使用脚本组件实现百度AI的调用

在本篇的SSIS包任务中,加上了一个脚本组件,从源Excel文件中抽取数据,经过脚本组件的转换,将内容发送到百度AI上,让其帮忙返回结果,最终转换后的结果写入到目标表中。


脚本组件中,我们通过评论内容,经过百度AI的接口调用后,返回多列结构化定量的数据。


使用的百度AI接口如下:



经过简单几句代码的调用,即可完成了我们所需的功能,能够有这样的能力,是基于百度已经给我们做好了SDK,直接调用即可,同时SSIS也根据我们需要的功能帮我们自动生成了强类型的类库供简单调用。


SSIS中的VSTA框架已经帮我们做了大量的工作,根据我们界面的配置信息自动生成了代码Wrapper包装器。


最后我们回到数据库中可发现,已经从我们Excel的两列数据,经过转换后,生成了其他四列的数据。此时我们已经完成了从非结构化的文本评论数据,转变为可分析的情感倾向的分析。整个过程无需我们懂什么高深的人工智能、机器学习之类的算法,只需懂自己想要什么,让BAT们帮我们做成即中。


看到上图中有许多默认的0和结果为空的记录行,相信已经开始有读者想表达下意见,SSIS生成的数据不靠谱,调用20条,只有7条数据返回。

本次的测试恰恰让大家可以见识到企业级ETL的工具之威力,笔者完全不需懂多线程、并发性之类的高深知识,简单几句的业务转换代码,SSIS已经帮我们完成了并发性调用,并且调用的速度实在太快,连百度AI都不接受,直接返回错误告诉并发量超标了。

当然此仅演示示例,实际中因为外部接口的并发性限制等原因,需要限制速度等操作,需要根据实际情况再对代码进行优化,使其真正能够满足我们预期的需求。

结语

本篇带领读者们一窥SSIS的能力边界,让我们心中有数,具体使用SSIS有何不能做到的事情。

在我们中小企业的数据场景里,笔者这里可以很有把握地告之,实在没有什么是不能做到的,若有恐怕也仅仅是我们对其的认知水平和掌握水平的高低差异而已。

将程序员的广阔轮子世界接入SSIS中,并将各大厂商提供的SAAS消费级服务一并接入,恐怕只差我们的想像力而已,在SSIS的世界中,数据将如期地按我们想要的形式完成ETL的过程。

笔者未来聚焦在数据领域的分享,不限于Excel,会分享更多Sqlserver、dotNET、Azure、PowerBI等话题,升级数据分析的能力,欢迎继续关注。*

系列文章

从数据民工到数据白领蜕变之旅(一)-工具总览 https://www.jianshu.com/p/2bd3f90206ec
从数据民工到数据白领蜕变之旅(二)-重温Excel催化剂经典 https://www.jianshu.com/p/cb89929bb8ae
「数据ETL」从数据民工到数据白领蜕变之旅(三)-除了Excel催化剂之外PowerQuery值得期待 https://www.jianshu.com/p/d154b09c881d
「数据ETL」从数据民工到数据白领蜕变之旅(四)-有了PowerQuery还需要SSIS吗?https://www.jianshu.com/p/7ca5a3785bd0

关于Excel催化剂

Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!

Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!

Excel催化剂插件下载链接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q

联系作者

公众号

取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。

最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!

关于Excel催化剂作者

姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。
服务过行业:零售特别是鞋服类的零售行业,电商(淘宝、天猫、京东、唯品会)

技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。
历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。

擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。

2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。

和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。

「数据ETL」从数据民工到数据白领蜕变之旅(五)-使用dotNET脚本实现SSIS无限扩展...相关推荐

  1. 「数据ETL」从数据民工到数据白领蜕变之旅(六)-将Python的能力嫁接到SSIS中...

    前一篇推文中,给大家演示了在SSIS上使用dotNET脚本,实现一些原生SSIS难以实现的功能,并冠以无限可能的说法. 充分复用python的现有优势 python的确是一门非常优秀的编程语言,特别是 ...

  2. 「数据ETL」从数据民工到数据白领蜕变之旅(三)-除了Excel催化剂之外PowerQuery新物种同样值得期待...

    在自助式BI时代以前,Excel级别的数据ETL工作,非常低效,动不动就要启用VBA来完成一些常见的需求,自带的原生功能,未能满足大量的繁琐数据ETL刚需功能. 在Excel2010后,PowerQu ...

  3. 16岁日本神童打造日版「健康码」,追踪用户行动数据抗击疫情

      新智元报道   来源:techxplore 编辑:梦佳 [新智元导读]16岁日本计算机天才少年加藤(Kato)近日开发了一个使用GPS的行迹记录软件Asiato,可记录用户行踪,同时将数据储存在手 ...

  4. 冷热分离和直接使用大数据库_「系统架构」如何通过分离冷热数据提升系统性能?...

    前言 在IT圈,根据被访问频率的不同,数据通常被分为冷数据和热数据.冷数据是指离线类的或不经常访问的数据,热数据是指在线类的或需要被计算节点频繁访问的数据. 任何热数据,随着时间的推移,最终也会慢慢变 ...

  5. mysql虚拟列表_「前端进阶」高性能渲染十万条数据(虚拟列表)

    前言 在工作中,有时会遇到需要一些不能使用分页方式来加载列表数据的业务情况,对于此,我们称这种列表叫做长列表.比如,在一些外汇交易系统中,前端会实时的展示用户的持仓情况(收益.亏损.手数等),此时对于 ...

  6. 「机器学习速成」嵌套:高维度数据映射到低维度空间

    https://www.toutiao.com/a6707188638792286727/ 大家好,今天我们学习[机器学习速成]之 嵌套:高维度数据映射到低维度空间. 嵌套将高维度数据映射到低维度空间 ...

  7. 七天学会「股票数据分析软件」的开发(中)

    两天前,我写了 七天学会「股票数据分析软件」的开发(上),号召大家尝试着写写代码,不知道大家进度如何. 如果存在掌握一种技能的刚需,而且知道正确的学习方法,经过刻意练习,这门技能很快就能玩儿的有模有样 ...

  8. [免费专栏] Android安全之数据存储与数据安全「详解」

    也许每个人出生的时候都以为这世界都是为他一个人而存在的,当他发现自己错的时候,他便开始长大 少走了弯路,也就错过了风景,无论如何,感谢经历 Android安全付费专栏长期更新,本篇最新内容请前往: [ ...

  9. 程序员小sister的烦恼_快速上手大数据ETL神器Kettle(xls导入mysql)

    我正在参加年度博客之星评选,请大家帮我投票打分,您的每一分都是对我的支持与鼓励. 2021年「博客之星」参赛博主:Maynor大数据 https://bbs.csdn.net/topics/60395 ...

最新文章

  1. AppLaunchScreen/Screenshot(启动图/屏幕快照)输出规范
  2. 仿Mathematica中的函数ProductLog
  3. WinCE5.0如何安装.NET3.5
  4. [置顶] C#中通过调用webService获取上网IP地址的区域的方法
  5. 邻近算法(KNN算法)
  6. Activiti - 新一代的开源BPM引擎
  7. AutoLISP绘制圆DCL对话框
  8. matlab中nc文件,教程合集 | MATLAB文件读写(以nc与txt为例)
  9. 【java奇思妙想】使用多线程的思想来实现java网络编程接收和发送的问题
  10. 洛谷P1238 走迷宫
  11. 根据pid查端口_PID控制原理:看完这几个故事你就明白了
  12. Atitit 知识管理 知识体系专业分类介绍
  13. 奉劝各位准大一的学弟学妹们,这个暑假只要作对一件事,大学的时候你就是王者!
  14. pdf转换成ppt的方法
  15. mt管理器主题修改教程_领不了的QQ画图红包教程
  16. Codeforces 1292C Xenon's Attack on the Gangs
  17. vmware virtual machine must be running in order to be migrated
  18. php二手房系统,phpwind房产新版上线 抢先体验二手房新功能
  19. html设置图片与边框的距离,css图片如何设置上边框距离
  20. latex怎么看论文字数_如何使用LaTeX完成一篇论文的基本排版

热门文章

  1. 如何找到Windows 7或8家庭组密码?
  2. IDEA Maven创建多个Module相互依赖
  3. Linux 练习题-3文件与磁盘 问答
  4. 二 面向对象三大特性
  5. python基础===PEP网站,代码规范指南
  6. oracle的本地安装和PUTTY+XMING远程连接安装和oracle翻页功能
  7. jenkins代理设置
  8. 诺基亚首款Windows Phone智能手机将在年内推出
  9. Lucifer的一场暴强围英雄表演
  10. 基于电子邮件的InfoPath表单发布的注意点 [Infopath 2007]