informatica介绍,informatica 产品

http://www.itjxue.com  2023-01-16 08:39  来源:未知  点击次数: 

关于INFORMATICA

这个不就是信息学么

还跑到意大利去学..

我看主要先把程序相关的基础过了,顺面学点英语

什么书都是可以的,关键是你的决心和耐心

鉴于你英语不怎么样,找几本国内的书快速通过一下

lz的路还很漫长,加油吧

什么是Vibe?什么是虚拟数据机

什么是虚拟数据机?数据虚拟机(VDM)就是一种可访问、集合和管理数据的嵌入式数据管理引擎。

既然你知道了什么是VDM,那Vibe又是什么呢?简单地说,Vibe就是数据虚拟机 (VDM) 的品牌名称。

问题解决了,为了使阅读起来更有趣,在此会更详细地介绍有关Vibe 虚拟数据机发展历程的背景情况。

虚拟数据机的发展历程

自20年前 Informatica公司成立以来,我们就秉持着一种理念,即把数据集成的发展从实际的运行期中剥离开来。这就是当我们说Informatica PowerCenter数据集成产品是元数据驱动的时候,Informatica所具有的含义。术语“元数据驱动”的意思就是说开发人员不必知道是 C、C++还是Java语言来执行数据集成。开发人员在图形化的开发环境中使用拖放工具可显示数据是如何从A系统中移走,然后如何与B系统中的数据结合,最后在数据到达C系统时最终被清除和变换。在开发过程的最精细层面,你可能会看到代表数据集的图标,以及表示从哪些数据集出来并进入到其他数据集的关系,并同时说明了数据如何进行相应变换的线条。

Informatica Developer的拖放图形化开发环境

当然,你是看不到代码的,整个过程中只有描述数据将如何被修改的元数据。这就是说,一个了解数据集成概念的人,不一定就得是软件开发人员,他可以开发数据整合作业,将原始数据转换为高质量的信息,这样,相关机构就能把他们的数据潜能用到工作中去。也就意味着有更多的人能够开发数据整合作业,因为通过使用图形化工具,我们已经“大众化了”数据集成开发。

然而,随着时间的推移,数据集成也变得更加复杂。从数据提取、转换和加载(ETL)批量数据移动,数据集成发展到了包括数据质量、实时数据、数据虚拟化和现在Hadoop分布系统在内的程度。此外,在此前提下或者在云计算中,都可以部署数据集成进程。由于数据集成已变得更加复杂,它不得不采用一种混合式的方法,即一种在混合及匹配不断扩展的底层技术的同时,需要经常使用刚才提到的部分或大多数功能与方式的方法。

一直以来,Informatica没有停止过将开发环境从底层数据移动和变换技术中剥离开来。但为何这种剥离如此重要呢?因为新的数据集成方法带来新的部署模型,如软件即服务(SaaS),新技术如Hadoop,以及新语言,如Pig和Hive,甚至牵涉到未来的语言。所以现有的数据集成开发人员,无需因为要使用新技术而去了解新技术如何工作的细节。此外,底层技术在数据集成和管理市场中变化的速度也在加快。所以,当这种速度加快时,通过把开发与部署分开,终端用户可以使用相同的界面继续设计和开发,并且在内部,他们可以利用新的数据移动和转换引擎,做虚拟化数据,以及整批移动数据、实时移动数据,或集成大数据,而无需了解任可有关底层语言、系统或框架的详细信息。

本系列博文将清晰地为您介绍VDM的发展历程。在我们的下一期博文中,我们会特别介绍有关Vibe VDM 的基础理论以及其工作原理方面的内容。别换台哦,同一Vibe时间,同一Vibe频道。

如何将文本中的内容 导入access数据库中

1、首先文本文件应该是以逗号分隔或制表符分隔的文件才可以导入;

2、然后切换到Access;

3、在Access中打开新的或已有的数据库;

4、单击“数据库”窗口的“表”选项卡;

5、指向“文件”菜单中的“获取外部数据”命令,然后单击“导入”;

6、单击“文件类型”框中的“文本文件”命令;

7、在“文件名”框中,输入要导入的文本文件的名称;

8、单击“导入”命令;

9、根据“导入文本向导”对话框中的指导进行操作;

如果,你需要查看更多的选项或修改指导项(比如域分隔符),可单击第一个向导对话框中的“高级”命令。如果要保存指定项,以便下次导入相似的文本文件时可用它们,请单击“另存为”命令。

Informatica基础系列(七)——常见问题、注意事项

目录:

正文:

这一篇分享 Infa 开发中一些常见的问题以及注意事项,内容比较零碎,有的内容也不再详细介绍,了解有这个功能,开发时可以再深入研究。

Infa workflow 可以设置定时任务 schedule(db 中称 job),以什么样的频率重复执行,什么时候开始,什么时候结束。这样任务可以自动跑,不需要人工干预。schedule 可以做成可复用,但使用范围仅限于当前的 folder。下面看看 schedule 怎么建的,在 workflow 视图,按以下步骤,如下图所示:

当想暂停 schedule 时,可以勾选 "Run on demand"。这部分很简单,不做过多的解释。做好的 schedule 需要设置在 workflow,设置方法如下图所示:

也可以不选择可重用的 schedule,可以勾选 "Non Resuable",设置方法跟 Resuable 的 schedule 是一样的。

在定时执行 workflow 时有一个场景是 schedule 解决不了的,假如我们想在一天之中的某些时间段执行,在另外的时间段不执行,有什么办法?其实,可以在 workflow 利用系统的变量做,点击 session 之间的 线 ,如下图所示:

可以猜到,这个 session 在上午 7 点以后执行,根据系统的参数可以做些其他灵活的控制。

source、target 开始导入后,可能会根据需求调整结构,如果结构调整的比较大,一般重新导入覆盖就可以了。如果调整不大,其实可以手动调整的,比如新增了字段,修改了字段长度,前提是保证与 db 的 table 结构一致,如下图所示:

在设置了 schedule 的 workflow 运行过程中会出现 workflow 出现错误,这时候设置的 scheduled 状态就会变成 unscheduled,也就是不管用了。其实可以采取一种迂回的方法来控制,即用另一个基本不会跑失败的 workflow 去控制实际的业务 workflow,这个控制的 workflow 的作用是启动业务 workflow。说了这么多,不如看看示例,先看下怎么建这个控制 workflow,如下图所示:

首先,拖一个 cmd 组件进来,我们要用它写一段命令,去启动另一个 workflow,编辑 cmd 组件,如下图所示:

可以看到这个 session 将通过 pmcmd 启动业务 workflow,我们再对这个控制 workflow 设置一个 schedule,因为这个 workflow 失败的可能性基本为零,所以可以保证 workflow 的不间断性。

Infa 很多东西都可以做成可复用的,比如 transformation、mapping、session、workflow 等,比如下面是一个 lookup 的复用组件(属于 transformation):

mapping 的复用,称为 maplet,如下图所示:

可以看到这个 maplet 传入了一个参数,通过一个 lookup 组件,输出了两个参数值。开发不同的东西需要切换到不同的视图下,注意看截图中上面的小按钮。workflow 也可以做成 worklet,就是把 workflow 拆成一个个小的,worklet 的开发视图如下图所示:

Infa workflow 的监控还是很有必要,执行失败后如果能推送出来(邮件),就可以及时解决。基本思路是:主要通过记录 session 的执行状况来做,session 可以在执行成功、失败后执行一段脚本,可以将 session 的运行结果记录下来,插入到 Infa 的日志表。session 的设置方法,如下图所示:

其中,$PMFolderName、PMWorkflowName、PMWorkflowRunId、PMSessionName 一看就知道;0 代表成功(自定义),Events__c 是 target 的名字;@numAffectedRows、@numAppliedRows、@numRejectedRows 分别是对 target 的影响记录数、采用记录数、拒绝记录数。

到此为止,Informatica 基础系列就完结了,共 9 篇,每一篇文章都配置了目录,方便系统阅读,希望对您有益,谢谢关注!

At 2017.11.10

大数据etl工具有哪些

ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

下面给大家介绍一下什么是ETL以及ETL常用的三种工具——Datastage,Informatica,Kettle。

一、什么是ETL?

ETL,Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

数据仓库结构

通俗的说法就是从数据源抽取数据出来,进行清洗加工转换,然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

ETL是BI项目重要的一个环节,其设计的好坏影响生成数据的质量,直接关系到BI项目的成败。

二、为什么要用ETL工具?

在数据处理的时候,我们有时会遇到这些问题:

? 当数据来自不同的物理主机,这时候如使用SQL语句去处理的话,就显得比较吃力且开销也更大。

? 数据来源可以是各种不同的数据库或者文件,这时候需要先把他们整理成统一的格式后才可以进行数据的处理,这一过程用代码实现显然有些麻烦。

? 在数据库中我们当然可以使用存储过程去处理数据,但是处理海量数据的时候存储过程显然比较吃力,而且会占用较多数据库的资源,这可能会导致数据资源不足,进而影响数据库的性能。

而上述遇到的问题,我们用ETL工具就可以解决。ETL工具具有以下几点优势:

1、支持多种异构数据源的连接。(部分)

2、图形化的界面操作十分方便。

3、处理海量数据速度快、流程更清晰等。

三、ETL工具介绍

1、Datastage

IBM公司的商业软件,最专业的ETL工具,但同时价格不菲,适合大规模的ETL应用。

使用难度:★★★★

2、Informatica

商业软件,相当专业的ETL工具。价格上比Datastage便宜一点,也适合大规模的ETL应用。

使用难度:★★

3、Kettle

免费,最著名的开源产品,是用纯java编写的ETL工具,只需要JVM环境即可部署,可跨平台,扩展性好。

使用难度:★★

四、三种ETL工具的对比

Datastage、Informatica、Kettle三个ETL工具的特点和差异介绍:

1、操作

这三种ETL工具都是属于比较简单易用的,主要看开发人员对于工具的熟练程度。

Informatica有四个开发管理组件,开发的时候我们需要打开其中三个进行开发,Informatica没有ctrl+z的功能,如果对job作了改变之后,想要撤销,返回到改变前是不可能的。相比Kettle跟Datastage在测试调试的时候不太方便。Datastage全部的操作在同一个界面中,不用切换界面,能够看到数据的来源,整个job的情况,在找bug的时候会比Informatica方便。

Kettle介于两者之间。

2、部署

Kettle只需要JVM环境,Informatica需要服务器和客户端安装,而Datastage的部署比较耗费时间,有一点难度。

3、数据处理的速度

大数据量下Informatica与Datastage的处理速度是比较快的,比较稳定。Kettle的处理速度相比之下稍慢。

4、服务

Informatica与Datastage有很好的商业化的技术支持,而Kettle则没有。商业软件的售后服务上会比免费的开源软件好很多。

5、风险

风险与成本成反比,也与技术能力成正比。

6、扩展

Kettle的扩展性无疑是最好,因为是开源代码,可以自己开发拓展它的功能,而Informatica和Datastage由于是商业软件,基本上没有。

7、Job的监控

三者都有监控和日志工具。

在数据的监控上,个人觉得Datastage的实时监控做的更加好,可以直观看到数据抽取的情况,运行到哪一个控件上。这对于调优来说,我们可以更快的定位到处理速度太慢的控件并进行处理,而informatica也有相应的功能,但是并不直观,需要通过两个界面的对比才可以定位到处理速度缓慢的控件。有时候还需要通过一些方法去查找。

8、网上的技术文档

Datastage Informatica kettle,相对来说,Datastage跟Informatica在遇到问题去网上找到解决方法的概率比较低,kettle则比较多。

五、项目经验分享

在项目中,很多时候我们都需要同步生产库的表到数据仓库中。一百多张表同步、重复的操作,对开发人员来说是细心和耐心的考验。在这种情况下,开发人员最喜欢的工具无疑是kettle,多个表的同步都可以用同一个程序运行,不必每一张表的同步都建一个程序,而informatica虽然有提供工具去批量设计,但还是需要生成多个程序进行一一配置,而datastage在这方面就显得比较笨拙。

在做增量表的时候,每次运行后都需要把将最新的一条数据操作时间存到数据库中,下次运行我们就取大于这个时间的数据。Kettle有控件可以直接读取数据库中的这个时间置为变量;对于没有类似功能控件的informatica,我们的做法是先读取的数据库中的这个时间存到文件,然后主程序运行的时候指定这个文件为参数文件,也可以得到同样的效果

(责任编辑:IT教学网)

更多

推荐网页文字特效文章