当前位置： > 网页特效 > 网页文字特效 > 文章内容

informatica介绍,informatica 产品

http://www.itjxue.com 2023-01-16 08:39 来源:未知 点击次数:

关于INFORMATICA

这个不就是信息学么

还跑到意大利去学..

我看主要先把程序相关的基础过了，顺面学点英语

什么书都是可以的，关键是你的决心和耐心

鉴于你英语不怎么样，找几本国内的书快速通过一下

lz的路还很漫长，加油吧

什么是Vibe？什么是虚拟数据机

什么是虚拟数据机？数据虚拟机(VDM)就是一种可访问、集合和管理数据的嵌入式数据管理引擎。

既然你知道了什么是VDM，那Vibe又是什么呢？简单地说，Vibe就是数据虚拟机 (VDM) 的品牌名称。

问题解决了，为了使阅读起来更有趣，在此会更详细地介绍有关Vibe 虚拟数据机发展历程的背景情况。

虚拟数据机的发展历程

自20年前 Informatica公司成立以来，我们就秉持着一种理念，即把数据集成的发展从实际的运行期中剥离开来。这就是当我们说Informatica PowerCenter数据集成产品是元数据驱动的时候，Informatica所具有的含义。术语“元数据驱动”的意思就是说开发人员不必知道是 C、C++还是Java语言来执行数据集成。开发人员在图形化的开发环境中使用拖放工具可显示数据是如何从A系统中移走，然后如何与B系统中的数据结合，最后在数据到达C系统时最终被清除和变换。在开发过程的最精细层面，你可能会看到代表数据集的图标，以及表示从哪些数据集出来并进入到其他数据集的关系，并同时说明了数据如何进行相应变换的线条。

Informatica Developer的拖放图形化开发环境

当然，你是看不到代码的，整个过程中只有描述数据将如何被修改的元数据。这就是说，一个了解数据集成概念的人，不一定就得是软件开发人员，他可以开发数据整合作业，将原始数据转换为高质量的信息，这样，相关机构就能把他们的数据潜能用到工作中去。也就意味着有更多的人能够开发数据整合作业，因为通过使用图形化工具，我们已经“大众化了”数据集成开发。

然而，随着时间的推移，数据集成也变得更加复杂。从数据提取、转换和加载(ETL)批量数据移动，数据集成发展到了包括数据质量、实时数据、数据虚拟化和现在Hadoop分布系统在内的程度。此外，在此前提下或者在云计算中，都可以部署数据集成进程。由于数据集成已变得更加复杂，它不得不采用一种混合式的方法，即一种在混合及匹配不断扩展的底层技术的同时，需要经常使用刚才提到的部分或大多数功能与方式的方法。

一直以来，Informatica没有停止过将开发环境从底层数据移动和变换技术中剥离开来。但为何这种剥离如此重要呢？因为新的数据集成方法带来新的部署模型，如软件即服务（SaaS），新技术如Hadoop，以及新语言，如Pig和Hive，甚至牵涉到未来的语言。所以现有的数据集成开发人员，无需因为要使用新技术而去了解新技术如何工作的细节。此外，底层技术在数据集成和管理市场中变化的速度也在加快。所以，当这种速度加快时，通过把开发与部署分开，终端用户可以使用相同的界面继续设计和开发，并且在内部，他们可以利用新的数据移动和转换引擎，做虚拟化数据，以及整批移动数据、实时移动数据，或集成大数据，而无需了解任可有关底层语言、系统或框架的详细信息。

本系列博文将清晰地为您介绍VDM的发展历程。在我们的下一期博文中，我们会特别介绍有关Vibe VDM 的基础理论以及其工作原理方面的内容。别换台哦，同一Vibe时间，同一Vibe频道。

informatica介绍,informatica 产品

如何将文本中的内容导入access数据库中

1、首先文本文件应该是以逗号分隔或制表符分隔的文件才可以导入；

2、然后切换到Access；

3、在Access中打开新的或已有的数据库；

4、单击“数据库”窗口的“表”选项卡；

5、指向“文件”菜单中的“获取外部数据”命令，然后单击“导入”;

6、单击“文件类型”框中的“文本文件”命令；

7、在“文件名”框中，输入要导入的文本文件的名称；

8、单击“导入”命令；

9、根据“导入文本向导”对话框中的指导进行操作；

如果，你需要查看更多的选项或修改指导项(比如域分隔符)，可单击第一个向导对话框中的“高级”命令。如果要保存指定项，以便下次导入相似的文本文件时可用它们，请单击“另存为”命令。

Informatica基础系列（七）——常见问题、注意事项

正文：

这一篇分享 Infa 开发中一些常见的问题以及注意事项，内容比较零碎，有的内容也不再详细介绍，了解有这个功能，开发时可以再深入研究。

Infa workflow 可以设置定时任务 schedule（db 中称 job），以什么样的频率重复执行，什么时候开始，什么时候结束。这样任务可以自动跑，不需要人工干预。schedule 可以做成可复用，但使用范围仅限于当前的 folder。下面看看 schedule 怎么建的，在 workflow 视图，按以下步骤，如下图所示：

当想暂停 schedule 时，可以勾选 "Run on demand"。这部分很简单，不做过多的解释。做好的 schedule 需要设置在 workflow，设置方法如下图所示：

也可以不选择可重用的 schedule，可以勾选 "Non Resuable"，设置方法跟 Resuable 的 schedule 是一样的。

在定时执行 workflow 时有一个场景是 schedule 解决不了的，假如我们想在一天之中的某些时间段执行，在另外的时间段不执行，有什么办法？其实，可以在 workflow 利用系统的变量做，点击 session 之间的线，如下图所示：

可以猜到，这个 session 在上午 7 点以后执行，根据系统的参数可以做些其他灵活的控制。

source、target 开始导入后，可能会根据需求调整结构，如果结构调整的比较大，一般重新导入覆盖就可以了。如果调整不大，其实可以手动调整的，比如新增了字段，修改了字段长度，前提是保证与 db 的 table 结构一致，如下图所示：

在设置了 schedule 的 workflow 运行过程中会出现 workflow 出现错误，这时候设置的 scheduled 状态就会变成 unscheduled，也就是不管用了。其实可以采取一种迂回的方法来控制，即用另一个基本不会跑失败的 workflow 去控制实际的业务 workflow，这个控制的 workflow 的作用是启动业务 workflow。说了这么多，不如看看示例，先看下怎么建这个控制 workflow，如下图所示：

首先，拖一个 cmd 组件进来，我们要用它写一段命令，去启动另一个 workflow，编辑 cmd 组件，如下图所示：

可以看到这个 session 将通过 pmcmd 启动业务 workflow，我们再对这个控制 workflow 设置一个 schedule，因为这个 workflow 失败的可能性基本为零，所以可以保证 workflow 的不间断性。

Infa 很多东西都可以做成可复用的，比如 transformation、mapping、session、workflow 等，比如下面是一个 lookup 的复用组件（属于 transformation）：

mapping 的复用，称为 maplet，如下图所示：

可以看到这个 maplet 传入了一个参数，通过一个 lookup 组件，输出了两个参数值。开发不同的东西需要切换到不同的视图下，注意看截图中上面的小按钮。workflow 也可以做成 worklet，就是把 workflow 拆成一个个小的，worklet 的开发视图如下图所示：

Infa workflow 的监控还是很有必要，执行失败后如果能推送出来（邮件），就可以及时解决。基本思路是：主要通过记录 session 的执行状况来做，session 可以在执行成功、失败后执行一段脚本，可以将 session 的运行结果记录下来，插入到 Infa 的日志表。session 的设置方法，如下图所示：

其中，$PMFolderName、PMWorkflowName、PMWorkflowRunId、PMSessionName 一看就知道；0 代表成功（自定义），Events__c 是 target 的名字；@numAffectedRows、@numAppliedRows、@numRejectedRows 分别是对 target 的影响记录数、采用记录数、拒绝记录数。

到此为止，Informatica 基础系列就完结了，共 9 篇，每一篇文章都配置了目录，方便系统阅读，希望对您有益，谢谢关注！

At 2017.11.10

大数据etl工具有哪些

ETL是数据仓库中的非常重要的一环，是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

下面给大家介绍一下什么是ETL以及ETL常用的三种工具——Datastage，Informatica，Kettle。

一、什么是ETL？

ETL，Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。

数据仓库结构

通俗的说法就是从数据源抽取数据出来，进行清洗加工转换，然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

ETL是BI项目重要的一个环节，其设计的好坏影响生成数据的质量，直接关系到BI项目的成败。

二、为什么要用ETL工具？

在数据处理的时候，我们有时会遇到这些问题：

? 当数据来自不同的物理主机，这时候如使用SQL语句去处理的话，就显得比较吃力且开销也更大。

? 数据来源可以是各种不同的数据库或者文件，这时候需要先把他们整理成统一的格式后才可以进行数据的处理，这一过程用代码实现显然有些麻烦。

? 在数据库中我们当然可以使用存储过程去处理数据，但是处理海量数据的时候存储过程显然比较吃力，而且会占用较多数据库的资源，这可能会导致数据资源不足，进而影响数据库的性能。

而上述遇到的问题，我们用ETL工具就可以解决。ETL工具具有以下几点优势：

1、支持多种异构数据源的连接。（部分）

2、图形化的界面操作十分方便。

3、处理海量数据速度快、流程更清晰等。

三、ETL工具介绍

1、Datastage

IBM公司的商业软件，最专业的ETL工具，但同时价格不菲，适合大规模的ETL应用。

使用难度：★★★★

2、Informatica

商业软件，相当专业的ETL工具。价格上比Datastage便宜一点，也适合大规模的ETL应用。

使用难度：★★

3、Kettle

免费，最著名的开源产品，是用纯java编写的ETL工具，只需要JVM环境即可部署，可跨平台，扩展性好。

使用难度：★★

四、三种ETL工具的对比

Datastage、Informatica、Kettle三个ETL工具的特点和差异介绍：

1、操作

这三种ETL工具都是属于比较简单易用的，主要看开发人员对于工具的熟练程度。

Informatica有四个开发管理组件，开发的时候我们需要打开其中三个进行开发，Informatica没有ctrl+z的功能，如果对job作了改变之后，想要撤销，返回到改变前是不可能的。相比Kettle跟Datastage在测试调试的时候不太方便。Datastage全部的操作在同一个界面中，不用切换界面，能够看到数据的来源，整个job的情况，在找bug的时候会比Informatica方便。

Kettle介于两者之间。

2、部署

Kettle只需要JVM环境，Informatica需要服务器和客户端安装，而Datastage的部署比较耗费时间，有一点难度。

3、数据处理的速度

大数据量下Informatica与Datastage的处理速度是比较快的，比较稳定。Kettle的处理速度相比之下稍慢。

4、服务

Informatica与Datastage有很好的商业化的技术支持，而Kettle则没有。商业软件的售后服务上会比免费的开源软件好很多。

5、风险

风险与成本成反比，也与技术能力成正比。

6、扩展

Kettle的扩展性无疑是最好，因为是开源代码，可以自己开发拓展它的功能，而Informatica和Datastage由于是商业软件，基本上没有。

7、Job的监控

三者都有监控和日志工具。

在数据的监控上，个人觉得Datastage的实时监控做的更加好，可以直观看到数据抽取的情况，运行到哪一个控件上。这对于调优来说，我们可以更快的定位到处理速度太慢的控件并进行处理，而informatica也有相应的功能，但是并不直观，需要通过两个界面的对比才可以定位到处理速度缓慢的控件。有时候还需要通过一些方法去查找。

8、网上的技术文档

Datastage Informatica kettle,相对来说，Datastage跟Informatica在遇到问题去网上找到解决方法的概率比较低，kettle则比较多。

五、项目经验分享

在项目中，很多时候我们都需要同步生产库的表到数据仓库中。一百多张表同步、重复的操作，对开发人员来说是细心和耐心的考验。在这种情况下，开发人员最喜欢的工具无疑是kettle，多个表的同步都可以用同一个程序运行，不必每一张表的同步都建一个程序，而informatica虽然有提供工具去批量设计，但还是需要生成多个程序进行一一配置，而datastage在这方面就显得比较笨拙。

在做增量表的时候，每次运行后都需要把将最新的一条数据操作时间存到数据库中，下次运行我们就取大于这个时间的数据。Kettle有控件可以直接读取数据库中的这个时间置为变量；对于没有类似功能控件的informatica，我们的做法是先读取的数据库中的这个时间存到文件，然后主程序运行的时候指定这个文件为参数文件，也可以得到同样的效果

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：dnf装备被盗号的增幅碎了能找回么,地下城被盗装备找回增幅还有吗

下一篇：rc延时电路,rc延时电路实验

informatica介绍,informatica 产品

关于INFORMATICA

什么是Vibe？什么是虚拟数据机

如何将文本中的内容导入access数据库中

Informatica基础系列（七）——常见问题、注意事项

大数据etl工具有哪些

(责任编辑：IT教学网)

相关网页文字特效文章

阅读排行

专题教程

推荐网页文字特效文章

最新更新网页文字特效

informatica介绍,informatica 产品

关于INFORMATICA

什么是Vibe？什么是虚拟数据机

如何将文本中的内容 导入access数据库中

Informatica基础系列（七）——常见问题、注意事项

大数据etl工具有哪些

(责任编辑：IT教学网)

相关网页文字特效文章

阅读排行

专题教程

推荐网页文字特效文章

最新更新网页文字特效

如何将文本中的内容导入access数据库中