IBM SPSS Modeler 说明
数据挖掘和建模
数据挖掘是一个深入您的业务数据,以发现隐藏的模式和关系的过程。数据挖掘解决了一个常见的问题:您拥有的数据越多,就越难有效地分析并得出数据的意义,并且耗时也越长。金矿无法开采,通常是由于缺乏人力、时间或专业技术。
数据挖掘使用清晰的业务流程和强大的分析技术,快速、彻底地探索大量的数据,抽取并为您提供有用且有价值的信息,这正是您所需要的“商务智能”。
尽管您数据中的这些以前未知的模式和关系本身很有趣,但一切并不止于此。如果您可以使用这些过去行为的模式来预测未来可能发生的事情,那又会怎样?这就是建模的目标 - 模型,它包含一组从源数据中抽取的规则、公式或方程式,并允许您通过它们生成预测结果。这正是预测分析的核心。
关于预测分析
预测分析是一个业务流程,其中包含一组相关技术,通过从您的数据中总结出有关当前状况与未来事件的可靠结论,帮助制定有效的行动措施。它是以下方面的组合: ? 高级分析 ? 决策优化
高级分析使用多种工具和技术,分析过去与现在的事件,并预测未来的结果。决策优化确定您的哪些措施可以产生最好的可能结果,并确保这些建议措施能够最有效地融入到您的业务流程中。 有关预测分析如何工作的深入信息,请访问公司网
站 http://www.spss.com/predictive_analytics/work.htm。
建模技术
建模技术基于对算法的使用,算法是解决特定问题的指令序列。您可以使用特定算法创建相应类型的模型。有三种主要的建模技术类别,IBM? SPSS? Modeler 为每种类别提供了一些示例: ? Classification ? 关联
? 细分(有时称为“聚类”)
分类模型使用一个或多个输入字段的值来预测一个或多个输出(或目标)字段的值。这些技术的部分示例为:决策树(C&R 树、QUEST、CHAID 和 C5.0 算法)、回归(线性、logistic、广义线性和 Cox 回归算法)、神经网络、Support Vector Machine (SVM) 和贝叶斯网络。
关联模型查找您数据中的模式,其中一个或多个实体(如事件、购买或属性)与一个或多个其他实体相关联。这些模型构建定义这些关系的规则集。数据中的字段可以作为输入和目标。您可以手动查找
这些关联,但关联规则算法可以更快速地完成,并能探索更多复杂的模式。Apriori 和 Carma 模型是使用此类算法的示例。另一种类型的关联模型是序列检测模型,后者可以在按时间建立结构的数据中查找顺序模式。
细分模型将数据划分为具有类似输入字段模式的记录段或聚类。细分模型只对输入字段感兴趣,没有输出或目标字段的概念。细分模型的示例为 Kohonen 网络、K-Means 聚类、两步聚类和异常检测等。
我如何知道使用哪种技术?
有这样种类繁多的技术摆在面前,很难知道从哪里开始解决您的特定问题。幸运的是,IBM? SPSS? Modeler 可以通过自动化建模形式替您做出其中的部分决定。这是一种功能强大的技术,它能评估和比较多种不同建模方法,并按有效性顺序对它们进行排序。这样,您可以在单次建模运行中尝试多种方法。 自动建模
使用说明
要启动该应用程序,请从 Windows“开始”菜单的 SPSS Inc 程序组中选择IBM? SPSS? Modeler 14.1。几秒钟后,屏幕上将显示主窗口。
在数据挖掘过程中的每一个阶段,均可通过 IBM? SPSS? Modeler 易于使用的界面来邀请特定业务的专家。建模算法(如预测、分类、细分和关联检测)可确保得到强大而准确的模型。模型结果可以方便地部署和读入到数据库、IBM? SPSS? Statistics 和各种其他应用程序中。 使用 SPSS Modeler 即处理数据的三个步骤。 ? 首先,将数据读入 SPSS Modeler, ? 然后,然后通过一系列操纵运行数据, ? 最后,将数据发送到目标位置。
这一操作序列称为数据流,因为数据以一条条记录的形式,从数据源开始,依次经过各种操纵,最终到达目标(模型或某种数据输出)
流工作区是 IBM? SPSS? Modeler 窗口的最大区域,也是您构建和操纵数据流的位置。
通过在界面的主工作区中绘制与业务相关的数据操作图表来创建流。每个操作都用一个图标或节点表示,这些节点通过流链接在一起,流表示数据在各个操作之间的流动。
在 SPSS Modeler 中,可以在同一流工作区或通过打开新的流工作区来一次处理多个流。会话期间,流存储在 SPSS Modeler 窗口右上角的“流”管理器中。
IBM? SPSS? Modeler 中的大部分数据和建模工具位于节点选项板中,该选项板位于流工作区下方窗口的底部。
例如,可以使用“记录选项”选项板选项卡中包含的节点对数据记录执行操作,如选择、合并和追加等。 要将节点添加到工作区,请在节点选项板中双击图标或将其拖放到工作区。随后可将各个图标连接以创建一个表示数据流动的流。
每个选项板选项卡均包含一组不同的流操作阶段中使用的相关节点,如: ? 源。此类节点可将数据引入 SPSS Modeler。
? 记录选项。此类节点可对数据记录执行操作,如选择、合并和追加等。
? 字段选项。此类节点可对数据字段执行操作,如过滤、导出新字段和确定给定字段的测量级别等。 ? 图形。此类节点可在建模前后以图表形式显示数据。图形包括散点图、直方图、网络节点和评估图表。
? 建模。此类节点可使用 SPSS Modeler 中提供的建模算法,如神经网络、决策树、聚类算法和数据排序等。
? 数据库建模。 节点使用 Microsoft SQL Server、IBM DB2 和 Oracle 数据库中可用的建模算法。 ? 输出。节点生成可在 SPSS Modeler 中查看的数据、图表和模型等多种输出结果。
? 导出。节点生成可在外部应用程序(如 IBM? SPSS? Data Collection 或 Excel)中查看的多种输出。
? SPSS Statistics。 节点将数据导入 IBM? SPSS? Statistics 或从中导出数据,以及运行 SPSS Statistics 过程。
随着对 SPSS Modeler 的熟悉,您也可以自定义供自己使用的选项板内容。 可以使用“流”选项卡打开、重命名、保存和删除在会话中创建的流。
“输出”选项卡中包含由 IBM? SPSS? Modeler 中的流操作生成的各类文件,如图形和表格。您可以显示、保存、重命名和关闭此选项上列出的表格、图形和报告。
“模型”选项卡是管理器选项卡中功能最强大的选项卡。该选项卡中包含所有模型块,这些模型块包含针对当前会话在 SPSS Modeler 中生成的模型。这些模型可以直接从“模型”选项卡上浏览或将其添加到工作区的流中。
窗口右侧底部是工程工具,用于创建和管理数据挖掘工程(与数据挖掘任务相关的文件组)。有两种方式可查看您在 IBM? SPSS? Modeler 中创建的工程 - 类视图或 CRISP-DM 视图。
依据“跨行业数据挖掘过程标准”,这一业内认可且无所属的方法理论,“CRISP-DM”选项卡提供了一种组织工程的方式。不论是有经验的数据挖掘人员还是新手,使用 CRISP-DM 工具都会使您事半功倍。
“类”选项卡提供了一种在 SPSS Modeler 中按类别(即,按照所创建对象的类别)组织您工作的方式。此视图在获取数据、流、模型的详尽目录时十分有用。
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新资格考试认证IBM SPSS Modeler 教程-(1) 全文阅读和word下载服务。
相关推荐: