数据挖掘实验报告

更新时间:2024-03-17 04:39:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数据挖掘实验报告

以SQL Server 2005提供的Adventureworks数据库为商业智能解决方案的数据源

201113050416 武晓焱

一、实验目的

1、学习数据挖掘的理论知识,理解数据挖掘的目的和意义。

2、熟悉SQL Server 2005的软件功能,并学习该软件对数据的分析作用。 3、根据软件提供的数据进行管理 二、实验步骤与分析过程

1、Adventureworks数据库设计的方面很多,但是我们的目标很简单,只有

以下三个:

1) 需要分析不同类别的产品通过直销在不同地区、不同时间段内销售

的业绩。

2) 生成分析结果的报表。

3) 分析影响客户所有车的数量的因素。

2、目标可以发现分析销售业绩基于的唯独有三个:产品、客户和时间,事实数据则为反通过映销售业绩的订单。 对于产品我们关心的是产品的名称和分类,由于产品和产品类别之间有一对多的关系,因此可以将这个维度设计为雪花模型。

对于客户,我们主要关心客户的姓名、年龄、性别、婚姻状态、孩子的状况、是否拥有房产、拥有汽车的数量,所在的地区、国家、省和城市等信息。

对于时间,我们只关心年、季度和月份,这些在数据库中不是显示存在的,但是可以从订单上的OrderDate字段中计算出来。

对于事实数据,我们只会关心订单中产品的价格、折扣、数量和总价的情况。

可以得到如下需求分析模型: 分析模型的事实表、维度表关系

3、数据转换和抽取(建立数据仓库)

1)首先使用Microsoft SQL Server Management Studio新建一个数据库

Sales_DW作为数据抽取的目标数据库,Adventureworks作为源数据库。 2)新建Integration Services项目Integration Sales,并在此项目中新建一个

SSIS包Integration Sales.dtsx,在次包中进行数据的抽取,整合等操作。 3)创建数据源

在Integration Sales项目下的数据源文件夹中添加两个新的数据源连接,一个连接源数据库Adventureworks,一个连接目标数据库Sales_DW,数据源名称分别Adventureworks和Sales_DW。 4) 设计SSIS包Integration Sales.dtsx

设计包的方法是从工具箱中将需要使用的容器、任务、可执行体等工具拖拽到包的SIS设计器窗口中,再对这些对象进行设计。 由于主要执行的是数据抽取工作,因此数据流任务是我们主要设置的任务。

数据抽取中所涉及的表主要有事实表FactSales,产品信息表DimTime以及客户信息表DimCustmer。

4、 抽取事实表FactSales的数据流任务的过程

1) 选中SSIS设计器的【控制流】标签,将工具箱中的【数据流任务】对象拖拽到SSIS设计器,并重命名为FactSales。

2) 双击【数据流任务】FactSales打开【数据流】标签,将【OLE DB源】拖至SSIS设计器上。

3) 打开【OLE DB源编辑器】,进行【OLE DB源】对象的设置。

在上述设计中需选中数据源Adventure works,并选择数据访问模式为【SQL 命令】,在【SQL 命令文本】中输入进行数据抽取的SQL语句。 4) 完成【OLE DB源】对象设置后,从工具箱中将【SQL Server目标】对象拖至SSIS设计器上,并选中【OLE DB源】对象,将其绿色连线拖拽至新添的【SQL Server目标】对象上。打开【SQL目标编辑器】,选中数据源Sales_DW,并新建表FactSales。

【SQL目标编辑器】对话框

完成后的数据流任务视图如下所示:

数据仓库中其他表的数据抽取设计步骤与FactSales相同,只是输入的SQL命令不同。

Integration Sales包的完整设计视图:

5) 建立OLAP和挖掘模型

(1) 创建OLAP多维数据集数剧源和数据源视图。

新建项目Sales Analysis,并添加到已有解决方案中。在此项目中

新建数据源选中已在Integration Sales项目中创建好的数据源Sales_DW。

新建数据源视图,选中数据源Sales_DW,并将FactSales、DimCategory、DimCustomer、DimTime和DimProduct选为视图【包含的对象】,命名此数据源视图为Sales DW View。

(2) 创建多维数据集

新建多为数据集Sales OLAP。选中数据源视图Sales DW View,并将FactSales选为事实表,其他表作为维度表。

由于时间维度DimTime和客户维度DimCustomer还分别具有时间层次结构和地理层次结构,因此还需要为这两个维度创建层次结构,如下所示:

多维数据集Sales OLAP的数据视图和结构

右击【多维数据集】Sales OLAP多维数据集,选中【处理】命令 【处理】结果:处理完毕后,分析人员就可以使用Sales OLAP对数据进行分析了

(3)使用多维数据集进行销售业绩分析

双击Salea OLAP多维数据集,选中【浏览】标签,将Total等相应字段脱脂浏览器选项页的正确位置,则右下侧表格中将出现此类别产品的销售业绩。

所有自行车在不同地区不同时段内销售的业绩

(5)建立数据挖掘结构和数据挖掘模型

从【现有多为数据集】新建挖掘结构Dim Customer,挖掘技术选择【Microsoft决策树】。

将NumberCarsOwned作为可以预测列,其他列作为输入。

右击【挖掘结构】Dim Customer,选择【处理】命令,完成对挖掘结构的部署和处理。

单机设计器上的【挖掘模型查看器】标签,在设计器上会显示挖掘结果。 影响客户所有车的数量的因素挖掘模型:

本文来源:https://www.bwwdw.com/article/j4h8.html

Top