数据挖掘实验报告
更新时间:2024-03-17 04:39:01 阅读量: 综合文库 文档下载
数据挖掘实验报告
以SQL Server 2005提供的Adventureworks数据库为商业智能解决方案的数据源
201113050416 武晓焱
一、实验目的
1、学习数据挖掘的理论知识,理解数据挖掘的目的和意义。
2、熟悉SQL Server 2005的软件功能,并学习该软件对数据的分析作用。 3、根据软件提供的数据进行管理 二、实验步骤与分析过程
1、Adventureworks数据库设计的方面很多,但是我们的目标很简单,只有
以下三个:
1) 需要分析不同类别的产品通过直销在不同地区、不同时间段内销售
的业绩。
2) 生成分析结果的报表。
3) 分析影响客户所有车的数量的因素。
2、目标可以发现分析销售业绩基于的唯独有三个:产品、客户和时间,事实数据则为反通过映销售业绩的订单。 对于产品我们关心的是产品的名称和分类,由于产品和产品类别之间有一对多的关系,因此可以将这个维度设计为雪花模型。
对于客户,我们主要关心客户的姓名、年龄、性别、婚姻状态、孩子的状况、是否拥有房产、拥有汽车的数量,所在的地区、国家、省和城市等信息。
对于时间,我们只关心年、季度和月份,这些在数据库中不是显示存在的,但是可以从订单上的OrderDate字段中计算出来。
对于事实数据,我们只会关心订单中产品的价格、折扣、数量和总价的情况。
可以得到如下需求分析模型: 分析模型的事实表、维度表关系
3、数据转换和抽取(建立数据仓库)
1)首先使用Microsoft SQL Server Management Studio新建一个数据库
Sales_DW作为数据抽取的目标数据库,Adventureworks作为源数据库。 2)新建Integration Services项目Integration Sales,并在此项目中新建一个
SSIS包Integration Sales.dtsx,在次包中进行数据的抽取,整合等操作。 3)创建数据源
在Integration Sales项目下的数据源文件夹中添加两个新的数据源连接,一个连接源数据库Adventureworks,一个连接目标数据库Sales_DW,数据源名称分别Adventureworks和Sales_DW。 4) 设计SSIS包Integration Sales.dtsx
设计包的方法是从工具箱中将需要使用的容器、任务、可执行体等工具拖拽到包的SIS设计器窗口中,再对这些对象进行设计。 由于主要执行的是数据抽取工作,因此数据流任务是我们主要设置的任务。
数据抽取中所涉及的表主要有事实表FactSales,产品信息表DimTime以及客户信息表DimCustmer。
4、 抽取事实表FactSales的数据流任务的过程
1) 选中SSIS设计器的【控制流】标签,将工具箱中的【数据流任务】对象拖拽到SSIS设计器,并重命名为FactSales。
2) 双击【数据流任务】FactSales打开【数据流】标签,将【OLE DB源】拖至SSIS设计器上。
3) 打开【OLE DB源编辑器】,进行【OLE DB源】对象的设置。
在上述设计中需选中数据源Adventure works,并选择数据访问模式为【SQL 命令】,在【SQL 命令文本】中输入进行数据抽取的SQL语句。 4) 完成【OLE DB源】对象设置后,从工具箱中将【SQL Server目标】对象拖至SSIS设计器上,并选中【OLE DB源】对象,将其绿色连线拖拽至新添的【SQL Server目标】对象上。打开【SQL目标编辑器】,选中数据源Sales_DW,并新建表FactSales。
【SQL目标编辑器】对话框
完成后的数据流任务视图如下所示:
数据仓库中其他表的数据抽取设计步骤与FactSales相同,只是输入的SQL命令不同。
Integration Sales包的完整设计视图:
5) 建立OLAP和挖掘模型
(1) 创建OLAP多维数据集数剧源和数据源视图。
新建项目Sales Analysis,并添加到已有解决方案中。在此项目中
新建数据源选中已在Integration Sales项目中创建好的数据源Sales_DW。
新建数据源视图,选中数据源Sales_DW,并将FactSales、DimCategory、DimCustomer、DimTime和DimProduct选为视图【包含的对象】,命名此数据源视图为Sales DW View。
(2) 创建多维数据集
新建多为数据集Sales OLAP。选中数据源视图Sales DW View,并将FactSales选为事实表,其他表作为维度表。
由于时间维度DimTime和客户维度DimCustomer还分别具有时间层次结构和地理层次结构,因此还需要为这两个维度创建层次结构,如下所示:
多维数据集Sales OLAP的数据视图和结构
右击【多维数据集】Sales OLAP多维数据集,选中【处理】命令 【处理】结果:处理完毕后,分析人员就可以使用Sales OLAP对数据进行分析了
(3)使用多维数据集进行销售业绩分析
双击Salea OLAP多维数据集,选中【浏览】标签,将Total等相应字段脱脂浏览器选项页的正确位置,则右下侧表格中将出现此类别产品的销售业绩。
所有自行车在不同地区不同时段内销售的业绩
(5)建立数据挖掘结构和数据挖掘模型
从【现有多为数据集】新建挖掘结构Dim Customer,挖掘技术选择【Microsoft决策树】。
将NumberCarsOwned作为可以预测列,其他列作为输入。
右击【挖掘结构】Dim Customer,选择【处理】命令,完成对挖掘结构的部署和处理。
单机设计器上的【挖掘模型查看器】标签,在设计器上会显示挖掘结果。 影响客户所有车的数量的因素挖掘模型:
正在阅读:
数据挖掘实验报告03-17
情人节日记800字03-21
神经衰弱怎么办?怎么食疗好文档(2)03-07
土豆炖鸡块的家常做法有哪些12-15
基层党支部换届选举程序(详细流程)11-15
2019年整理公安预备党员转正申请书09-20
研究生毕业典礼邀请函03-15
2018黑龙江省哈尔滨市第三中学2018年高三第三次高考模拟考试题+语文含参考答案09-20
企业管理咨询案例分析(全程强化班)-22 - 讲义03-06
高中学生会招新策划书4篇04-01
- 亚信联创4A白皮书
- 贵州省白酒出口发展现状及对策
- 2017年劳动合同书范本
- 操作系统课后题答案二
- 福建师范大学18年3月课程考试《国际法》作业考核试题
- 浅谈我国的社会分层现状
- 360度绩效考核体系文件实例(DOC+21页)
- 2012年青岛市高三统一质量检测高三数学试题理科
- 化学必修2复习 知识点归纳
- 中国热固性塑粉行业市场前景分析预测报告(目录) - 图文
- 应收账款大学优秀毕业论文
- 2018年北京社保补贴政策word版本(4页)
- 系统动力学软件VENSIM PLE教程
- 创造力成分理论及其应用研究
- GCP知识学习要点
- 病理课后题
- 浙江省大学物理试题库412-浙江工商大学
- 乡镇人民代表大会程序大全
- 浅析新媒体环境下信息化科普的发展—渝北区双龙湖街道文化服务中
- 天大历年试题分类
- 数据挖掘
- 实验
- 报告