当前所在位置:珠峰网资料 >> 职业资格 >> 电子商务师 >> 正文
2015电子商务基础知识辅导2.3:数据管理技术
发布时间:2011/5/6 10:18:09 来源:城市学习网 编辑:ziteng
  2.3 数据管理技术
  计算机与人类相比的最大优势就是能够迅速准确地处理大量的数据,所以,从计算机诞生之口起,数据处理就是它的基本功能和关键技术。数据处理的中心问题是数据管理。数据管理技术是指对数据进行分类、组织、编码、存储、检索和维护的技术。
  对电子商务来说,数据管理是电子商务平台建设的一项支撑技术,数据管理对电子商务的支持主要表现在:提供电子商务中各种数据的存储和管理,为电子商务提供决策支持。
  2.3.1 数据库技术的产生与发展
  数据库技术是数据管理技术发展的高级阶段:数据管理技术的发展是和计算机技术及其应用的发展联系在一起的,经历了由低级到高级的发展过程。这一过程大致可分如下四个阶段:人工管理阶段、文件系统阶段、数据库阶段和高级数据库阶段。
  一、人工管理阶段
  人工管理阶段是指 20 世纪 50 年代中期以前的阶段。当时计算机处理发展初期,计算机主要用于科学计算,所用的数里并不很多,而且数据的结构一般都比较简单,计算机本身的功能很弱,没有大容量的外存和操作系统,程序的运行由简单的管理程序来控制。这一阶段的特点主要是:数据作为程序的组成部分不能独立存在,不能长期保存在计算机中;数据大量冗余,而且不能共享,无专门的软件对数据进行管理。  
  二、文件系统阶段
  文件系统阶段指从20世纪50年代到 60 年代中期这一阶段。在这一阶段里,由于计算机技术的发展,出现了磁带、磁鼓和磁盘等较大容量的存储设备,软件方面有操作系统,计算机的应用范围也由科学计算领域扩展到数据处理领域、如图2-17所示。这一阶段的特点是:数据可以以操作系统的文件形式长期保存在计算机中,并提供了对数据的输人和输出操作接口,一个应用程序可以使用多个文件,一个文件可为多个应用程序使用,数据可以共享。但数据面向应用,文件之间彼此孤立,仍然存在数据大量冗余和不一致性。
  三、数据库系统阶段
  从 20 世纪60年代后期开始,随着计算机硬件和软件技术的发展,开展了对数据组织方一法的研究,并开发了对数据进行统一管理和控制的数据管理系统,在计算机科学领导中逐步形成厂数据库技术这一独立分支。数据管理中数据的定义、操作及控制系统由数据管理系统来完成。在数据库系统阶段,应用程序和数据的对应关系如图2-18所示。其主要特点是:采用一定的数据模型来组织数据.数据不再面向应用,而是面向系统;程序独立于数据。数据的冗余少。减少了数据的下一致性;提供了数据的完整性、数据的安全性、数据的并发控制和数据的可恢复性功能。
  四、高级数据库技术阶段
  从20世纪70年代后期开始,计算机广泛地与其他学科技术相互结合和相互渗透,在数据库领域中产生了许多新型数据库,其中有些已经成熟并进入实用阶段。下面对具有代表性的分布式数据和面向对象的数据库作一个简单的介绍。
  (1)分布式数据库
  分布式数据库是数据库技术和计算机网络技术相互渗透和有机结合的产物,由一组数据组成.这些数据物理上分布在计算机网络的不同结点上既能完成本地的局部应用,又参与涉及多个场地的全局应用,即这些分布的数据逻辑上属于同一个整体。分布式数据库强调了数据与处理的分布性。各场地的自治性和数据的逻粗辑整体性。分布性是指数据不是存储在一台计算机的存储没备中,从而和集中式数据库相区别;自治性是各场地相互独立,完成本地应用,并无主次之分;逻辑整体性是指在逻辑上与集中式数据库相同。数据是一个整体,而不是分散在计算机网络不同结点上的各自逻辑独立的数据库(或文件系统)。
  (2)面向对象的数据库
  20世纪60年代末期,在程序设计语言领域中引入了面向对象的概念。通过面向对象的程序设计来解决程序中的重要问题,将面向对象的概念引人数据库领域,产生了面向对象数据库系统。
  面向对象技术最重要的进展是,数据和数据操作的方法作为对象由面向对象的数据库管理系统来统一管理,任何被开发的应用都成为对象目标库的一部分,由开发者和用户所共享。共享缩小了数据库和应用程序间的差距,降低了应用程序的开发费用,同时也减少了系统出现问题的可能性。同时,面向对象技术中所用的方法,能精确处理现实世界中复杂的目标对象,例如图像、声音、文本、文件等,都可以定义为抽象的数据类型,而且在系统运行时可对它们的内容进行检查。在面向对象技术中,属性的继承性使得在对象中共享数据和操作成为可能,使对象之间的通信成为数据和程序间交换信息的标准。面向对象的数据库技术已经可以处理复杂的企业范围内变化的事务对象。  [NextPage]   2.3.2 数据库技术基本理论
  电子商务是指利用电子及网络进行的商务活动:这里的电子网络主要是指Internet和基于Internet技术的Intranet(企业内部网)、Extranet(企业外部网)。所进行的商务活动不仅包含电子数据交换所涉及的电了交易,还包括电了函件交流、网上站点宣传和利用Internet技术改造的其他传统应用。但电子商务应用的前提是企业管理信息系统得广泛使用。数据库技术是企业管理信息系统的核心技术之一。所以,想深入地理解电子商务就应该了解数据库的一些基本理论。
  一、数据和信息
  所谓数据就是为反映客观世界而记录下来的可以鉴别的符号,可以是数字、字符、图形、图像、声音等。而信息是指经过解释的数据,能解决或减少人们的对客观事物认识的不确定性。数据和信息之间的区别和联系是:数据是纯客观的,只单纯反映客观事物的性质,并不说明该事物对主观的作用与数据只是信息的载体,是表达和传递信息的工具。数据经过加工处理可以上升为信息。同一信息可以用不同形式的数据表达,而不改变信息的内容。
  二、数据模型
  数据模型是对现实世界中的数据和信息进行抽象、表示和处理的工具,是对现实世界的模拟,也是数据库系统中用于提供信息表示和操作手段的形式构架,通常其构成是:数据结构,包括数据对象及其相互联系;数据操作,主要是对数据的检索和更新。
  数据的约束条件是完整性规则的集合。完整性规则是指在给定的数据模型中数据及其联系所具有的制约和依存规则。在数据库系统中,主要的数据模型有:层次模型(Hierarchical Model)、网状模型(Network Model)、和关系模型(Relational Model)。
  (1)层次模型(Hierarchical Model)
  用树型结构来表示实体型及其联系的数据模型称为层次模型,在这种结构中每个结点表示一个记录类型,连线表示两个记录之间的关系,位于上层的结点称为双亲结点,下层则为子女结点。树的最高层只有一个结点,成为根结点。如图2-20就是某学校的一个层次模型。图中“教研室”结点就是“教师”的双亲结点,而“教师”结点就是子女结点。
  由于除一个没有双亲结点的根结点之外,任何结点有且只有一个双亲结点,所以只能直接表示一对多的实体联系(包括一对一,多对多关系须分解成一对多的联系)。
  (2)网状模型(Network model )
  网状模型比层次模型更具普遍性。它允许多个结点没有双亲结点,也允许一个结点有多个双亲结点,允许两个结点之间有多种联系。所以网状模型可以直接地描述现实世界,特别适合处理多对多的联系。
  图2-20 产品网状模型
  在图2-19中,客户和产品结点都没有双亲结点,订单明细结点有两个双亲结点,所以该数据模型不属于层次模型,而属于网状模型。
  (3)关系模型(Relational model)
  关系模型是三种数据库中最重要的模型,也是现在用的最广的模型。其数据结构的基本思想是将实体之间的联系以二维表的结构来表示。一个二维表就是一个关系;二维表中的一行代表一个实体,由实体的若干属性组成,称为记录;二维表中的一列为关系一个属性,称为数据项。
  目前大部分数据库采用的是关系型数据库,如 Sybase、SQL Server、Oracle、Access等。
  关系数据库设计之时是要遵守一定的规则的。尤其是数据库设计范式,现简单介绍1NF(第一范式),2NF(第二范式),3NF(第三范式)和BCNF,另有第四范式和第五范式(本教材不作介绍)。
  数据库的设计范式是数据库设计所需要满足的规范,满足这些规范的数据库是简洁的、结构明晰的,同时,不会发生插入(insert)、删除(delete)和更新(update)操作异常。反之则是乱七八糟,不仅给数据库的编程人员制造麻烦,而且面目可憎,可能存储了大量不需要的冗余信息。
  第一范式(1NF):
  数据库表中的字段都是单一属性的,不可再分。这个单一属性由基本类型构成,包括整型、实数、字符型、逻辑型、日期型等。
  很显然,在当前的任何关系数据库管理系统(DBMS)中,谁也不可能做出不符合第一范式的数据库,因为这些DBMS不允许你把数据库表的一列再分成二列或多列。因此想在现有设计中设计出不符合第一范式的数据库都不可能。
  第二范式(2NF):
  数据库表中不存在非关键字段对任一候选关键字段的部分函数依赖(部分函数依赖指的是存在组合关键字中的某些字段决定非关键字段的情况),也即所有非关键字段都完全依赖于任意一组候选关键字。
  假定选课关系表为SelectCourse(学号,姓名,年龄,课程名称,成绩,学分),关键字为组合关键字(学号,课程名称),因为存在如下决定关系:
  (学号,课程名称) → (姓名,年龄,成绩,学分)
  这个数据库表不满足第二范式,因为存在如下决定关系:
  (课程名称)→(学分)
  (学号)→(姓名,年龄)
  即存在组合关键字中的字段决定非关键字的情况。
  由于不符合2NF,这个选课关系表会存在如下问题:
  (1)数据冗余:同一门课程由n个学生选修,“学分”就重复n-1次;同一个学生选修了m门课程,姓名和年龄就重复了m-1次。
  (2)更新异常:若调整了某门课程的学分,数据表中所有行的“学分”值都要更新,否则会出现同一门课程学分不同的情况。
  (3)插入异常:假设要开设一门新的课程,暂时还没有人选修。这样,由于还没有“学号”关键字,课程名称和学分也无法记录入数据库。
  (4)删除异常:假设一批学生已经完成课程的选修,这些选修记录就应该从数据库表中删除。但是,与此同时,课程名称和学分信息也被删除了。很显然,这也会导致插入异常。
  把选课关系表SelectCourse改为如下三个表:
  学生:Student(学号,姓名,年龄);
  课程:Course(课程名称,学分);
  选课关系:SelectCourse(学号,课程名称,成绩)。
  这样数据库表是符合第二范式的,消除了数据冗余、更新异常、插入异常和删除异常。
  另外,所有单关键字的数据库表都符合第二范式,因为不可能存在组合关键字。
  第三范式(3NF):
  在第二范式的基础上,数据表中如果不存在非关键字段对任一候选关键字段的传递函数依赖则符合第三范式。所谓传递函数依赖,指的是如果存在“A→B→C”的决定关系,则C传递函数依赖于A。因此,满足第三范式的数据库表应该不存在如下依赖关系:
  关键字段→非关键字段x→非关键字段y
  假定学生关系表为Student(学号,姓名,年龄,所在学院,学院地点,学院电话),关键字为单一关键字“学号”,因为存在如下决定关系:
  (学号)→(姓名,年龄,所在学院,学院地点,学院电话)
  这个数据库是符合2NF的,但是不符合3NF,因为存在如下决定关系:
  (学号)→(所在学院)→(学院地点, 学院电话)
  即存在非关键字段“学院地点”、“学院电话”对关键字段“学号”的传递函数依赖。
  它也会存在数据冗余、更新异常、插入异常和删除异常的情况。
  把学生关系表分为如下两个表:
  学生:(学号,姓名,年龄,所在学院);
  学院:(学院,地点,电话)。
  这样数据库表是符合第三范式的,消除了数据冗余、更新异常、插入异常和删除异常。
  鲍依斯-科得范式(BCNF):
  在第三范式的基础上,数据库表中如果不存在任何字段对任一候选关键字段的传递函数依赖则符合BCNF范式。
  假设仓库管理关系表为StorehouseManage(仓库ID,存储物品ID,管理员ID,数量),且有一个管理员只在一个仓库工作;一个仓库可以存储多种物品。这个数据库表中存在如下决定关系:
  (仓库ID,存储物品ID)→(管理员ID,数量)
  (管理员ID,存储物品ID)→(仓库ID,数量)
  所以,(仓库ID,存储物品ID)和(管理员ID,存储物品ID)都是StorehouseManage的候选关键字,表中的唯一非关键字段为数量,它是符合第三范式的。但是,由于存在如下决定关系:
  (仓库ID)→(管理员ID)
  (管理员ID)→(仓库ID)
  即存在关键字段决定关键字段的情况,所以其不符合BCNF范式。会出现如下异常情况:
  (1) 删除异常:当仓库被清空后,所有“存储物品ID”和“数量”信息被删除的同时,“仓库ID”和“管理员ID”信息也被删除了。
  (2) 插入异常:当仓库没有存储任何物品时,无法给仓库分配管理员。
  (3) 更新异常:如果仓库换了管理员,则表中所有行的管理员ID都要修改。
  把仓库管理关系表分解为二个关系表:
  仓库管理:StorehouseManage(仓库ID,管理员ID);
  仓库:Storehouse(仓库ID,存储物品ID,数量)。
  这样的数据库表是符合BCNF范式的,消除了删除异常、插入异常和更新异常。
  三、数据库系统的组成
  数据库系统主要由数据库管理系统(Data Base Management System, DBMS)、数据库(Data Base , DB)、应用程序(Applied Program ,AP)、计算机系统(Computer System, CS)、数据库管理员(Data Base Administrator, DBA)构成。
  数据库管理系统(DBMS)是为数据库的建立、使用和维护而配置的软件,是数据库系统的核心部分组成。它建立在操作系统的基础上,对数据库进行统一的管理和控制。用户使用的各种数据库命令以及应用程序的执行,都要通过数据库管理系统。数据库管理系统还承担着数据库的维护工作,按照DBA所规定的要求,保证数据库的安全性和完整性。
  四、数据库技术的发展趋势
  随着表示结构化信息的数据库与数据仓库技术发展迅速,除了目前广泛应用的关系型数据库管理系统(如Sybase、Oracle等),近年来还出现了一些新的发展方向,如面向对象的数据库(OODB)、多维数据库(MDDB)、主动数据库、多媒体数据库等。数据库技术还与其他多学科技术的有机组合,形成面向专门应用领域的数据库技术,如数据挖掘DM(Data Mining)、数据库中的知识发现KDD(Knowledge Discovery in Database)、智能代理(Agents)、智能信息检索技术等等。 [NextPage]   2.3.3 数据仓库、联机分析处理和数据挖掘
  一、数据仓库(Date warehouse)
  传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理到决策分析等各种类型的数据处理工作。近年来,随着计算机应用,网络计算,开始向两个不同的方向拓展,一是广度计算,一是深度计算,广度计算的含义是把计算机的应用范围尽量扩大,间时实现广泛的数据交流,互联网就是广度计算的特征,另一方面就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。
  经过数十年的发展,在企业的数据库中已经保存了大量的日常业务数据,并且传统的业务系统一般也是直接建立在这种事务处理环境上的。随着技术的进步,人们逐渐认识到,在目前的计算机处理能力上,事物处理和分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通的。
  事务处理环境不适宜DSS(决策支持系统)应用的原因主要有以下五条:
  (1)事务处理和分析处理的性能特性不同
  在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为模式与此完全不同,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。
  (2)数据集成问题
  DSS需要集成的数据。全面而正确的数据是进行有效分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。
  (3)数据动态集成问题
  静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如24小时)进行刷新,显然,事务处理系统不具备动态集成的能力。
  (4)历史数据问题
  事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,且不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。
  (5)数据的综合问题
  在事务处理系统中积累了大量的细节数据,一般而台,DSS并不对这些细节数据进行分析:在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。
  要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。因此,必须把分析型数据从事务处理环境中提取出来,按照 DSS 处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境中出现的一种数据存储和组织技术。著名的数据仓库专家W.H.Inmon在其著作《Building the Data warehouse》 一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non –Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
  根据数据仓库概念的含义,数据仓库拥有以下四个特点:
  (1)面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
  (2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
  (3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进人数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
  (4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到月前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
  整个数据仓库系统是一个包含四个层次的体系结构。
  数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规,市场信息和竞争对手的信息等等。
  数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库。同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
  OLAP服务器:对分析需要的数据进行有效集成。按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中; MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
  前端工具主要包括各种报表工具、查询、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
  数据仓库组织和管理数据的方法与普通数据库不同。主要表现在三个方面:
  (1)它依据决策要求,只从数据库中抽取那些需要的数据,并进行预处理,使系统获得特定的数据格式。
  (2)数据仓库是多维的,即数据仓库的数据的组织方式有多层的行和列。
  (3)它支持决策处理,不同于普通的事务处理。
  数据仓库需要以下数据库技术的支持:
  (1)并行/分布式数据库技术。数据仓库中的数据量很大,一般要达到 GB 级,有的甚至要到TB 级。对于处理如此大规模的数据,使用并行/分布式技术对提高运行效率是很有帮助的。
  (2)高性能的数据库服务器。传统数据库的应用是操作型的,而数据仓库的应用是分析型的,它需要有高性能的数据库服务器配合工作,对DBMS核心的性能也有更高的要求。
  (3)数据库互操作技术。数据仓库的数据来源多种多样,可能来自数据库,也可能来自文件系统。即使都来自数据库,这些数据库也往往是异构的。为了从这些异构数据源中定期抽取、转换和集成所需要的数据存人库中,异构数据源之间的互操作技术是必需的。
  数据仓库技术是近几年发展起来的,很多企业都建立了数据仓库。但企业数据仓库的建设是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。
  二、联机分析处理(On – Line Analytical Processing)
  联机分析处理(OLAP)的概念最早是由关系数据库之父EF Codd于1993 年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要, SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多维分析的概念,即OLAP。
  联机分析处理是针对特定问题的联机数据访问和分析。通过对信息的多种可能的观察形式进行快速、稳定和交互性的存取,允许管理决策人员对数据进行深人观察,使分析人员、管理人员或决策者能够从多种角度,对从原始数据中转化出来的、真正为用户所理解、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据更深人了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表及对应的图形分析展示的需求。联机分析处理技术的发展速度很快,在数据仓库的概念提出不久,联机分析处理的理论及相应工具就被相继推出了。
   OLAP的提出引起了很大的反响。联机分析处理OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 OLAP能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”这个概念。“维”是人们观察客观世界的角度,是一种高层次的类型划分、“维”一般包含层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维 (Dimension) ,使用户能对不同维上的数据进行比较。比如一维专利情报分析,可以以时间为横轴、专利申请量(或批准量)为纵轴,统计专利量随时间的变化规律。历年申请的专利数量、专利引文数量变化可以确定该技术的发展趋势及活跃时期;面对不同技术领域的专利进行时间分布的对比研究,可以确定在某一时期内,哪些技术领域比较活跃,哪些技术领域处于停滞状态。因此OLAP也可以说是多维数据分析工具的集合。 OLAP的基本多维分析操作有钻取、切片和切块以及旋转等。 OLAP工具可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。
   OLAP 是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么( What happened) , OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然后用 OLAP 检索数据库来验证这个假设是否正确。比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收人的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收人和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。
  三、数据挖掘(Data Mining)
  当今数据库的容量已经达到上万亿的水平(T)——1000,000,000,000个字节。在这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些“知识”呢?也就是怎样通过一颗颗的树木了解到整个森林的情况。、
  计算机科学对这个问题给出的最新回答就是:数据挖掘。在“数据矿山”中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回报,数据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略(把产品推广给最需要的人),以用最小的花费创造最好的销售。
  (1)数据挖掘的定义
  数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
  人们把原始数据看作是形成知识的源泉.就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门非常广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
  (2)数据挖掘研究内容和本质
  随着数据挖掘与知识发现(Data Mining and Knowledge Discovery,简称 DMKD)研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱:数据库、人工智能和数理统计。因此,数据库中的知识发现( Knowledge discovery in database,简称 KDD )大会程序委员会曾经由这三个学科的权威人物同时来任主席。目前 DMKD 的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量玩换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。数据挖掘所发现的知识最常见的有以下四类:
  ①广义知识(Generalization)
  广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。
  广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。数据立方体还有其他一些别名,如“多维数据库”、“实现视图”、“OLAP ”等。该方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。既然很多聚集函数需经常重复计算,那么在多维数据仅方体中存放预先计算好的结果将能保证快速响应,并可灵活地提供不同角度和不同抽象层次上的数据视图。。另一种广义知识发现方法是加拿大Simon Fraser大学提出的面向属性的归约方法。这种方法以类 SQL语言表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。
  ②关联知识(Association)
  它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法。关联规则的发现可分为两步:第一步是迭代识别所有的频繁项日集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。
  ③分类知识(Classification & Clustering )
  它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学习方法该方法先根据训练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的属性,该分枝对应该属性的某一可能值。最为典型的决策树学习系统是ID3,它采用自顶向下不回溯策略,能保证找到一个简单的树。算法C4.5和C5.0都是ID3的扩展,它们将分类领域从类别属性扩展到数值型属性。
  数据分类还有统计、粗糙集(Rough Set)等方法。线性回归和线性辨别分析是典型的统计模型、为降低决策树生成代价,人们还提出了一种区间分类器。最近也有人研究使用神经网络方法在数据库中进行分类和规则提取。
  ④预测型知识(Prediction )
  它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。
  目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。 1968 年Box和jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整模型等,进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。
  ⑤偏差型知识(Deviation)
  此外,还可以发现其他类型的知识,如偏差型知识(Deviation ) ,它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。
  (3)数据挖掘的功能
  数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。
  ①自动预测趋势和行为
  数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手上分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其他可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
  ②关联分析
  数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
  ③聚类
  数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。。聚类技术主要包括传统的模式识别方法和数学分类学。 20 世纪 80 年代初, Mchalski 提出了概念聚类技术,其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
  ④概念描述
  概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
  ⑤偏差检测
  数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。要保证数据挖掘成功的两个关键要素是:一是准确的定义你所要解决的问题,定位准确的问题通常会带来最好的回报。二是使用正确的数据,选定了你所能得到的数据,也许还要从外部购买数据,你需要对这些数据做有效的数据整合和转换。
  (4)数据挖掘未来研究方向
  当前,DMKD研究方兴未艾,其研究与开发的总体水平相当于数据库技术在20世纪70年代所处的地位,迫切需要类似于关系模式、DBMS系统和 SQL查询语言等理论和方法的指导,才能使DMKD的应用得以普遍推广。预计在本世纪,DMKD的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:
  ①发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像 SQL 语言一样走向形式化和标准化;
  ②寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;
  ③研究在网络环境下的数据挖掘技术(Web Mining),特别是在因特网上建立 DMKD服务器,并与数据库服务器配合,实现Web Mining;
  ④加强对各种非结构化数据的开采(Data Mining for Audio & video ) ,如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;
  ⑤交互式发现;
  ⑥知识的维护更新。
  但是,无论怎样,需求牵引、市场驱动是永恒的,DMKD将首先满足信息时代用户的急需,大量基于DMKD的决策支持软件工具产品将会面世。只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。 [NextPage]

  2.3.4 数据库技术与电子商务
  在电子商务环境中数据库的应用表现在两个方面:
  一、网站数据库化
  随着网络的发展,更多的企业建立起自己的网站系统,以实现电子商务。在电子商务活动中,需要大量的动态数据,这就使网站从处理“文件型”的数据,进而发展到需要结合数据库系统,以满足多方位的需求,建立网上联机数据库,使用数据库来管理整个站点,将网站数据库化,则只要更新数据库的内容,网站中的信息会自动随之更新。将网站数据库化后,通过数据库技术,不仅可以采用数据库管理,通过更新数据库中的数据,自动达到更新网页;还要以将网站的内容存储在数据库中同利用数据库管理,通过更新数据库的搜索功能,增强网上搜索功能;又能使使用者借助浏览器,通过Internet或 Intranet , 存取Web数据库的数据,以实现各种基于Web数据库的应用。
  传统数据库的应用主要体现在对数据的访问,而Web数据库无非是在网络环境下应用的数据库,只要建立起网络服务器,就可以通过服务器实现对数据库的访问。而且通过网络访问数据库具有以下特点:
  (1)无需开发数据库的前端。将各种网络上的应用软件改变为Web数据库应用软件,将浏览器作为用户界面,即可使绝大多数的数据库应用都可以通过网络方便地实现,而无须进行访问,并且无需开数据库的前端。
  (2)开发过程简单,标准统一。因为HTML是网络信息的组织方式,网络数据库的开发者只需了解 HTML,即可开发网络数据库,从而使开发过程简单化和标准化。
  (3)便一跨平台使用。一般的操作系统都有现成的网络浏览器可供使用,因此为服务器编写HTML文档,可以被大多数平台上的浏览器所浏览,便于跨平台应用。
  二、电子商务数据库支持Web访问
  早期WWW上大多数信息都是静态的,信息的内容完全由信息的提供者决定,信息的变化只能由网络管理人员来进行变动,用户往往在被动状态,因此缺少互动性。随着网络技术和数据库技术的发展,以及电子商务的实现,人们需要更多地在网络上进行交互式的交流信息,并按自己的需求去查询感兴趣的信息、在线购物和访问数据库等,这种交互性提高了用户参与的积极性。为了提供动态信息,增强 Web的交互功能,需要有后台数据库的支撑,也需要有数据库与 Web 服务器之间的接口。Web 访问数据库的方法主要有公共网关接口CGI法和专用服务器API法等。

广告合作:400-664-0084 全国热线:400-664-0084
Copyright 2010 - 2017 www.my8848.com 珠峰网 粤ICP备15066211号
珠峰网 版权所有 All Rights Reserved