计算机四级考试有关问题_工具

计算机四级考试大纲

基本要求

1、具有计算机及其应用的基础知识。

2、熟悉计算机 *** 作系统、软件工程和数据库的原理及其应用。

3、具有计算机体系结构、系统组成和性能评价的基础及应用知识。

4、具有计算机网络和通信的基础知识。

5、具有计算机应用项目开发的分析设计和组织实施的基本能力。

6、具有计算机应用系统安全和保密知识。考试内容

一、计算机系统组成及工作原理

1、计算机系统组成：

（1）计算机的发展。（2）计算机的分类及应用。（3）计算机硬件结构。（4）主要部件功能。（5）计算机软件的功能与分类。（6）系统软件与应用软件。

2、计算机工作原理:

（1）计算机机中数的表示。（2）运算器。（3）控制器。（4）存储器。（5）输入与输出系统。

3、计算机的主要性能：

（1）计算机系统性能指标。（2）处理机指标。（3）存储容量指标。（4）I/O总线能力。（5）系统通信能力。（6）联机事务处理能力。（7）软件支持。

二、数据结构与算法

1、基本概念：

（1）数据结构的基本概念。（2）算法的描述与分析。

2、线性表：

（1）线性表的逻辑结构。（2）线性表的顺序存储结构。（3）线性表的链式存储结构。

3、数组：

（1）数组的定义与运算。（2）数组的顺序存储结构。（3）矩阵的压缩存储。

4、栈与队列：

（1）栈的定义和运算。（2）栈的存储结构。（3）队列的定义和运算。（4）链队列与循环队列。

5、串：

（1）串及其 *** 作。（2）串的存储结构。

6、树和二叉树：

（1）树的定义。（2）二叉树的定义及性质。（3）二叉树与树的转换。（4）二叉树的存储。（5）遍历二叉树与线索二叉树。

7、图：

（1）图及其存储结构。（2）图的遍历。（3）图的连通性。（4）有向无环图。（5）最短路径。（6）拓扑排序。

8、查找：

（1）线性表查找。（2）树形结构与查找。（3）散列查找。

9、排序：

（1）插入排序。（2）交换排序。（3）选择排序。（4）归并排序。（5）基数排序。

10、文件组织：

（1）顺序文件。（2）索引文件。（3）散列文件。

三、离散数学

1、数理逻辑：

（1）命题及其符号化。（2）命题公式及其分类。（3）命题逻辑等值演算。（4）范式。（5）命题逻辑推理理论。（6）谓词与量词。（7）谓词公式与解释。（8）谓词公式的分类。（9）谓词逻辑等值演算与前束范式。（10）谓词逻辑推理理论。

2、集合论：

（1）集合及其表示。（2）集合的运算。（3）有序对与笛卡尔积。（4）关系及其表示法。（5）关系的运算。（6）关系的性质。（7）关系的闭包。（8）复合关系与逆关系。（9）等价关系与偏序关系。（10）函数及其性质。（11）反函数与复合函数。

3、代数系统：

（1）代数运算及其性质。（2）同态与同构。（3）半群与群。（4）子集与陪集。（5）正规子群与商群。（6）循环群与置换群。（7）环与域。（8）格与布尔代数。

4、图论：

（1）无向图与有向图。（2）路、回路与图的连通性。（3）图的矩阵表示。（4）最短路径与关键路径。（5）二部图。（6）欧拉图与哈密尔顿图。（7）平面图。（8）树与生成树。（9）根树及其应用。

四、 *** 作系统

1、 *** 作系统的基本概念：

（1） *** 作系统的功能。（2） *** 作系统的基本类型。（3） *** 作系统的组成。（4） *** 作系统的接口。

2、进程管理：

（1）进程、线程与进程管理。（2）进程控制。（3）进程调度。（4）进程通信。（5）死锁。

3、作业管理：

（1）作业与作业管理。（2）作业状态及其转换。（3）作业调度。（4）作业控制。

4、存储管理：

（1）存储与存储管理。（2）虚拟存储原理。（3）页式存储。（4）段式存储。（5）段页式存储。（6）局部性原理与工作集概念。

5、文件管理：

（1）文件与文件管理。（2）文件的分类。（3）文件结构与存取方式。（4）文件目录结构。（5）文件存储管理。（6）文件存取控制。（7）文件的作用。

6、设备管理：

（1）设备与设备分类。（2）输入输出控制方式。（3）中断技术。（4）通道技术。（5）缓冲技术。（6）设备分配技术与SPOOLing系统。（7）磁盘调度。（8）设备管理。

7、一种典型 *** 作系统（DOS/Unix/Windows）的使用：

（1）DOS的特点与使用。（2）UNIX的特点与使用。（3）Windows的特点与使用。

五、软件工程

1、软件工程基本概念：

（1）软件与软件危机。（2）软件生命周期与软件工程。（3）软件开发技术与软件工程管理。（4）软件开发方法与工具、环境。

2、结构化生命周期方法：

（1）瀑布模型。（2）可行性研究与可行性研究报告。（3）软件计划与进度安排。（4）软件需求分析。（5）数据流程图（DFD）、数据字典（DD）。（6）软件需求说明书。（7）系统设计。（8）概要设计与详细设计。（9）模块结构设计与数据结构设计。（10）接口设计与安全性设计。（11）系统设计说明书。（12）程序设计。（13）程序设计语言。（14）结构化程序设计。

3、原型化方法：

（1）原型化的基本原理。（2）原型化的生命周期。（3）原型化的人员与工具。（4）原型化的实施。（5）原型化的项目管理。（6）原型化方法与结构化方法的关系。

4、软件测试：

（1）软件测试基本概念。（2）软件测试方法。（3）软件测试计划。（4）单元测试、集成测试与系统测试。（5）测试用例设计。（6）测试分析报告。

5、软件维护：

（1）软件可维护性。（2）校正性维护。（3）适应性维护。（4）完善性维护。

6、软件开发工具与环境：

（1）软件开发工具。（2）软件开发环境。（3）计算机辅助软件工程（CASE）。

7、软件质量评价：

（1）软件质量的度量与评价模型。（2）软件复杂性的度量。（3）软件可靠性的评价。（4）软件性能的评价。（5）软件运行评价。

8、软件管理：

（1）软件管理职能。（2）软件开发组织。（3）软件计划管理。（4）标准化管理。（5）软件工程国家标准。（6）软件配置管理。（7）软件产权保护。

六、数据库

1、数据库基本概念：

（1）数据与数据模型。（2）数据库体系结构。（3）数据库管理系统与数据库系统。（4）数据库工程与应用。

2、关系数据库：

（1）关系数据库的基本概念。（2）关系数据模型。（3）关系定义、关系模型、关系模式与关系子模式。（4）数据 *** 纵语言。（5）关系代数。（6）集合运算（并，差，交，笛卡尔积）与关系运算（投影，选择，连接）。（7）关系演算。（8）元组关系演算与域关系演算。（9）数据库查询语言。（10）SQL语言。

3、关系数据库设计理论：

（1）关系数据理论。（2）函数依赖。（3）关系模式分解。（4）关系模式的范式。

4、数据库设计：

（1）数据库设计目标。（2）数据库设计方法。（3）数据库的设计步骤。（4）数据库规划。（5）需求分析。（6）概念设计。（7）逻辑设计。（8）物理设计。（9）数据库的实现与维护。

5、数据库的保护：

（1）数据库恢复。（2）数据库的完整性。（3）数据库的并发控制。（4）数据库的安全性。

6、一种数据库管理系统（FoxPro/Oracle）应用：

（1）FoxPro DBMS的结构、特点及应用。（2）Oracale DBMS的结构、特点及应用。

七、计算机体系结构

1、体系结构的基本概念：

（1）体系结构的定义。（2）系统的功能层次。（3）系统的分类。（4）体系结构的继承与发展。（5）系统的安全性。

2、指令系统：

（1）指令格式及其优化。（2）指令系统的复杂化。（3）RISC技术。（4）MIPS与MFLOPS。

3、存储体系：

（1）存储层次。（2）虚存工作原理。（3）Cache工作原理。

4、通道及新型总线：

（1）I/O方式的发展。（2）通道工作原理。（3）EISA与MCA。（4）局部总线：VFSA与PCI。

5、并行处理技术：

（1）流水线技术。（2）超流水线与超标量技术。（3）向量处理机。（4）多机系统。

6、系统性能评价：

（1）性能评价的概念。（2）测试程序的分类。（3）Benchmark的举例。

八、计算机网络与通信

1、计算机网络的基本概念：

（1）网络的定义。（2）网络的分类。（3）网络的功能。（4）网络拓扑。（5）典型计算机网络组成。

2、数据通信技术：

（1）数据通信的基本概念。（2）数据通信系统的组成。（3）传输介质的类型与特点。（4）数据传输方式。（5）数据编码方式。（6）同步方式。（7）线路复用技术。（8）数据交换方式。（9）差错控制方法。

3、网络体系结构：

（1）网络体系结构的基本概念。（2）ISO/OSIRM。（3）物理层协议。（4）数据链路层协议。（5）网络层协议与X25网层次。（6）传输层协议。（7）高层协议。

4、局域网技术：

（1）局域网拓扑。（2）局域网传输介质。（3）IEEE802模型与标准。（4）CSMA/CD工作原理。（5）Token Bus工作原理。（6）Token Ring工作原理。（7）FDDI工作原理。（8）局部网互连与TCP/IP协议。（9）局域网 *** 作系统。（10）局域网组网技术。（11）局域网应用系统的安全性设计。

5、网络技术的发展：

（1）高速局域网。（2）ISDN与B-ISDN。（3）城域网。（4）帧中继。（5）ATM技术。（6）智能大厦与网络综合布线技术。（7）Clinent/Server的应用技术。（8）ISO网络管理概念与标准。

上机测试内容

1、计算机 *** 作能力。

2、C语言程序设计能力。

3、项目开发能力。

4、开发工具的使用能力。

上机测试说明

1、考试形式包括课堂笔试（180分钟）和上机测试（60分钟）。

2、试题包括选择题和论述题两种类型。

3、笔试中的选择题用中、英两种文字命题，其中英文题约占三分之一，论述题用中文命题

问题一：大数据技术有哪些非常多的，问答不能发link，不然我给你link了。有譬如Hadoop等开源大数据项目的，编程语言的，以下就大数据底层技术说下。

简单以永洪科技的技术说下，有四方面，其实也代表了部分通用大数据底层技术：

Z-Suite具有高性能的大数据分析能力，她完全摒弃了向上升级(Scale-Up)，全面支持横向扩展(Scale-Out)。Z-Suite主要通过以下核心技术来支撑PB级的大数据：

跨粒度计算(In-Databaseputing)

Z-Suite支持各种常见的汇总，还支持几乎全部的专业统计函数。得益于跨粒度计算技术，Z-Suite数据分析引擎将找寻出最优化的计算方案，继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算，我们称之为库内计算(In-Database)。这一技术大大减少了数据移动，降低了通讯负担，保证了高性能数据分析。

并行计算(MPP puting)

Z-Suite是基于MPP架构的商业智能平台，她能够把计算分布到多个计算节点，再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源，不管是服务器还是普通的PC，她对网络条件也没有严苛的要求。作为横向扩展的大数据平台，Z-Suite能够充分发挥各个节点的计算能力，轻松实现针对TB/PB级数据分析的秒级响应。

列存储 (Column-Based)

Z-Suite是列存储的。基于列存储的数据集市，不读取无关数据，能降低读写开销，同时提高I/O 的效率，从而大大提高查询性能。另外，列存储能够更好地压缩数据，一般压缩比在5 -10倍之间，这样一来，数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术，节省了存储设备和内存的开销，却大大了提升计算性能。

内存计算

得益于列存储技术和并行计算技术，Z-Suite能够大大压缩数据，并同时利用多个节点的计算能力和内存容量。一般地，内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算，CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速，是实现大数据分析的关键应用技术。

问题二：大数据使用的数据库是什么数据库 ORACLE、DB2、SQL SERVER都可以，关键不是选什么数据库，而是数据库如何优化！需要看你日常如何 *** 作，以查询为主或是以存储为主或2者，还要看你的数据结构，都要因地制宜的去优化！所以不是一句话说的清的！

问题三：什么是大数据和大数据平台大数据技术是指从各种各样类型的数据中，快速获得有价值信息的能力。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。

大数据平台是为了计算，现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。

问题四：常用大型数据库有哪些 FOXBASE

MYSQL

这俩可算不上大型数据库管理系统

PB 是数据库应用程序开发用的ide，根本就不是数据库管理系统

Foxbase是dos时代的产品了，进入windows时代改叫foxpro，属于桌面单机级别的小型数据库系统，mysql是个中轻量级的，但是开源，大量使用于小型网站，真正重量级的是Oracle和DB2，银行之类的关键行业用的多是这两个，微软的MS SQLServer相对DB2和Oracle规模小一些，多见于中小型企业单位使用，Sybase可以说是日薄西山，不行了

问题五：几大数据库的区别最商业的是ORACLE,做的最专业,然后是微软的SQL server,做的也很好,当然还有DB2等做得也不错,这些都是大型的数据库,,,如果掌握的全面的话,可以保证数据的安全然后就是些小的数据库access,mysql等,适合于中小企业的数据库100万数据一下的数据如有帮助请采纳,谢!

问题六：全球最大的数据库是什么应该是Oracle，第一，Oracle为商业界所广泛采用。因为它规范、严谨而且服务到位，且安全性非常高。第二，如果你学习使用Oracle不是商用，也可以免费使用。这就为它的广泛传播奠定了在技术人员中的基础。第三，Linux/Unix系统常常作为服务器，服务器对Oracle的使用简直可以说极其多啊。建议楼梗多学习下这个强大的数据库

问题七：什么是大数据？大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托・迈尔-舍恩伯格及肯尼斯・库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法[2]）大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。

说起大数据，就要说到商业智能：

商业智能（Business Intelligence，简称：BI），又称商业智慧或商务智能，指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

商业智能作为一个工具，是用来处理企业中现有数据，并将其转换成知识、分析和结论，辅助业务或者决策者做出正确且明智的决定。是帮助企业更好地利用数据提高决策质量的技术，包含了从数据仓库到分析型系统等。

商务智能的产生发展

商业智能的概念经由Howard Dresner(1989年)的通俗化而被人们广泛了解。当时将商业智能定义为一类由数据仓库（或数据集市）、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。

商务智能是20世纪90年代末首先在国外企业界出现的一个术语，其代表为提高企业运营性能而采用的一系列方法、技术和软件。它把先进的信息技术应用到整个企业，不仅为企业提供信息获取能力，而且通过对信息的开发，将其转变为企业的竞争优势，也有人称之为混沌世界中的智能。因此，越来越多的企业提出他们对BI的需求，把BI作为一种帮助企业达到经营目标的一种有效手段。

目前，商业智能通常被理解为将企业中现有的数据转化为知识，帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据，以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策既可以是作业层的，也可以是管理层和策略层的决策。

为了将数据转化为知识，需要利用数据仓库、线上分析处理（OLAP）工具和数据挖掘等技术。因此，从技术层面上讲，商业智能不是什么新技术，它只是ETL、数据仓库、OLAP、数据挖掘、数据展现等技术的综合运用。

把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理，以保证数据的正确性，然后经过抽取（Extraction）、转换（Transformation）和装载（Load），即ETL过程，合并到一个企业级的数据仓库里，从而得到企业数据的一个全局视图，在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理（这时信息变为辅助决策的知识），最后将知识呈现给管理者，为管理者的决策过程提供支持。

企业导入BI的优点

1随机查询动态报表

2掌握指标管理

3随时线上分析处理

4视觉化之企业仪表版

5协助预测规划

导入BI的目的

1促进企业决策流程(Facilitate the Business Decision-Making Process)：BIS增进企业的资讯整合与资讯分析的能力，汇总公司内、外部的资料，整合成有效的决策资讯，让企业经理人大幅增进决策效率与改善决策品质。

问题八：数据库有哪几种？常用的数据库：oracle、sqlserver、mysql、access、sybase 2、特点。 -oracle： 1数据库安全性很高，很适合做大型数据库。支持多种系统平台（HPUX、SUNOS、OSF/1、VMS、 WINDOWS、WINDOWS/NT、OS/2）。 2支持客户机/服务器体系结构及混合的体系结构（集中式、分布式、客户机/服务器）。 -sqlserver: 1真正的客户机/服务器体系结构。 2图形化用户界面，使系统管理和数据库管理更加直观、简单。 3具有很好的伸缩性，可跨越从运行Windows 95/98的膝上型电脑到运行Windows 2000的大型多处理器等多种平台使用。 -mysql: MySQL是一个开放源码的小型关系型数据库管理系统，开发者为瑞典MySQL AB公司，92HeZu网免费赠送MySQL。目前MySQL被广泛地应用在Internet上的中小型网站中。提供由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。 -access Access是一种桌面数据库，只适合数据量少的应用，在处理少量数据和单机访问的数据库时是很好的，效率也很高。但是它的同时访问客户端不能多于4个。 -

问题九：什么是大数据大数据是一个体量特别大，数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。大数据首先是指数据体量(volumes)大，指代大型数据集，一般在10TB规模左右，但在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量；其次是指数据类别(variety)大，数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据。接着是数据处理速度（Velocity）快，在数据量非常庞大的情况下，也能够做到数据的实时处理。最后一个特点是指数据真实性（Veracity）高，随着社交数据、企业内容、交易与应用数据等新数据源的兴趣，传统数据源的局限被打破，企业愈发需要有效的信息之力以确保其真实性及安全性。

数据采集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

数据存取：关系数据库、NOSQL、SQL等。

基础架构：云存储、分布式文件存储等。

数据处理：自然语言处理(NLP，NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机理解自然语言，所以自然语言处理又叫做自然语言理解(NLU，NaturalLanguage Understanding)，也称为计算语言学(putational Linguistics。一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。

数据挖掘：分类（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity grouping or association rules）、聚类（Clustering）、描述和可视化、Description and Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

模型预测：预测模型、机器学习、建模仿真。

结果呈现：云计算、标签云、关系图等。

要理解大数据这一概念，首先要从大入手，大是指数据规模，大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别，其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity)，即体量大、多样性、价值密度低、速度快。

第一，数据体量巨大。从TB级别，跃升到PB级别。

第二，数据类型繁多，如前文提到的网络日志、视频、、地理位置信息，等等。

第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。

第四，处理速度快。1秒定律。最后这一点也是和传统的>>

问题十：国内真正的大数据分析产品有哪些国内的大数据公司还是做前端可视化展现的偏多，BAT算是真正做了大数据的，行业有硬性需求，别的行业跟不上也没办法，需求决定市场。

说说更通用的数据分析吧。

大数据分析也属于数据分析的一块，在实际应用中可以把数据分析工具分成两个维度：

第一维度：数据存储层――数据报表层――数据分析层――数据展现层

第二维度：用户级――部门级――企业级――BI级

1、数据存储层

数据存储设计到数据库的概念和数据库语言，这方面不一定要深钻研，但至少要理解数据的存储方式，数据的基本结构和数据类型。SQL查询语言必不可少，精通最好。可从常用的selece查询，update修改，delete删除，insert插入的基本结构和读取入手。

Access2003、Access07等，这是最基本的个人数据库，经常用于个人或部分基本的数据存储；MySQL数据库，这个对于部门级或者互联网的数据库应用是必要的，这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。

SQL Server2005或更高版本，对中小企业，一些大型企业也可以采用SQL Server数据库，其实这个时候本身除了数据存储，也包括了数据报表和数据分析了，甚至数据挖掘工具都在其中了。

DB2，Oracle数据库都是大型数据库了，主要是企业级，特别是大型企业或者对数据海量存储需求的就是必须的了，一般大型数据库公司都提供非常好的数据整合应用平台。

BI级别，实际上这个不是数据库，而是建立在前面数据库基础上的，企业级应用的数据仓库。Data Warehouse，建立在DW机上的数据存储基本上都是商业智能平台，整合了各种数据分析，报表、分析和展现！BI级别的数据仓库结合BI产品也是近几年的大趋势。

2、报表层

企业存储了数据需要读取，需要展现，报表工具是最普遍应用的工具，尤其是在国内。传统报表解决的是展现问题，目前国内的帆软报表FineReport已经算在业内做到顶尖，是带着数据分析思想的报表，因其优异的接口开放功能、填报、表单功能，能够做到打通数据的进出，涵盖了早期商业智能的功能。

Tableau、FineBI之类，可分在报表层也可分为数据展现层。FineBI和Tableau同属于近年来非常棒的软件，可作为可视化数据分析软件，我常用FineBI从数据库中取数进行报表和可视化分析。相对而言，可视化Tableau更优，但FineBI又有另一种身份――商业智能，所以在大数据处理方面的能力更胜一筹。

3、数据分析层

这个层其实有很多分析工具，当然我们最常用的就是Excel，我经常用的就是统计分析和数据挖掘工具；

Excel软件，首先版本越高越好用这是肯定的；当然对excel来讲很多人只是掌握了5%Excel功能，Excel功能非常强大，甚至可以完成所有的统计分析工作！但是我也常说，有能力把Excel玩成统计工具不如专门学会统计软件；

SPSS软件：当前版本是18，名字也改成了PASW Statistics；我从30开始Dos环境下编程分析，到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化，从重视医学、化学等开始越来越重视商业分析，现在已经成为了预测分析软件；

SAS软件：SAS相对SPSS其实功能更强大，SAS是平台化的，EM挖掘模块平台整合，相对来讲，SAS比较难学些，但如果掌握了SAS会更有价值，比如离散选择模型，抽样问题，正交实验设计等还是SAS比较好用，另外，SAS的学习材料比较多，也公开，会有收获的！

JMP分析：SAS的一个分析分支

XLstat：Excel的插件，可以完>>

数据挖掘概念综述

数据挖掘又称从数据库中发现知识（KDD）、数据分析、数据融合（Data Fusion）以及决策支持。KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。随后在1991年、1993年和1994年都举行KDD 专题讨论会，汇集来自各个领域的研究人员和应用开发者，集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多，KDD国际会议发展成为年会。1998 年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论，并且有30多家软件公司展示了他们的数据挖掘软件产品，不少软件已在北美、欧洲等国得到应用。

一、什么是数据挖掘

11、数据挖掘的历史

近十几年来，人们利用信息技术生产和搜集数据的能力大幅度提高，千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等，这一势头仍将持续发展下去。于是，一个新的挑战被提了出来：在这被称之为信息爆炸的时代，信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没，从中及时发现有用的知识，提高信息利用率呢？要想使数据真正成为一个公司的资源，只有充分利用它为公司自身的业务决策和战略发展服务才行，否则大量的数据可能成为包袱，甚至成为垃圾。因此，面对”人们被数据淹没，人们却饥饿于知识”的挑战。另一方面计算机技术的另一领域——人工智能自1956年诞生之后取得了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段，目前的研究热点是机器学习。机器学习是用计算机模拟人类学习的一门科学，比较成熟的算法有神经网络、遗传算法等。用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后的知识，这两者的结合促成了数据库中的知识发现（KDD：Knowledge Discovery in Databases）的产生，因此，数据挖掘和知识发现（DMKD）技术应运而生，并得以蓬勃发展，越来越显示出其强大的生命力。

22数据挖掘的概念

从1989年到现在，KDD的定义随着人们研究的不断深入也在不断完善，目前比较公认的定义是Fayyad 等给出的：KDD是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。从定义可以看出，数据挖掘（DataMining）就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。人们把原始数据看作是形成知识的源泉，就像从矿石中采矿一样。原始数据可以是结构化的，如关系数据库中的数据，也可以是半结构化的，如文本、图形、图像数据，甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等，还可以用于数据自身的维护。因此，数据挖掘是一门很广义的交叉学科，它汇聚了不同领域的研究者，尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。

特别要指出的是，数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用，而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理，以指导实际问题的求解，企图发现事件间的相互关联，甚至利用已有的数据对未来的活动进行预测。

一般来说在科研领域中称为KDD，而在工程领域则称为数据挖掘。

二、数据挖掘的步骤

KDD包括以下步骤：

1、数据准备

KDD的处理对象是大量的数据，这些数据一般存储在数据库系统中，是长期积累的结果。但往往不适合直接在这些数据上面进行知识挖掘，需要做数据准备工作，一般包括数据的选择（选择相关的数据）、净化（消除噪音、冗余数据）、推测（推算缺失数据）、转换（离散值数据与连续值数据之间的相互转换，数据值的分组分类，数据项之间的计算组合等）、数据缩减（减少数据量）。如果KDD的对象是数据仓库，那么这些工作往往在生成数据仓库时已经准备妥当。数据准备是KDD 的第一个步骤，也是比较重要的一个步骤。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。

2、数据挖掘

数据挖掘是KDD最关键的步骤，也是技术难点所在。研究KDD的人员中大部分都在研究数据挖掘技术，采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据KDD的目标，选取相应算法的参数，分析数据，得到可能形成知识的模式模型。

3、评估、解释模式模型

上面得到的模式模型，有可能是没有实际意义或没有实用价值的，也有可能是其不能准确反映数据的真实意义，甚至在某些情况下是与事实相反的，因此需要评估，确定哪些是有效的、有用的模式。评估可以根据用户多年的经验，有些模式也可以直接用数据来检验其准确性。这个步骤还包括把模式以易于理解的方式呈现给用户。

4、巩固知识

用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还要注意对知识做一

致性检查，解决与以前得到的知识互相冲突、矛盾的地方，使知识得到巩固。

5、运用知识

发现知识是为了运用，如何使知识能被运用也是KDD的步骤之一。运用知识有两种方法：一种是只需看知识本身所描述的关系或结果，就可以对决策提供支持；另一种是要求对新的数据运用知识，由此可能产生新的问题，而需要对知识做进一步的优化

三、数据挖掘的特点及功能

31、数据挖掘的特点

数据挖掘具有如下几个特点，当然，这些特点与数据挖掘要处理的数据和目的是密切相关的。

1、处理的数据规模十分巨大。

2、查询一般是决策制定者（用户）提出的即时随机查询，往往不能形成精确的查询要求。

3、由于数据变化迅速并可能很快过时，因此需要对动态数据作出快速反应，以提供决策支持。

4、主要基于大样本的统计规律，其发现的规则不一定适用于所有数据

32、数据挖掘的功能

数据挖掘所能发现的知识有如下几种：

广义型知识，反映同类事物共同性质的知识；

特征型知识，反映事物各方面的特征知识；

差异型知识，反映不同事物之间属性差别的知识 ;关联型知识，反映事物之间依赖或关联的知识；

预测型知识，根据历史的和当前的数据推测未来数据；偏离型知识，揭示事物偏离常规的异常现象。

所有这些知识都可以在不同的概念层次上被发现，随着概念树的提升，从微观到中观再到宏观，以满足不同用户、不同层次决策的需要。例如，从一家超市的数据仓库中，可以发现的一条典型关联规则可能是”买面包和黄油的顾客十有八九也买牛奶”，也可能是”买食品的顾客几乎都用xyk”，这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。至于发现工具和方法，常用的有分类、聚类、减维、模式识别、可视化、决策树、遗传算法、不确定性处理等。归纳起来，数据挖掘有如下几个功能：

预测/验证功能：预测/验证功能指用数据库的若干已知字段预测或验证其他未知字段值。预测方法有统计分析方法、关联规则和决策树预测方法、回归树预测方法等。

描述功能：描述功能指找到描述数据的可理解模式。描述方法包括以下几种：数据分类、回归分析、簇聚、概括、构造依赖模式、变化和偏差分析、模式发现、路径发现等。

四、数据挖掘的模式

数据挖掘的任务是从数据中发现模式。模式是一个用语言L来表示的一个表达式E，它可用来描述数据集F中数据的特性，E 所描述的数据是集合F的一个子集FE。E作为一个模式要求它比列举数据子集FE中所有元素的描述方法简单。例如，“如果成绩在81 ～90之间，则成绩优良”可称为一个模式，而“如果成绩为81、82、83、84、85、86、87、88、89 或90，则成绩优良”就不能称之为一个模式。

模式有很多种，按功能可分有两大类：预测型（Predictive）模式和描述型（Descriptive）模式。

预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。例如，根据各种动物的资料，可以建立这样的模式：凡是胎生的动物都是哺乳类动物。当有新的动物资料时，就可以根据这个模式判别此动物是否是哺乳动物。

描述型模式是对数据中存在的规则做一种描述，或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。例如，在地球上，70 ％的表面被水覆盖，30 ％是土地。

在实际应用中，往往根据模式的实际作用细分为以下6 种：

1、分类模式

分类模式是一个分类函数（分类器），能够把数据集中的数据项映射到某个给定的类上。分类模式往往表现为一棵分类树，根据数据的值从树根开始搜索，沿着数据满足的分支往上走，走到树叶就能确定类别。

2、回归模式

回归模式的函数定义与分类模式相似，它们的差别在于分类模式的预测值是离散的，回归模式的预测值是连续的。如给出某种动物的特征，可以用分类模式判定这种动物是哺乳动物还是鸟类；给出某个人的教育情况、工作经验，可以用回归模式判定这个人的年工资在哪个范围内，是在6000元以下，还是在6000元到1万元之间，还是在1万元以上。

3、时间序列模式

时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊性质，像一些周期性的时间定义如星期、月、季节、年等，不同的日子如节假日可能造成的影响，日期本身的计算方法，还有一些需要特殊考虑的地方如时间前后的相关性（过去的事情对将来有多大的影响力）等。只有充分考虑时间因素，利用现有数据随时间变化的一系列的值，才能更好地预测将来的值。

4、聚类模式

聚类模式把数据划分到不同的组中，组之间的差别尽可能大，组内的差别尽可能小。与分类模式不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪一（几）个数据项来定义组。一般来说，业务知识丰富的人应该可以理解这些组的含义，如果产生的模式无法理解或不可用，则该模式可能是无意义的，需要回到上阶段重新组织数据。

5、关联模式

关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则：“在无力偿还贷款的人当中，60％的人的月收入在3000元以下。”

6、序列模式

序列模式与关联模式相仿，而把数据之间的关联性与时间联系起来。为了发现序列模式，不仅需要知道事件是否发生，而且需要确定事件发生的时间。例如，在购买彩电的人们当中，60％的人会在3个月内购买影碟机

五、数据挖掘的发现任务

数据挖掘涉及的学科领域和方法很多，有多种分类法。根据挖掘任务分，可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等；根据挖掘对象分，有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分，可粗分为：机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中，可细分为：归纳学习方法（决策树、规则归纳等）、基于范例学习、遗传算法等。统计方法中，可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）等。神经网络方法中，可细分为：前向神经网络（BP算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。数据库方法主要是多维数据分析或OLAP 方法，另外还有面向属性的归纳方法。

从挖掘任务和挖掘方法的角度而言有数据总结、分类发现、聚类和关联规则发现四种非常重要的发现任务。

51、数据总结

数据总结目的是对数据进行浓缩，给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值，或者用直方图、饼状图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。由于数据库上的数据或对象所包含的信息总是最原始、基本的信息（这是为了不遗漏任何可能有用的数据信息）。人们有时希望能从较高层次的视图上处理或浏览数据，因此需要对数据进行不同层次上的泛化以适应各种查询要求。数据泛化目前主要有两种技术：多维数据分析方法和面向属性的归纳方法。

1、多维数据分析方法是一种数据仓库技术，也称作联机分析处理（OLAP）。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集 *** 作，这类 *** 作的计算量特别大。因此一种很自然的想法是，把汇集 *** 作结果预先计算并存储起来，以便于决策支持系统使用。存储汇集 *** 作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用，如着名的SAS数据分析软件包、Business Object公司的决策支持系统Business Object,以及IBM公司的决策分析工具都使用了多维数据分析技术。

采用多维数据分析方法进行数据总结，它针对的是数据仓库，数据仓库存储的是脱机的历史数据。

2、为了处理联机数据，研究人员提出了一种面向属性的归纳方法。它的思路是直接对用户感兴趣的数据视图（用一般的SQL查询语言即可获得）进行泛化，而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化 *** 作后得到的是一个泛化关系，它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后，就可以对它进行各种深入的 *** 作而生成满足用户需要的知识，如在泛化关系基础上生成特性规则、判别规则、分类规则，以及关联规则等。

52、分类发现

分类在数据挖掘中是一项非常重要的任务，目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从利用历史数据纪录中自动推导出对给定数据的推广描述，从而能对未来数据进行预测。和回归方法不同的是，分类的输出是离散的类别值，而回归的输出则是连续数值。

要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段（又称属性或特征）值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可为：（ v1, v2, …， vn; c ）；其中vi表示字段值，c表示类别。

分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法（近邻学习或基于事例的学习），对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法，前者对应的表示为决策树或判别树，后者则一般为产生式规则。神经网络方法主要是BP算法，它的模型表示是前向反馈神经网络模型（由代表神经元的节点和代表联接权值的边组成的一种体系结构），BP算法本质上是一种非线性判别函数。另外，最近又兴起了一种新的方法：粗糙集（rough set），其知识表示是产生式规则。

不同的分类器有不同的特点。有三种分类器评价或比较尺度：1 预测准确度；2 计算复杂度；3 模型描述的简洁度。预测准确度是用得最多的一种比较尺度，特别是对于预测型分类任务，目前公认的方法是10番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件环境，在数据挖掘中，由于 *** 作对象是巨量的数据库，因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务，模型描述越简洁越受欢迎；例如，采用规则表示的分类器构造法就更有用，而神经网络方法产生的结果就难以理解。

另外要注意的是，分类的效果一般和数据的特点有关，有的数据噪声大，有的有缺值，有的分布稀疏，有的字段或属性间相关性强，有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。

53、聚类

聚类是把一组个体按照相似性归成若干类别，即”物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小，而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。

在统计方法中，聚类称聚类分析，它是多元数据分析的三大方法之一（其它两种是回归分析和判别分析）。它主要研究基于几何距离的聚类，如欧式距离、明考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。这种聚类方法是一种基于全局比较的聚类，它需要考察所有的个体才能决定类的划分；因此它要求所有的数据必须预先给定，而不能动态增加新的数据对象。聚类分析方法不具有线性的计算复杂度，难以适用于数据库非常大的情况。

在机器学习中聚类称作无监督或无教师归纳；因为和分类学习相比，分类学习的例子或数据对象有类别标记，而要聚类的例子则没有标记，需要由聚类学习算法来自动确定。很多人工智能文献中，聚类也称概念聚类；因为这里的距离不再是统计方法中的几何距离 ,而是根据概念的描述来确定的。当聚类对象可以动态增加时，概念聚类则称是概念形成。

在神经网络中，有一类无监督学习方法：自组织神经网络方法；如Kohonen自组织特征映射网络、竞争学习网络等等。在数据挖掘领域里，见报道的神经网络聚类方法主要是自组织特征映射方法，IBM在其发布的数据挖掘白皮书中就特别提到了使用此方法进行数据库聚类分割。

54、关联规则发现

关联规则是形式如下的一种规则，”在购买面包和黄油的顾客中，有90%的人同时也买了牛奶”（面包+黄油（牛奶）。用于关联规则发现的主要对象是事务型数据库，其中针对的应用则是售货数据，也称货篮数据。一个事务一般由如下几个部分组成：事务处理时间 ,一组顾客购买的物品，有时也有顾客标识号（如xyk号）。

由于条形码技术的发展，零售部门可以利用前端收款机收集存储大量的售货数据。因此，如果对这些历史事务数据进行分析，则可对顾客的购买行为提供极有价值的信息。例如，可以帮助如何摆放货架上的商品（如把顾客经常同时买的商品放在一起），帮助如何规划市场（怎样相互搭配进货）。由此可见，从事务数据中发现关联规则，对于改进零售业等商业活动的决策非常重要。

如果不考虑关联规则的支持度和可信度，那么在事务数据库中存在无穷多的关联规则。事实上，人们一般只对满足一定的支持度和可信度的关联规则感兴趣。在文献中，一般称满足一定要求的（如较大的支持度和可信度）的规则为强规则。因此，为了发现出有意义的关联规则，需要给定两个阈值：最小支持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持度，它表示了一组物品集在统计意义上的需满足的最低程度；后者即用户规定的关联规则必须满足的最小可信度，它反应了关联规则的最低可靠度。

在实际情况下，一种更有用的关联规则是泛化关联规则。因为物品概念间存在一种层次关系，如夹克衫、滑雪衫属于外套类，外套、衬衣又属于衣服类。有了层次关系后，可以帮助发现一些更多的有意义的规则。例如，”买外套，买鞋子”（此处，外套和鞋子是较高层次上的物品或概念，因而该规则是一种泛化的关联规则）。由于商店或超市中有成千上万种物品，平均来讲，每种物品（如滑雪衫）的支持度很低，因此有时难以发现有用规则；但如果考虑到较高层次的物品（如外套），则其支持度就较高，从而可能发现有用的规则。另外，关联规则发现的思路还可以用于序列模式发现。用户在购买物品时，除了具有上述关联规律，还有时间上或序列上的规律，因为，很多时候顾客会这次买这些东西，下次买同上次有关的一些东西，接着又买有关的某些东西。

ERP（企业资源计划）是一种企业管理的思想，强调对企业的内部甚至外部的资源进行优化配置、提高利用效率。

一个由GartnerGroup开发的概念，描述下一代制造商业系统和制造资源计划（MRPII）软件。它将包含客户/服务架构，使用图形用户接口，应用开放系统制作。除了已有的标准功能，它还包括其它特性，如品质、过程运作管理、以及调整报告等。特别是，ERP采用的基础技术将同时给用户软件和硬件两方面的独立性从而更加容易升级。ERP的关键在于所有用户能够裁剪其应用，因而具有天然的易用性。

GartnerGroup提出ERP具备的功能标准应包括四个方面:

1超越MRPⅡ范围的集成功能

包括质量管理;试验室管理;流程作业管理;配方管理;产品数据管理;维护管理;管制报告和仓库管理。

2支持混合方式的制造环境

包括既可支持离散又可支持流程的制造环境;按照面向对象的业务模型组合业务过程的能力和国际范围内的应用。

3支持能动的监控能力,提高业务绩效

包括在整个企业内采用控制和工程方法;模拟功能;决策支持和用于生产及分析的图形能力。

4支持开放的客户机/服务器计算环境

包括客户机/服务器体系结构;图形用户界面(GUI);计算机辅助设计工程(CASE),面向对象技术;使用SQL对关系数据库查询;内部集成的工程系统、商业系统、数据采集和外部集成(EDI)。

ERP是对MRPⅡ的超越,从本质上看,ERP仍然是以MRPⅡ为核心,但在功能和技术上却超越了传统的MRPⅡ,它是以顾客驱动的、基于时间的、面向整个供应链管理的企业资源计划。

一、ERP系统的管理思想

ERP的核心管理思想就是实现对整个供应链的有效管理，主要体现在以下三个方面：

1、体现对整个供应链资源进行管理的思想

在知识经济时代仅靠自己企业的资源不可能有效地参与市场竞争，还必须把经营过程中的有关各方如供应商、制造工厂、分销网络、客户等纳入一个紧密的供应链中，才能有效地安排企业的产、供、销活动，满足企业利用全社会一切市场资源快速高效地进行生产经营的需求，以期进一步提高效率和在市场上获得竞争优势。换句话说，现代企业竞争不是单一企业与单一企业间的竞争，而是一个企业供应链与另一个企业供应链之间的竞争。ERP系统实现了对整个企业供应链的管理，适应了企业在知识经济时代市场竞争的需要。

2、体现精益生产、同步工程和敏捷制造的思想

ERP系统支持对混合型生产方式的管理，其管理思想表现在两个方面：其一是“精益生产LP（LeanProction）”的思想，它是由美国麻省理工学院（MIT）提出的一种企业经营战略体系。即企业按大批量生产方式组织生产时，把客户、销售代理商、供应商、协作单位纳入生产体系，企业同其销售代理、客户和供应商的关系，已不再简单地是业务往来关系，而是利益共享的合作伙伴关系，这种合作伙伴关系组成了一个企业的供应链，这即是精益生产的核心思想。其二是“敏捷制造（Agile）”的思想。当市场发生变化，企业遇有特定的市场和产品需求时，企业的基本合作伙伴不一定能满足新产品开发生产的要求，这时，企业会组织一个由特定的供应商和销售渠道组成的短期或一次性供应链，形成“虚拟工厂”，把供应和协作单位看成是企业的一个组成部分，运用“同步工程（SE）”，组织生产，用最短的时间将新产品打入市场，时刻保持产品的高质量、多样化和灵活性，这即是“敏捷制造”的核心思想。

3、体现事先计划与事中控制的思想

ERP系统中的计划体系主要包括：主生产计划、物料需求计划、能力计划、采购计划、销售执行计划、利润计划、财务预算和人力资源计划等，而且这些计划功能与价值控制功能已完全集成到整个供应链系统中。

另一方面，ERP系统通过定义事务处理（Transaction）相关的会计核算科目与核算方式，以便在事务处理发生的同时自动生成会计核算分录，保证了资金流与物流的同步记录和数据的一致性。从而实现了根据财务资金现状，可以追溯资金的来龙去脉，并进一步追溯所发生的相关业务活动，改变了资金信息滞后于物料信息的状况，便于实现事中控制和实时做出决策。

此外，计划、事务处理、控制与决策功能都在整个供应链的业务处理流程中实现，要求在每个流程业务处理过程中最大限度地发挥每个人的工作潜能与责任心，流程与流程之间则强调人与人之间的合作精神，以便在有机组织中充分发挥每个的主观能动性与潜能。实现企业管理从“高耸式”组织结构向“扁平式”组织机构的转变，提高企业对市场动态变化的响应速度。

总之，借助IT技术的飞速发展与应用，ERP系统得以将很多先进的管理思想变成现实中可实施应用的计算机软件系统。

二、应用ERP与企业的关系

ERP是借用一种新的管理模式来改造原企业旧的管理模式，是先进的、行之有效的管理思想和方法。ERP软件在实际的推广应用中，其应用深度和广度都不到位，多数企业的效果不显著，没有引起企业决策者的震动和人们的广泛关注。

1．实施ERP是企业管理全方位的变革

企业领导层应该首先是受教育者，其次才是现代管理理论的贯彻者和实施者，规范企业管理及其有关环节，使之成为领导者、管理层及员工自觉的行动，使现代管理意识扎根于企业中，成为企业文化的一部分。国外企业实施ERP似乎没有讨论的余地，全盘接受，自觉性强。其实，办企业这样做是天经地义的，而我们还要等待思想提高，观念更新，有时还要避开锋芒，迁就陈腐，互相推诿。如果我们不坚决向这些陋习告别，这场全方位的变革就会反复、甚至夭折。

2．企业管理班子要取得共识

要眼睛向内，练好内功，做好管理的基础工作，这是任何再好的应用软件和软件供应商都无法提供的，只能靠自己勤勤恳恳地耕耘。把ERP的实施称为"第一把手工程"，这说明了企业的决策者在ERP实施过程中的特殊作用。ERP是一个管理系统，牵动全局，没有第一把手的参与和授权，很难调动全局。

3．ERP的投入是一个系统工程

ERP的投入和产出与其他固定资产设备的投入和产出比较，并不那么直观、浅显和明了，投入不可能马上得到回报，见到效益。ERP的投入是一个系统工程，并不能立竿见影，它所贯彻的主要是管理思想，这是企业管理中的一条红线。它长期起作用、创效益，在不断深化中向管理要效益。

此外，实施ERP还要因地制宜，因企业而别，具体问题具体分析。首先，要根据企业的具体需求上相应的系统，而不是笼统地都上小型机，或者不顾企业的规模上WindowsNT，这样长期运作，对企业危害性极大。其次，这种投入不是一劳永逸的，由于技术的发展很快，随着工作的深入，企业会越来越感到资源的紧缺，因此，每年应有相应的投入，才能保证系统健康地运转。

4．ERP的实施需要复合型人才

他们既要懂计算机技术，又要懂管理。当前高校对复合型人才的培养远远满足不了企业的需求。复合型人才的培养需要有一个过程和一定的时间，但企业领导者常把这样不多的人才当作一般管理者，没有把他们当作是企业来之不易的财富，是一支重要的队伍。这与长期忽视管理有关，这些复合型人才在企业中的地位远远不及市场开拓人员和产品开发者，而是"辅助"角色，不是政策倾斜对象，这种因素是造成人才流失的重要原因。另外，当企业上ERP时，这些复合型人才起到了先导作用，而一旦管理进入常规，他们似乎又成为多余的人，这已成为必然规律。在人才市场上，复合型人才最为活跃，那些有眼力的企业家都会下功夫挖掘人才，而这也不利于实施队伍的稳定。

总之，条件具备的企业要不失时机地上ERP管理系统，不能只搞纯理论研究、再研究，长时间地考察。要首先整理好内部管理基本数据，选定或开发适合自己企业的ERP软件，条件成熟了就上。

三、ERP的风险及其预防

企业的条件无论多优越，所做的准备无论多充分，实施的风险仍然存在。在ERP系统的实施周期中，各种影响因素随时都可能发生变化。如何有效地管理和控制风险是保证ERP系统实施成功的重要环节之一。

ERP项目的风险

通常人们在考虑失败的因素时，一般着重于对实施过程中众多因素的分析，而往往忽视项目启动前和实施完成后ERP系统潜在的风险。对于ERP项目而言，风险存在于项目的全过程，包括项目规划、项目预准备、实施过程和系统运行。归纳起来，ERP项目的风险主要有以下几方面：

1缺乏规划或规划不合理；

2项目预准备不充分，表现为硬件选型及ERP软件选择错误；

3实施过程控制不严格，阶段成果未达标；

4设计流程缺乏有效的控制环节；

5实施效果未做评估或评估不合理；

6系统安全设计不完善，存在系统被非法入侵的隐患；

7灾难防范措施不当或不完整，容易造成系统崩溃。

1．战略规划

企业是否存在一个五年的IT系统规划？随着社会的信息化，IT系统对于企业不仅是工具，更是技术手段。ERP作为IT系统的重要组成部分，服务于企业的长期规划，是长期规划的手段和保证。ERP的目标源于IT系统规划，是评价ERP系统成败的基本标准，应依据IT系统规划，明确ERP系统的实施范围和实施内容。

2．项目预准备

确定硬件及网络方案、选择ERP系统和评估咨询合作伙伴是该阶段的三项主要任务，也是ERP系统实施的三大要素。硬件及网络方案直接影响系统的性能、运行的可靠性和稳定性；ERP系统功能的强弱决定企业需求的满足程度；咨询合作伙伴的工作能力和经验决定实施过程的质量及实施成效。

3．项目实施控制

在ERP系统实施中，通常采用项目管理技术对实施过程进行控制和管理。有效的实施控制表现在科学的实施计划、明确的阶段成果和严格的成果审核。不仅如此，有效的控制还表现在积极的协调和通畅的信息传递渠道。实施ERP的组织机构包括：指导委员会、项目经理、外部咨询顾问、IT部门、职能部门的实施小组和职能部门的最终用户。部门之间协调和交流得好坏决定实施过程的工作质量和工作效率。目前，在企业缺乏合适的项目经理的条件下，这一风险尤其明显和严重。

4．业务流程控制

企业业务流程重组是在项目实施的设计阶段完成的。流程中的控制和监督环节保证ERP在正式运行后，各项业务处于有效的控制之中，避免企业遭受人为损失。设计控制环节时，要兼顾控制和效率。过多的控制环节和业务流程冗余势必降低工作效率。而控制环节不足又会有业务失控的风险。

5．项目实施效果

虽然项目评估是ERP实施过程的最后一个环节。但这并不意味着项目评估不重要。相反，项目评估的结果是ERP实施效果的直接反映。正确地评价实施成果，离不开清晰的实施目标、客观的评价标准和科学的评价方法。目前普遍存在着忽视项目评估的问题。忽视项目评估将带来实施小组不关心实施成果这一隐患。这正是ERP项目的巨大风险所在。

6．系统安全管理

系统安全包括： *** 作系统授权、网络设备权限、应用系统功能权限、数据访问权限、病毒的预防、非法入侵的监督、数据更改的追踪、数据的安全备份与存档、主机房的安全管理规章、系统管理员的监督，等等。目前，企业中熟练掌握计算机技术的人员较少，计算机接入Internet的也不多。因此，在实施ERP系统时，普遍存在着不重视系统安全的现象。诸如：用户不注意口令保密、超级用户授权多人等。缺乏安全意识的直接后果是系统在安全设计上存在着漏洞和缺陷。近年来，不断有报章披露银行或企业计算机系统被非法入侵的消息，这给企业敲响了警钟。

7．意外事故或灾难

水灾、火灾、地震等不可抗拒的自然灾害会给ERP系统带来毁灭性的打击。企业正式启用ERP系统后，这种破坏将直接造成业务交易的中断，给企业带来不可估量的损失。未雨绸缪的策略和应对措施是降低这一风险的良方。如建立远程备份和恢复机制；在计算机系统不能正常工作的情况下，恢复手工处理业务的步骤和措施。

四、ERP应用成功的标志

ERP应用是否成功，原则地说，可以从以下几个方面加以衡量：

1．系统运行集成化：

这是ERP应用成功在技术解决方案方面最基本的表现。ERP系统是对企业物流、资金流、信息流进行一体化管理的软件系统，其核心管理思想就是实现对“供应链（SupplyChain）”的管理。软件的应用将跨越多个部门甚至多个企业。为了达到预期设定的应用目标，最基本的要求是系统能够运行起来，实现集成化应用，建立企业决策完善的数据体系和信息共享机制。

一般来说，如果ERP系统仅在财务部门应用，只能实现财务管理规范化、改善应收帐款和资金管理；仅在销售部门应用，只能加强和改善营销管理；仅在库存管理部门应用，只能帮助掌握存货信息；仅在生产部门应用只能辅助制定生产计划和物资需求计划。只有集成一体化运行起来，才有可能达到：

降低库存，提高资金利用率和控制经营风险；

控制产品生产成本，缩短产品生产周期；

提高产品质量和合格率；

减少财务坏帐、呆帐金额等。

这些目标能否真正达到，还要取决于企业业务流程重组的实施效果。

2．业务流程合理化：

这是ERP应用成功在改善管理效率方面的体现。ERP应用成功的前提是必须对企业实施业务流程重组，因此，ERP应用成功也即意味着企业业务处理流程趋于合理化，并实现了ERP应用的以下几个最终目标：

企业竞争力得到大幅度提升；

企业面对市场的响应速度大大加快；

客户满意度显著改善。

3．绩效监控动态化：

ERP的应用，将为企业提供丰富的管理信息。如何用好这些信息并在企业管理和决策过程中真正起到作用，是衡量ERP应用成功的另一个标志。在ERP系统完全投入实际运行后，企业应根据管理需要，利用ERP系统提供的信息资源设计出一套动态监控管理绩效变化的报表体系，以期即时反馈和纠正管理中存在的问题。这项工作，一般是在ERP系统实施完成后由企业设计完成。企业如未能利用ERP系统提供的信息资源建立起自己的绩效监控系统，将意味着ERP系统应用没有完全成功。

4．管理改善持续化：

随着ERP系统的应用和企业业务流程的合理化，企业管理水平将会明显提高。为了衡量企业管理水平的改善程度，可以依据管理咨询公司提供的企业管理评价指标体系对企业管理水平进行综合评价。评价过程本身并不是目的，为企业建立一个可以不断进行自我评价和不断改善管理的机制，才是真正目的。这也是ERP应用成功的一个经常不被人们重视的标志

六个用于大数据分析的最好工具

一、Hadoop

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

二、HPCC

HPCC，High Performance Computing and Communications(高性能计算与通信)的缩写。1993年，由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目：高性能计算与通信”的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。

三、Storm

Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议，一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载)等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和 *** 作。

四、Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel

据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍，“Drill”已经作为Apache孵化器项目来运作，将面向全球软件工程师持续推广。

五、RapidMiner

RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。

六、Pentaho BI

Pentaho BI 平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。

第一个问题：什么是数据库？

数据，现在被誉为工业社会的“石油”。数据(data)是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的原始素材。数据可以是连续的值，比如声音、图像，称为模拟数据。也可以是离散的，如符号、文字，称为数字数据。

在计算机系统中，数据以二进制信息单元0,1的形式表示，被存储在磁盘或者内存当中。

数据库是数据管理的产物。数据管理是数据库的核心任务，内容包括对数据的分类、组织、编码、储存、检索和维护。随着计算机硬件和软件的发展，数据库技术也不断地发展。从数据管理的角度看，数据库技术到目前共经历了人工管理阶段、文件系统阶段和数据库系统阶段。

第二个问题：为什么要使用数据库？

A人工管理阶段

人工管理阶段是指计算机诞生的初期(即20世纪50年代后期之前)，这个时期的计算机主要用于科学计算。从硬件看，没有磁盘等直接存取的存储设备；从软件看，没有 *** 作系统和管理数据的软件，数据处理方式是批处理。

这个时期数据管理的特点是：

1 数据不保存

该时期的计算机主要应用于科学计算，一般不需要将数据长期保存，只是在计算某一课题时将数据输入，用完后不保存原始数据，也不保存计算结果。

2 没有对数据进行管理的软件系统

程序员不仅要规定数据的逻辑结构，而且还要在程序中设计物理结构，包括存储结构、存取方法、输入输出方式等。因此程序中存取数据的子程序随着存储的改变而改变，数据与程序不具有一致性。

3 没有文件的概念

数据的组织方式必须由程序员自行设计。

4 一组数据对应于一个程序，数据是面向应用的

即使两个程序用到相同的数据，也必须各自定义、各自组织，数据无法共享、无法相互利用和互相参照，从而导致程序和程序之间有大量重复的数据。

B文件系统阶段

文件系统阶段是指计算机不仅用于科学计算，而且还大量用于管理数据的阶段(从50年代后期到60年代中期)。在硬件方面，外存储器有了磁盘、磁鼓等直接存取的存储设备。在软件方面， *** 作系统中已经有了专门用于管理数据的软件，称为文件系统。

这个时期数据管理的特点是：

1 数据需要长期保存在外存上供反复使用

由于计算机大量用于数据处理，经常对文件进行查询、修改、插入和删除等 *** 作，所以数据需要长期保留，以便于反复 *** 作。

2 程序之间有了一定的独立性

*** 作系统提供了文件管理功能和访问文件的存取方法，程序和数据之间有了数据存取的接口，程序可以通过文件名和数据打交道，不必再寻找数据的物理存放位置，至此，数据有了物理结构和逻辑结构的区别，但此时程序和数据之间的独立性尚还不充分。

3 文件的形式已经多样化

由于已经有了直接存取的存储设备，文件也就不再局限于顺序文件，还有了索引文件、链表文件等，因而，对文件的访问可以是顺序访问，也可以是直接访问。

4 数据的存取基本上以记录为单位

利用文件存储数据的 *** 作起来会十分痛苦：开发人员需要熟悉 *** 作磁盘文件的方法、必须编写复杂的搜寻算法才能高效的把数据从文件中检索出来、当数据格式发生变化时，需要编写复杂的文件格式升级程序、很难控制并发修改。所以我们有了数据库，对数据统一进行管理，并且针对数据的类型划分成不同的种类。。

C数据库系统阶段

数据库系统阶段是从60年代后期开始的。在这一阶段中，数据库中的数据不再是面向某个应用或某个程序，而是面向整个企业(组织)或整个应用的。数据库系统阶段的特点是：

1 采用复杂的结构化的数据模型

数据库系统不仅要描述数据本身，还要描述数据之间的联系。这种联系是通过存取路径来实现的。

2 较高的数据独立性

数据和程序彼此独立，数据存储结构的变化尽量不影响用户程序的使用。

3 最低的冗余度

数据库系统中的重复数据被减少到最低程度，这样，在有限的存储空间内可以存放更多的数据并减少存取时间。

4 数据控制功能

数据库系统具有数据的安全性，以防止数据的丢失和被非法使用；具有数据的完整性，以保护数据的正确、有效和相容；具有数据的并发控制，避免并发程序之间的相互干扰；具有数据的恢复功能，在数据库被破坏或数据不可靠时，系统有能力把数据库恢复到最近某个时刻的正确状态。

————————————————

原文链接：>

以上就是关于计算机四级考试有关问题全部的内容，包括:计算机四级考试有关问题、大数据数据库有哪些、数据挖掘概念综述等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9875596.html

计算机四级考试有关问题

发表评论

评论列表（0条）