充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

数据仓库:有多少数据可以割舍?



  跟任何一个自尊心很强的数据仓库开发者谈论时,你都会听到一个关于一个数据库中有大量数据的故事。数据仓库的巨大是因为数据仓库包含了由历史数据、详细数据和各种各样类型的数据组成的数据。这里有一个公式:

  历史×细节×种类 = 大量的数据

  由大量数据引发的问题有:是否可以预测是一个问题;加载数据是一个问题;整理数据是一个问题;索引数据是一个问题;有效地访问数据是一个问题;发现和管理休眠数据是一个问题;数据仓库所需的预算是一个问题;管理不断增长的数据量所需的技术是一个问题。简而言之, 在数据仓库中持有数据对它本身就是一个挑战。

  现在出现了DW 2.0(数据仓库2.0版)。并且在DW 2.0中很天真地建议我们开始尝试在数据仓库中抓取非结构化、文本的数据。让我们做一次快速的计算。估计在企业中文本类的数据约为典型的结构化数据的5到10倍。几乎每一家公司的数据仓库是由结构化的信息构成。那么,让我们做一个分析。目前在我们的企业在结构化数据的管理上存在一个挑战。一旦我们开始添加非结构化的数据到我们的数据仓库,这会使我们今天所面对的挑战升至十倍。那就是我们在这里讨论的吗?

  随着出现在我们面前的大量非结构化数据,数据的存储容量需要变的更大。但是要大多少呢?确实,世界上有大量的非结构化数据,难道所有的数据都要放在硬盘的存储空间上吗?当然是有许多要存储在硬盘上,但的确不是所有的数据都要想方设法存储在硬盘上。

  那么,哪些非结构化数据的不必/不应该存储在硬盘上呢?有很多淘汰工作可以去作:

  本质上有三种类型的数据

  个人电子邮件、垃圾邮件和业务无关的电子邮件。只有业务相关的电子邮件应该设法存入数据仓库。垃圾邮件和个人电子邮件应该被清除。

  结束用语需要被过滤掉。在一些语言中,结束用语占用了40%的文本。

  有些非结构化数据的加工需要割裂文档。其他类型的非结构化数据的加工只需要选择索引。割裂的文档比选择性索引的文档要占用更多的空间。

  一些文件只需要参考他们的元数据。对文件元数据的索引要比对文件的内容等等建立文件要大大地提高效率。 另一个因素是,非结构化的数据不必设法一次性所有地存入数据仓库。要花几年的时间将所有非结构化的要素归入在一个数据仓库中。

  所以并不是所有非结构化的数据都要设法存入一个数据仓库,当然更不是一次性存入所有。但很多非结构化的数据最终会设法进入到一个数据仓库。如果做一个有根据的猜测,可能以今天的结构化数据仓库乘以三到四倍会是个不错的猜测。对任何人而言那都是一个大量的数据。




 

评分:0

我来说两句