大數(shù)據(jù)平臺:探索數(shù)據(jù)價值
最近很多廠商都推出了自己的大數(shù)據(jù)產(chǎn)品。但我們還是要問兩個問題,你怎么定義大數(shù)據(jù)?你認為大數(shù)據(jù)平臺關(guān)鍵的元素是什么?
廠商和專家一般都會告訴我們最重要的是要記住大數(shù)據(jù)所包含的東西遠遠多于所謂的大型數(shù)據(jù)存儲。大數(shù)據(jù)通常也包含其快速創(chuàng)建和多種格式,像非格式化的文本,Web或者數(shù)字媒體等。 正如IBM和Informatica所指出的三方面內(nèi)容:容量、速率和多樣化。
廠商可以根據(jù)自己的功能不斷地描述自己的平臺,但是大多數(shù)廠商的領(lǐng)導(dǎo)們,很擅長回答關(guān)鍵因素是什么,他們不只是簡單地羅列自己家產(chǎn)品的功能。就算廠商說了一些偏向自己的話,至少我們知道對這個廠商而言什么是最重要的,還有他們的長處在哪里。
對于大數(shù)據(jù)集成平臺而言,主要關(guān)注于數(shù)據(jù)來源,如何管理和治理。在這一點上應(yīng)該考慮幾個主要的問題:集成多種源,大數(shù)據(jù)的處理環(huán)境并不是數(shù)據(jù)的發(fā)源地。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,如果要用這些數(shù)據(jù)做分析并制定決策,這些數(shù)據(jù)就要能夠信任。這一點而言,大數(shù)據(jù)平臺必須支持數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理。
文本分析和語義分析,要能夠為獲取的數(shù)據(jù)預(yù)設(shè)一種環(huán)境,就比如,處理無數(shù)的源的時候,要能夠確定這個信息是否是你關(guān)心的。這也可能意味著我們要集成MDM系統(tǒng)的數(shù)據(jù),或者其他企業(yè)應(yīng)用中的數(shù)據(jù)。再把這的信息放到一種環(huán)境中。
支持R語言。分析學(xué)中開源技術(shù)傾向于使用像R這樣的語言。此外對于分析和設(shè)計模式要有一種全新的態(tài)度。因為處理非結(jié)構(gòu)化的信息需要這種不同的觀點。
- SQL點滴之幾個有點偏的語句
- SQL Server數(shù)據(jù)挖掘中的幾個問題之理解內(nèi)容類型
- SQL Server數(shù)據(jù)挖掘中的幾個問題之理解列的用法
- SQL Server數(shù)據(jù)挖掘之理解聚類算法和順序聚類算法
- Big Data技術(shù)綜述
























