地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:jhcxkj@163.com
數(shù)據(jù)查詢、數(shù)據(jù)分析與數(shù)據(jù)建模技術(shù)的介紹:
前文我們對(duì)數(shù)據(jù)查詢進(jìn)行了側(cè)重簡(jiǎn)要的介紹,接下來我們?cè)賮硖接懴聰?shù)據(jù)分析和數(shù)據(jù)建模。
數(shù)據(jù)分析
目前,社交網(wǎng)站、電子商務(wù)等網(wǎng)絡(luò)服務(wù)的迅速發(fā)展,使得網(wǎng)絡(luò)服務(wù)及網(wǎng)絡(luò)信息規(guī)模裂變式增長(zhǎng),這樣就會(huì)對(duì)大規(guī)模數(shù)據(jù)的處理帶來了很大的挑戰(zhàn)。金融業(yè)、零售業(yè)、醫(yī)療、電信、航空等領(lǐng)域也會(huì)產(chǎn)生大量的數(shù)據(jù),在數(shù)據(jù)挖掘中如何處理海量數(shù)據(jù),提高挖掘質(zhì)量和效率,是迫切需要解決的問題。數(shù)據(jù)固有的記錄歷史信息的能力,使得企業(yè)認(rèn)識(shí)到,大量數(shù)據(jù)中,尤其是歷史數(shù)據(jù)中是隱藏著許多有價(jià)值的東西的。
通過對(duì)歷史數(shù)據(jù)的分析,能夠?qū)ΜF(xiàn)在和未來的業(yè)務(wù)發(fā)展有很大的幫助。這種分析需要兩點(diǎn)的支持,一是對(duì)海量數(shù)據(jù)的規(guī)整和處理,數(shù)據(jù)的量越多,數(shù)據(jù)的種類越豐富,其提供的結(jié)果越準(zhǔn)確、越詳細(xì)。二是有數(shù)據(jù)統(tǒng)計(jì)分析的方法,根據(jù)分析業(yè)務(wù)內(nèi)容的不同,使用的分析方法也會(huì)有所不同,常用的幾種分析方法包括:分類、聚合、關(guān)聯(lián)等。
數(shù)據(jù)分析最重要的領(lǐng)域?yàn)閿?shù)據(jù)挖掘。針對(duì)海量數(shù)據(jù)的增長(zhǎng)速度,許多國內(nèi)外從事海量數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)領(lǐng)域的相關(guān)人士進(jìn)行了深入的研究。海量數(shù)據(jù)的存儲(chǔ)和處理能力本身就對(duì)數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)提出了很高的要求,Google在這方面做的工作很有意義。
Google公司提出的MapReduce是可以在大型計(jì)算機(jī)集群上對(duì)海量數(shù)據(jù)進(jìn)行并發(fā)處理的一種框架模型。它首先通過設(shè)定一個(gè)Map函數(shù)把輸入數(shù)據(jù)變換成相應(yīng)的鍵值對(duì),然后通過自定義的 Reduce函數(shù)聚集起來具有同樣鍵的值,并輸出結(jié)果?,F(xiàn)實(shí)世界中大都可以用此模型來表示對(duì)海量數(shù)據(jù)的處理。另外,并行數(shù)據(jù)庫是數(shù)據(jù)庫技術(shù)與并行技術(shù)結(jié)合的產(chǎn)物,并被視為種高性能的數(shù)據(jù)庫系統(tǒng),它能大大提高關(guān)系型數(shù)據(jù)庫中處理海量數(shù)據(jù)的效率。
數(shù)據(jù)建模
數(shù)據(jù)模型是對(duì)信息系統(tǒng)中客觀事物及其聯(lián)系的數(shù)據(jù)描述,它是復(fù)雜的數(shù)據(jù)關(guān)系之間的一個(gè)整體邏輯結(jié)構(gòu)圖。數(shù)據(jù)模型不但提供了整個(gè)組織藉以收集數(shù)據(jù)的基礎(chǔ),它還與組織中其他模型一起,精確恰當(dāng)?shù)赜涗洏I(yè)務(wù)需求,并支持信息系統(tǒng)不斷地發(fā)展和完善,以滿足不斷變化的業(yè)務(wù)需求。對(duì)于任何一個(gè)信息系統(tǒng)來說,數(shù)據(jù)模型都是它的核心和靈魂。
數(shù)據(jù)建模是一種用于定義和分析數(shù)據(jù)的要求和其需要的相應(yīng)支持的信息系統(tǒng)的過程。因此數(shù)據(jù)建模的過程中,涉及的專業(yè)數(shù)據(jù)建模工作,與企業(yè)的利益和用戶的信息系統(tǒng)密切相關(guān)。
從需求到實(shí)際的數(shù)據(jù)庫,有三種不同的類型。用于信息系統(tǒng)的數(shù)據(jù)模型作為一個(gè)概念數(shù)據(jù)模型,本質(zhì)上是一組記錄數(shù)據(jù)要求的最初的規(guī)范技術(shù)。數(shù)據(jù)首先適合企業(yè)的最初要求,然后被轉(zhuǎn)變?yōu)橐粋€(gè)邏輯數(shù)據(jù)模型,該模型可以在數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)概念模型中實(shí)現(xiàn)。一個(gè)概念數(shù)據(jù)模型的實(shí)現(xiàn)可能需要多個(gè)邏輯數(shù)據(jù)模型。數(shù)據(jù)建模中的最后一步是確定邏輯數(shù)據(jù)模型到物理數(shù)據(jù)模型中對(duì)數(shù)據(jù)、訪問、性能和存儲(chǔ)的具體要求。數(shù)據(jù)建模定義的不只是數(shù)據(jù)元素,也包括它們的結(jié)構(gòu)和它們之間的關(guān)系。
來源:精密空調(diào) http://preweds.com