|
商業(yè)智能在ERP系統(tǒng)中的應(yīng)用研究 |
商業(yè)智能在ERP系統(tǒng)中的應(yīng)用研究 | 發(fā)布時(shí)間:2012/6/5 11:24:47 |
1 緒論
商業(yè)智能的發(fā)展
商業(yè)智能是一種綜合運(yùn)用了數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析和數(shù)據(jù)挖掘技術(shù)來(lái)處理和分析數(shù)據(jù)的嶄新技術(shù)。商業(yè)智能這一術(shù)語(yǔ)1989年由Gartner Group的Howard Dresner首次提出,它描述了一系列的概念和方法,通過(guò)應(yīng)用基于事實(shí)的支持系統(tǒng)來(lái)輔助商業(yè)決策的制定。商業(yè)智能提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處。商業(yè)智能系統(tǒng)從企業(yè)運(yùn)作的日常數(shù)據(jù)中開(kāi)發(fā)出結(jié)論性的、基于事實(shí)的和具有可實(shí)旌性的信息,使企業(yè)能夠更快更容易的做出更好的商業(yè)決策。使企業(yè)管理者和決簧者以一種更清晰的角度看待業(yè)務(wù)數(shù)據(jù),提高企業(yè)運(yùn)轉(zhuǎn)效率、增加利潤(rùn)并建立良好的客戶關(guān)系,使企業(yè)以最短的時(shí)間發(fā)現(xiàn)商業(yè)機(jī)會(huì)捕捉商業(yè)機(jī)遇。如何時(shí)何地進(jìn)入何市場(chǎng),如何選擇和管理大客戶聯(lián)系,以及如何選擇和有效她推出商品優(yōu)惠策略等。同時(shí)通過(guò)提供決策分析能力。使企業(yè)更有效地實(shí)現(xiàn)了財(cái)務(wù)分析、風(fēng)險(xiǎn)管理、詐騙檢測(cè)、分銷(xiāo)和后勤管理,以及銷(xiāo)售狀況分析等。
商業(yè)智能系統(tǒng)可以說(shuō)是一個(gè)智能決策支持系統(tǒng),它不是一種產(chǎn)品或服務(wù),從某種意義上商業(yè)智能是一種概念或者說(shuō)是一種商業(yè)理念,它是在企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,利用數(shù)據(jù)挖掘和信息挖掘工具獲取商業(yè)信息,以輔助和支持商業(yè)決策的全過(guò)程。通過(guò)商業(yè)智能技術(shù),用戶更充分地了解他們的產(chǎn)品、服務(wù)、客戶以及銷(xiāo)售趨勢(shì)。商業(yè)智能在我國(guó)尚處于起步階段,商業(yè)智能系統(tǒng)適合應(yīng)用的行業(yè)依次是:零售、保險(xiǎn)、銀行、通信、離散制造、政府、醫(yī)療、分銷(xiāo)、流程制造、教育。
國(guó)內(nèi)外研究現(xiàn)狀
隨著2003年12月12日Business Objects公司(簡(jiǎn)稱(chēng)Bo)收購(gòu)Crystal Decisions所有交易的全部結(jié)束,一個(gè)年?duì)I業(yè)額達(dá)7.36億美元的全球最大的m廠商誕生了。從聽(tīng)到關(guān)于沃爾瑪超市的“啤酒”與“尿布”的故事,我們知道了BI應(yīng)用可以如此神奇地分析出兩種看似毫不相干的東西之間原來(lái)還有著千絲萬(wàn)縷的聯(lián)系,如今以數(shù)據(jù)倉(cāng)庫(kù)為核心的BI應(yīng)用正在成為國(guó)內(nèi)很多用戶們實(shí)施的熱點(diǎn)。據(jù)IDC(Intemational Data Corp.1最新的研究報(bào)告稱(chēng),2007年商業(yè)智能系統(tǒng)的市場(chǎng)規(guī)模將翻倍,且在世界范圍超過(guò)140億美元,而亞太地區(qū):BI解決方案市場(chǎng)將達(dá)33億美元,這是目前市場(chǎng)價(jià)值12億美元的近3信。世界許多以提供軟件平臺(tái)和工具平臺(tái)的大公司通過(guò)多年與企業(yè)的交流,己經(jīng)認(rèn)識(shí)到企業(yè)對(duì)商業(yè)智能的迫切需求,紛紛加入到從事商業(yè)智能的研究與開(kāi)發(fā)上來(lái)。IBM建立了專(zhuān)門(mén)從事m方案設(shè)計(jì)的研究中心,ORACI丑、微軟等公司紛紛推出了支持Ⅸ開(kāi)發(fā)和應(yīng)用的軟件系統(tǒng),有的自接進(jìn)入了BI的開(kāi)發(fā)領(lǐng)域。據(jù)市場(chǎng)分析員介紹,BI己經(jīng)成了企業(yè)信息技術(shù)最為重要并且極具潛力的領(lǐng)域。
在國(guó)外己有很多實(shí)施商業(yè)智能的成功案例:AT&T Universal公司通過(guò)部署商業(yè)智能解決方案,每年減少信用卡欺詐額高達(dá)8001萬(wàn)美元:Cadbury巧克力公司借助商業(yè)智能使市場(chǎng)份額很快從28%提升到了30%:美國(guó)第二大銀行一花旗銀行(Citibank)在BI系統(tǒng)的幫助下,能夠有效分析其分布于57個(gè)國(guó)家的客戶和信息在國(guó)內(nèi),商業(yè)智能的應(yīng)用方面還處于剛剛起步階段,但它的需求潛力巨大。在過(guò)去兩年里,已經(jīng)有不少國(guó)際商業(yè)智能公司進(jìn)入中國(guó),其中有MicroStrategy,BusinessObjects, Cognos等國(guó)際知名的傳統(tǒng)的商業(yè)智能軟件廠商,也有一些著名的企業(yè)管理應(yīng)用軟件廠商,比如SAP,qj骨文和冠群等公司投資于分析軟件。國(guó)內(nèi)用友、金蝶、創(chuàng)智等廠商近期也推出了這類(lèi)產(chǎn)品。這些國(guó)內(nèi)廠商一方面同國(guó)際商業(yè)智能軟件廠商建立良好的合作關(guān)系以維持發(fā)展,另一方面也在積極提升產(chǎn)品和解決方案的內(nèi)在品質(zhì),向客戶提供更完美的決策支持服務(wù),爭(zhēng)取與國(guó)外廠商一比高低。BI的發(fā)展得益于相關(guān)技術(shù)的發(fā)展,并行處理系統(tǒng)、廉價(jià)數(shù)據(jù)存儲(chǔ)、新數(shù)據(jù)挖掘算法、神經(jīng)網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)、決策支持技術(shù)、從大量數(shù)據(jù)中發(fā)現(xiàn)其背后潛藏的商業(yè)機(jī)會(huì)等等技術(shù)的發(fā)展。隨著這些技術(shù)的不斷進(jìn)步,必將推動(dòng)商業(yè)智能的發(fā)展和完善。
目前國(guó)內(nèi)的m應(yīng)用仍然存在許多問(wèn)題,主要表現(xiàn)在數(shù)據(jù)分析、知識(shí)發(fā)現(xiàn)能力、效率低,或者缺乏知識(shí)發(fā)現(xiàn),而更像一個(gè)操作型應(yīng)用系統(tǒng)。很難在決策支持方面發(fā)揮BI應(yīng)有的作用。首先應(yīng)該認(rèn)識(shí)到劭發(fā)展、應(yīng)用的總體趨勢(shì),其次多借鑒國(guó)外BI成熟的技術(shù)和方法,開(kāi)發(fā)或不斷完善真正意義上的BI系統(tǒng)。相信本文對(duì)國(guó)內(nèi)企業(yè)BI系統(tǒng)的研究開(kāi)發(fā)會(huì)有啟發(fā)。
商韭智能解決方案的核心功能
(1)客戶智能(客戶關(guān)系管理):
提供全方位的客戶信息查詢、分析和監(jiān)控功能。利用客戶智能可幫助企業(yè)制定獲取客戶、保留情況和提升客戶和潤(rùn)貢獻(xiàn)度的客戶管理策略?蛻糁悄苓可以對(duì)客戶滿意度、忠誠(chéng)度以及客戶生命周期進(jìn)行分析,并通過(guò)先進(jìn)的績(jī)效管理框架對(duì)客戶利潤(rùn)貢獻(xiàn)度進(jìn)行評(píng)估進(jìn)而制定客戶細(xì)分策略。
(2)營(yíng)銷(xiāo)智能:
通過(guò)分析、報(bào)告、管理和監(jiān)控營(yíng)銷(xiāo)信息來(lái)幫助企業(yè)的決策者、營(yíng)銷(xiāo)專(zhuān)家和分析人員制定戰(zhàn)略性的營(yíng)銷(xiāo)策略,幫助企業(yè)提高營(yíng)銷(xiāo)能力。并可以根據(jù)企業(yè)制定的營(yíng)銷(xiāo)策略進(jìn)行計(jì)算機(jī)仿真,觀察銷(xiāo)售策略是否能達(dá)到預(yù)期的效果。
(3)銷(xiāo)售智能:
提供全面的銷(xiāo)售團(tuán)隊(duì)分析、銷(xiāo)售業(yè)績(jī)分析、根源分析和業(yè)績(jī)管理來(lái)幫助決策者制定銷(xiāo)售策略及對(duì)銷(xiāo)售業(yè)務(wù)快速做出市場(chǎng)反應(yīng)。銷(xiāo)售智能還提供很多隨時(shí)可以運(yùn)行的智能報(bào)告和分析手冊(cè),評(píng)估銷(xiāo)售趨勢(shì)、市場(chǎng)開(kāi)拓活動(dòng)、產(chǎn)品利潤(rùn)、產(chǎn)品生存周期以及促銷(xiāo)效果。
(4)服務(wù)智能:
分析與服務(wù)相關(guān)活動(dòng)的全面信息,監(jiān)控服務(wù)質(zhì)量,幫助企業(yè)制定更合理高效的服務(wù)策略。該智能進(jìn)行閉環(huán)式的跟蹤反饋,并與業(yè)務(wù)人員的工作績(jī)效直接掛鉤,起到指導(dǎo)和監(jiān)督的作用。
(5)財(cái)務(wù)智能:
提供易于使用的財(cái)務(wù)盈利狀況分析報(bào)表、現(xiàn)金流分析報(bào)表、現(xiàn)金狀況分析報(bào)表、資產(chǎn)管理分析報(bào)表、項(xiàng)目分析報(bào)表等,方便決策者迅速地分析財(cái)務(wù)信息。
商業(yè)智能能為企業(yè)帶來(lái)效益
商業(yè)智能幫助企業(yè)的管理層進(jìn)行快速,準(zhǔn)確的決策,迅速的發(fā)現(xiàn)企業(yè)中的問(wèn)題,提示管理人員加以解決.但商業(yè)智能軟件系統(tǒng)能代替管理人員進(jìn)行決策,不能自動(dòng)處理企業(yè)運(yùn)行過(guò)程中遇到的問(wèn)題.因此商業(yè)智能系統(tǒng)并不能為企業(yè)帶來(lái)直接的經(jīng)濟(jì)效益,但必須看到,商業(yè)智能為企業(yè)帶來(lái)的是一種經(jīng)過(guò)科學(xué)武裝的管理思維,給整個(gè)企業(yè)帶來(lái)的是決策的快速性和準(zhǔn)確性,發(fā)現(xiàn)問(wèn)題的及時(shí)性,以及發(fā)現(xiàn)那些對(duì)手未發(fā)現(xiàn)的潛在的知識(shí)和規(guī)律,而這些信息是企業(yè)產(chǎn)生經(jīng)濟(jì)效益的基礎(chǔ),不能快速,準(zhǔn)確的指定決策方針等于將市場(chǎng)送給對(duì)手,不能及時(shí)發(fā)現(xiàn)業(yè)務(wù)種的潛在信息等于浪費(fèi)自己的資源.比如:通過(guò)對(duì)銷(xiāo)售數(shù)據(jù)的分析可發(fā)現(xiàn)各類(lèi)客戶的特征和喜歡購(gòu)買(mǎi)商品之間的聯(lián)系,這樣就可進(jìn)行更有針對(duì)性的精確的促銷(xiāo)活動(dòng)或向客戶提供更具有個(gè)性的服務(wù)等,這都會(huì)為企業(yè)帶來(lái)直接的經(jīng)濟(jì)效益.如果把“商業(yè)智能“技術(shù)應(yīng)用剄ERP系統(tǒng)中,并對(duì)ERP系統(tǒng)積累的數(shù)據(jù)進(jìn)行分析處理,使數(shù)據(jù)倉(cāng)庫(kù)建立在這些數(shù)據(jù)之上,結(jié)合0LAP技術(shù)及數(shù)據(jù)挖掘技術(shù),將非直觀的、隱含的信息和知識(shí)以直觀的形式描述,輔助領(lǐng)導(dǎo)層進(jìn)行決策分析,幫助用戶發(fā)現(xiàn)ERP系統(tǒng)積累的數(shù)據(jù)的潛在價(jià)值?梢赃@么說(shuō),普通的ERP系統(tǒng)能夠幫助用戶規(guī)范企業(yè)的管理,而擁有強(qiáng)大數(shù)據(jù)分析功能的ERP系統(tǒng)則能夠使用戶從這種規(guī)范的管理中獲得更大的效益。它也是當(dāng)前ERP系統(tǒng)研究的熱點(diǎn)。
中小企業(yè)對(duì)商業(yè)智能需求的迫切性
隨著信息技術(shù)的高速發(fā)展,企業(yè)信息處理量不斷加大,企業(yè)資源管理的復(fù)雜化也不斷加大,這要求信息的處理有更高的效率,信息的集成度要求擴(kuò)大到企業(yè)的整個(gè)資源的利用和管理,ERP(Enterprise Resource Planning-企業(yè)資源計(jì)劃正是為了適應(yīng)企業(yè)的需求而產(chǎn)生。激烈的市場(chǎng)競(jìng)爭(zhēng)使越來(lái)越多的國(guó)內(nèi)企業(yè)開(kāi)始關(guān)注ERP系統(tǒng),而且在企業(yè)中建立起自己的ERP系統(tǒng),并在多年的系統(tǒng)運(yùn)行中積累了豐富的數(shù)據(jù)。隨著計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展和企業(yè)走向電子商務(wù)的趨勢(shì)賦于了ERP許多新的發(fā)展趨勢(shì),要求把數(shù)據(jù)挖掘和聯(lián)機(jī)分析技術(shù)應(yīng)用到ERP系統(tǒng)中,使其具有商業(yè)智能。然而,目前多數(shù)國(guó)內(nèi)企業(yè)的礤瞪系統(tǒng)仍停留在功能全面的MIS系統(tǒng)層面,尤其沒(méi)能夠達(dá)到真正的ERP所期望的輔助決策分析的功能。企業(yè)面對(duì)日益積累的龐大數(shù)據(jù),渴望尋求新的途徑來(lái)迎接信息時(shí)代的挑戰(zhàn)。
商業(yè)智能的出現(xiàn),則可以很好的解決這個(gè)鬩題,并且順應(yīng)時(shí)代的的需求,利用現(xiàn)有的業(yè)務(wù)信息提取和組織有用的信息,能夠幫助用戶在加強(qiáng)管理、促進(jìn)營(yíng)銷(xiāo)和企業(yè)發(fā)展方面做出及時(shí)、正確的決策。然而,根據(jù)調(diào)查數(shù)據(jù)顯示,中國(guó)的BI市場(chǎng)主要集中在電信、金融、稅務(wù)、保險(xiǎn)等商端市場(chǎng),對(duì)于企業(yè)來(lái)說(shuō),也僅僅少數(shù)規(guī)模較大的企業(yè)用到了BI,究其原因是:
首先是ERP開(kāi)發(fā)商沒(méi)有在BI這個(gè)產(chǎn)品上投入研發(fā)。我們看國(guó)內(nèi)最大的兩家ERP廠商:用友和金蝶,,雖然他們的產(chǎn)品中都加入了自己研發(fā)的管理數(shù)據(jù)倉(cāng)庫(kù),但都屬于一個(gè)概念性的模塊,沒(méi)有實(shí)際的銷(xiāo)售。那為什么他們不在這個(gè)上面投入研發(fā)力量呢?原因又有二,其一,BI研發(fā)要求相對(duì)ERP更為精深的技術(shù),而且,需要更為專(zhuān)業(yè)的需求人員。其二,在用友或金蝶看來(lái),中國(guó)的ERP也才剛剛進(jìn)入到普及化的初級(jí)階段,國(guó)內(nèi)9096的企業(yè)屬于中小型的,BI的需求還不明顯,且它們多數(shù)不具備建立數(shù)據(jù)倉(cāng)庫(kù)的能力。
其次是中小企業(yè)在BI上一次性資金投入少,但對(duì)短期回報(bào)要求高。中小企業(yè)由于規(guī)模有限,不可能對(duì)企業(yè)的信息化做大的資金投入,尤其是軟件方面,一次性投入幾十萬(wàn)元人民幣,對(duì)多數(shù)中小企業(yè)來(lái)說(shuō)就是一個(gè)非常龐大的數(shù)字了,它們也不可能向大型企業(yè)那樣幾個(gè)月,甚至幾年后再計(jì)算收益,因此更希望在投入的短時(shí)間內(nèi)取得效果,而且效果越明顯越好。然而,商業(yè)智能的發(fā)展是建立在數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的,從目前國(guó)內(nèi)外數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)表明,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)不是一朝一夕的工作,它需要企業(yè)擁有強(qiáng)大的數(shù)據(jù)源,強(qiáng)大的資金作后盾,同時(shí)要配備一批數(shù)據(jù)倉(cāng)庫(kù)管理,維護(hù)人員進(jìn)行日常工作。對(duì)于廣大中小企業(yè)而言,面對(duì)剛剛興起的商業(yè)智能,企業(yè)決策者只能在理論上認(rèn)可。那么,是不是中小企業(yè)就根本不需要BI呢?答案是否定的。國(guó)內(nèi)中小企業(yè)需要商業(yè)智能,隨著我國(guó)經(jīng)濟(jì)的不斷發(fā)展,企業(yè)也在不斷壯大,商業(yè)智能的興起,使企業(yè)看到信息時(shí)代的優(yōu)越性,現(xiàn)有的ERP系統(tǒng)不能滿足決策者的要求,中小企業(yè)迫切希望能應(yīng)用商業(yè)智能給企業(yè)提供幫助。
其原因在于:
1.有關(guān)決策支持的功能分布于ERP的各個(gè)部分中,不利于系統(tǒng)的更新及維護(hù)。企業(yè)的決策需求隨著業(yè)務(wù)需求及市場(chǎng)的變化而不斷發(fā)生變化,在分散的系統(tǒng)中更新、維護(hù)系統(tǒng)遠(yuǎn)遠(yuǎn)不如在集中的系統(tǒng)中方便。
2.較難應(yīng)用OLAF的分析技術(shù)。OLAF技術(shù)為數(shù)據(jù)的快速查詢,分析提供了一種非常好的方法,但分散的系統(tǒng)不利于OLAP技術(shù)的實(shí)現(xiàn)。
3.不利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用。數(shù)據(jù)挖掘技術(shù)是現(xiàn)代人工智能和專(zhuān)家系統(tǒng)必用的技術(shù),是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市常用的技術(shù),目前多數(shù)企業(yè)的ERP系統(tǒng)在數(shù)據(jù)分析方面是以數(shù)據(jù)庫(kù)為基礎(chǔ),數(shù)據(jù)來(lái)源不同,不能形成統(tǒng)一的格式,很少建立起自己的數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市,使數(shù)據(jù)挖掘技術(shù)不能很好利用。
4.有關(guān)決策支持的功能分布于ERP的各個(gè)系統(tǒng)中,不能充分發(fā)揮第三方數(shù)據(jù)展示工具的應(yīng)用。在數(shù)據(jù)倉(cāng)庫(kù)的解決方案中,有很多的專(zhuān)用工具可以選擇,而分散的系統(tǒng)造成了工具使用上的難度。
研究意義
基于目前情況,本課題研究意義是把數(shù)據(jù)集市引入商業(yè)智能系統(tǒng)中代替數(shù)據(jù)倉(cāng)庫(kù),使國(guó)內(nèi)的中小企業(yè)也能擁有自己的商業(yè)智能,利用ERP系統(tǒng)提供的大量及時(shí)的數(shù)據(jù)果斷決策,使用少量的投資,獲取更大的回報(bào),抓住機(jī)遇,贏得優(yōu)勢(shì),使企業(yè)生存發(fā)展處于不敗之地。通過(guò)引入數(shù)據(jù)集市建立的ERP軟件的商業(yè)智能,它的優(yōu)勢(shì)在于:
1.?dāng)?shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉(cāng)庫(kù),是為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價(jià)途徑。它是具有特定應(yīng)用的數(shù)據(jù)倉(cāng)庫(kù),主要針對(duì)某個(gè)具有戰(zhàn)略意義的應(yīng)用或具體部門(mén)級(jí)的應(yīng)用,把企業(yè)長(zhǎng)期積累的數(shù)據(jù)充分利用。
2.?dāng)?shù)據(jù)集市一般包含有關(guān)某一特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù),可以分布在不同的物理平臺(tái)上,隨著企業(yè)的壯大,當(dāng)更多的數(shù)據(jù)集市加人時(shí),應(yīng)將這些數(shù)據(jù)集市加以集成,最終建立起一種結(jié)構(gòu),即構(gòu)成企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)。
相關(guān)理論與技術(shù)
數(shù)據(jù)倉(cāng)庫(kù)
業(yè)界公認(rèn)的數(shù)據(jù)倉(cāng)庫(kù)概念創(chuàng)始人w.H.Iumon在‘建立數(shù)據(jù)倉(cāng)庫(kù)》一書(shū)中對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義是:數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、穩(wěn)定的、不同時(shí)問(wèn)的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)面向主題與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用相對(duì)應(yīng)。主題是一個(gè)在較高層次將數(shù)據(jù)歸類(lèi)的標(biāo)準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域:數(shù)據(jù)倉(cāng)庫(kù)的集成特性是指在數(shù)據(jù)進(jìn)人數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過(guò)數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵步驟,首先要統(tǒng)一原始數(shù)據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用向面向主題的轉(zhuǎn)變:數(shù)據(jù)倉(cāng)庫(kù)的穩(wěn)定性是指數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史數(shù)據(jù)的內(nèi)容,而不是日常事務(wù)處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)加工和集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后是極少或根本不修改的;數(shù)據(jù)倉(cāng)庫(kù)是不同時(shí)間的數(shù)據(jù)集合,它要求數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)保存時(shí)限能滿足進(jìn)行決策分析的需要,而且數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都要標(biāo)明該數(shù)據(jù)的歷史時(shí)期。
數(shù)據(jù)倉(cāng)庫(kù)最根本的特點(diǎn)是物理地存放數(shù)據(jù),而且這些數(shù)據(jù)并不是最新的、專(zhuān)有的,而是來(lái)源于其它數(shù)據(jù)庫(kù)的。數(shù)據(jù)倉(cāng)庫(kù)的建立并不是要取代數(shù)據(jù)庫(kù),它要建立在一個(gè)較全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析,而事務(wù)處理數(shù)據(jù)庫(kù)在企業(yè)的信息環(huán)境中承擔(dān)的是日常操作性的任務(wù)。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一種新的應(yīng)用,而且到目前為止,數(shù)據(jù)倉(cāng)庫(kù)還是用數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)管理其中的數(shù)據(jù),
數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)是存儲(chǔ)數(shù)據(jù)的一種組織形式,它從傳統(tǒng)數(shù)據(jù)庫(kù)中獲得原始數(shù)據(jù),先按輔助決策的主題要求形成當(dāng)前基本數(shù)據(jù)層,再按綜合決策的要求形成綜合數(shù)據(jù)層(又可分為輕度綜合層和高度綜合層)。隨著時(shí)間的推移,由時(shí)間控制機(jī)制將當(dāng)前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層。可見(jiàn)數(shù)據(jù)倉(cāng)庫(kù)中邏輯結(jié)構(gòu)數(shù)據(jù)由3層到4層數(shù)據(jù)組成,它們均由元數(shù)據(jù)
聯(lián)機(jī)分析處理
聯(lián)機(jī)分析處理(On-Line Analytical Process,OLAP)瑚,是使分析人員,管理人員或執(zhí)行人員能夠從各種角度,對(duì)原始數(shù)據(jù)轉(zhuǎn)化出來(lái)的,能夠真正為用戶所證明的,并真實(shí)反映企業(yè)維持性的信息進(jìn)行快速,一致,交互的存取,從而獲得對(duì)數(shù)據(jù)的更深入得了解的一般軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和數(shù)據(jù)分析工具的集合。
聯(lián)機(jī)分析處理是數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策分析的一個(gè)重要概念,是一種共享多維信息的快速分析工具,也稱(chēng)多維分析。它是一種數(shù)據(jù)分析技術(shù),能夠完成基于某種數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)分析功能。OLAP技術(shù)是對(duì)由語(yǔ)意動(dòng)態(tài)對(duì)象建立的,以動(dòng)態(tài)微立方結(jié)構(gòu)形式存儲(chǔ)的表進(jìn)行向下鉆取(Drill Down)。向上鉆取(Drill Up),跨越鉆取,切片和切換等操作實(shí)現(xiàn)數(shù)據(jù)的多維分析。完成這些功能和任務(wù)涉及的技術(shù)包括數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),可視化網(wǎng)絡(luò),數(shù)據(jù)挖掘和領(lǐng)域知識(shí)處理等,系統(tǒng)集成還要處理多種環(huán)境。
在適應(yīng)性方面,有以下幾方面不同:
在維數(shù)交化方面
MOLAP具有較高的預(yù)綜合度,隨維數(shù)的增加,數(shù)據(jù)超立方體的體積增長(zhǎng)十分迅速,管理較難,相比之下,ROLAP的預(yù)綜合度較低,管理靈活,維的增加對(duì)數(shù)據(jù)集市的影響較小,適應(yīng)性較強(qiáng)。
在數(shù)據(jù)變化方面
由于MOLAP的高效率是建立在預(yù)綜合基礎(chǔ)上的,當(dāng)數(shù)據(jù)變化頻繁時(shí),如陰進(jìn)行預(yù)綜合所需的開(kāi)銷(xiāo)將十分客觀,它對(duì)數(shù)據(jù)變化的適應(yīng)性不如ROi.^P。
在數(shù)據(jù)量方面
作為ROLAP基礎(chǔ)的RDBMS,其發(fā)展歷程要遠(yuǎn)遠(yuǎn)超過(guò)MDDB,目前以擁有較強(qiáng)的并行處理能力,能較好的適應(yīng)大數(shù)據(jù)量的運(yùn)算,同時(shí)在對(duì)軟硬件環(huán)境的適應(yīng)能力上,也具有明顯的優(yōu)勢(shì)。
聯(lián)機(jī)分析處理與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系
在數(shù)據(jù)倉(cāng)庫(kù)中,OLAP和數(shù)據(jù)倉(cāng)庫(kù)是密不可分的,但是兩者具有不同的概念。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫(kù),這些歷史數(shù)據(jù)主要用于對(duì)企業(yè)的經(jīng)營(yíng)決策提供分析和支持。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是不能用于連機(jī)事務(wù)處理系統(tǒng)(OLTP)的,而OLAP技術(shù)則利用數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行聯(lián)機(jī)分析,將復(fù)雜的分析查詢結(jié)果快速地返回用戶。OLAP利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術(shù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行組織和匯總,用聯(lián)機(jī)分析和可視化工具對(duì)這些數(shù)據(jù)迅速進(jìn)行評(píng)價(jià)。從圖2-1中可以發(fā)現(xiàn)OLAP用多維結(jié)構(gòu)表示數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),創(chuàng)建組織和匯總數(shù)據(jù)的立方體,這樣才能有效地提高用戶復(fù)雜查詢的要求。因此數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)將直接影響立方體的設(shè)計(jì)和構(gòu)造,也就影響OLAP的:工作效率。從OLAP使用的效率角度考慮,在設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)時(shí)應(yīng)該考慮這樣一些因素。
數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)建立在數(shù)據(jù)倉(cāng)庫(kù)之上,一方面能夠提高數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的決策支持能力,另一方面,由于數(shù)據(jù)倉(cāng)庫(kù)完成了數(shù)據(jù)的清洗、ETL(抽取,轉(zhuǎn)換,裝載),數(shù)據(jù)挖掘面對(duì)的是經(jīng)過(guò)初步處理的數(shù)據(jù),更加有利于數(shù)據(jù)挖掘功能的發(fā)揮。與展示企業(yè)歷史和現(xiàn)有信息的靜態(tài)、動(dòng)態(tài)報(bào)表及查詢等分析方法不同,數(shù)據(jù)挖掘是從數(shù)據(jù)庫(kù)中智能地尋找模型,從海量數(shù)據(jù)中歸納出有用信息?梢哉f(shuō)通過(guò)商業(yè)智能系統(tǒng),企業(yè)獲得洞察力的主要手段就是數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘技術(shù)的分類(lèi)
數(shù)據(jù)挖掘技術(shù)充分利用機(jī)器學(xué)習(xí)、人上智能、模糊邏輯、人上神經(jīng)網(wǎng)絡(luò)等方法。按照研究方法的不同,可分為:
①歸納學(xué)習(xí)方法:如信息論方法(決策樹(shù)方法),集合論方法(粗集方法,概念樹(shù)方法等);
②仿生物技術(shù)方法:如神經(jīng)網(wǎng)絡(luò)方法,遺傳算法;
③公式發(fā)現(xiàn)法:如物理定律發(fā)現(xiàn)系統(tǒng)BACON、經(jīng)驗(yàn)公式發(fā)現(xiàn)系統(tǒng)FI)D;
④統(tǒng)計(jì)分析方法:如相關(guān)分析,回歸分析,因子分析等;
⑤模糊數(shù)學(xué)方法:如模糊評(píng)判,模糊聚類(lèi)等。數(shù)據(jù)挖掘按照功能又可分為描述型數(shù)據(jù)挖掘和預(yù)測(cè)型數(shù)據(jù)挖掘兩種。描述型數(shù)據(jù)挖掘包括數(shù)據(jù)總結(jié)、聚類(lèi)及關(guān)聯(lián)分析等。預(yù)測(cè)型數(shù)據(jù)挖掘包括分類(lèi)、回歸及時(shí)問(wèn)序列分析等。
下面介紹集中比較典型的數(shù)據(jù)挖掘方法:
(1)數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計(jì)分析。數(shù)據(jù)總結(jié)目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計(jì)方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類(lèi)。
(2)聚類(lèi):聚類(lèi)分析是根據(jù)物以類(lèi)聚的原理,將本身沒(méi)有類(lèi)別的樣本聚集成不同的群組,并且對(duì)每一個(gè)這樣的組進(jìn)行描述的過(guò)程。它的目的是使群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。
聚類(lèi)分析常用于客戶關(guān)系管理。利用聚類(lèi)技術(shù),根據(jù)客戶的個(gè)人特征以及消費(fèi)數(shù)據(jù),可以將客戶群體進(jìn)行細(xì)分。例如,可以得到這樣的一個(gè)消費(fèi)群體:女性占91%,全部無(wú)子女、年齡在3l到40歲占70%,高消費(fèi)級(jí)別的占64%,買(mǎi)過(guò)針織品的占91%,買(mǎi)過(guò)廚房用品的占89%,買(mǎi)過(guò)園藝用品的占79%。針對(duì)不同的客戶群,可以實(shí)施不同的營(yíng)銷(xiāo)和服務(wù)方式,從而提高客戶的滿意度。
對(duì)于空間數(shù)據(jù),根據(jù)地理位置以及障礙物的存在情況.可以自動(dòng)進(jìn)行區(qū)域劃分。例如,根據(jù)分布在不同地理位置的ATM機(jī)的情況將居民進(jìn)行區(qū)域劃分,根據(jù)這一信息,可以有效地進(jìn)行ATM機(jī)的設(shè)置規(guī)劃,避免浪費(fèi),同時(shí)也避免失掉每一個(gè)商機(jī)。對(duì)于文本數(shù)據(jù),利用聚類(lèi)技術(shù)可以根據(jù)文檔的內(nèi)容自動(dòng)劃分類(lèi)別,從而便于文本的檢索。
(3)關(guān)聯(lián)分析:關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個(gè)事件發(fā)生的同時(shí),另一個(gè)事件也經(jīng)常發(fā)生。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性:序列模式與此類(lèi)似,尋找的是事件之間時(shí)間上的相關(guān)性,如對(duì)股票漲跌的分析等。關(guān)聯(lián)分析的重點(diǎn)在于快速發(fā)現(xiàn)那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計(jì)意義。
對(duì)于結(jié)構(gòu)化的數(shù)據(jù),以客戶的購(gòu)買(mǎi)習(xí)慣數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)客戶的關(guān)聯(lián)購(gòu)買(mǎi)需要。例如,一個(gè)開(kāi)設(shè)儲(chǔ)蓄賬戶的客戶很可能同時(shí)進(jìn)行債券交易和股票交易,購(gòu)買(mǎi)紙尿褲的男顧客經(jīng)常同時(shí)購(gòu)買(mǎi)啤酒等。利用這種知識(shí)可以采取積極的營(yíng)銷(xiāo)策略,擴(kuò)展客戶購(gòu)買(mǎi)的產(chǎn)品范圍,吸引更多的客戶。通過(guò)調(diào)整商品的布局便于顧客買(mǎi)到經(jīng)常同時(shí)購(gòu)買(mǎi)的商品,或者通過(guò)降低一種商品的價(jià)格來(lái)促進(jìn)另一種商品的銷(xiāo)售等。
對(duì)于非結(jié)構(gòu)化的數(shù)據(jù),以空間數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性。例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場(chǎng)相鄰的對(duì)象等。
(4)分類(lèi):目的是構(gòu)造一個(gè)分類(lèi)函數(shù)或分類(lèi)模型(也常常稱(chēng)作分類(lèi)器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè)。要構(gòu)造分類(lèi)器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱(chēng)屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類(lèi)別標(biāo)記。
元數(shù)據(jù)分類(lèi)
對(duì)元數(shù)據(jù)的合理分類(lèi),是對(duì)其有效管理的前提,目前對(duì)于元數(shù)據(jù)分類(lèi)有很多種,從不同的角度可以將元數(shù)據(jù)分成不同的類(lèi)蹦。按數(shù)據(jù)類(lèi)型分為:基礎(chǔ)數(shù)據(jù)元數(shù)據(jù),數(shù)據(jù)處理元數(shù)據(jù):按抽象層次分為:概念元數(shù)據(jù),邏輯元數(shù)據(jù)和物理元數(shù)據(jù):按用戶使用角度來(lái)分:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù):按元數(shù)據(jù)來(lái)源分為:工具元數(shù)據(jù),資源元數(shù)據(jù),外來(lái)元數(shù)據(jù):按應(yīng)用日的分為:管理維護(hù)元數(shù)據(jù),更新元數(shù)據(jù)和分析元數(shù)據(jù),等等。
本文將元數(shù)據(jù)集市中的元數(shù)據(jù)劃分為:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)(technical metadata)是為企業(yè)技術(shù)用戶和IT員工提供支持的元數(shù)據(jù),而業(yè)務(wù)元數(shù)據(jù)(business metadata)是為企業(yè)業(yè)務(wù)用戶提供支持的元數(shù)據(jù)。當(dāng)開(kāi)發(fā)人員和技術(shù)用戶對(duì)企業(yè)應(yīng)用系統(tǒng)進(jìn)行維護(hù)和擴(kuò)展時(shí),技術(shù)元數(shù)據(jù)為他們提供所需的信息。例如,如果企業(yè)需要重新劃分其他地理銷(xiāo)售區(qū)域,信息主管就可以用技術(shù)元數(shù)據(jù)列出所有含有地理銷(xiāo)售數(shù)據(jù)的程序、表和系統(tǒng)。這些信息使主管能夠方便而迅速地估計(jì)出開(kāi)發(fā)團(tuán)隊(duì)進(jìn)行修改所需要的開(kāi)發(fā)資源和時(shí)問(wèn),還可以幫助確定可能受到影響的所有其它系統(tǒng)。然后開(kāi)發(fā)人員在實(shí)現(xiàn)新的地理銷(xiāo)售區(qū)域時(shí),可以使用其他技術(shù)元數(shù)據(jù)來(lái)幫助定位到具體的代碼。因此,技術(shù)元數(shù)據(jù)對(duì)于維護(hù)和改進(jìn)信息系統(tǒng)來(lái)說(shuō)時(shí)至關(guān)重要的。技術(shù)元數(shù)據(jù)還可以幫助IT員工為信息系統(tǒng)的后續(xù)版本制定計(jì)劃,還可以協(xié)助開(kāi)發(fā)人員實(shí)際地實(shí)現(xiàn)這些變化。如果沒(méi)有技術(shù)元數(shù)據(jù),分析和實(shí)現(xiàn)這些變換就會(huì)變成一項(xiàng)困難而費(fèi)時(shí)的任務(wù)。
盡管創(chuàng)建元數(shù)據(jù)源的副本《抽取文件)會(huì)有一些額外的存儲(chǔ)r丌銷(xiāo),但這些開(kāi)銷(xiāo)會(huì)相當(dāng)小,因?yàn)樵獢?shù)據(jù)源文件中的數(shù)據(jù)量通常不會(huì)很大。另一方面,單獨(dú)建立抽取層有三個(gè)優(yōu)點(diǎn):
1)時(shí)效性
抽取層對(duì)于保持系統(tǒng)中的元數(shù)據(jù)同步非常重要。為了說(shuō)明這一點(diǎn),可以假定有三張?jiān)獢?shù)據(jù)倉(cāng)庫(kù)表需要從相同的元數(shù)據(jù)源得至0數(shù)據(jù)。如何構(gòu)造一個(gè)進(jìn)程直接從同一數(shù)據(jù)源構(gòu)建這三張?jiān)獢?shù)據(jù)表,當(dāng)執(zhí)行該迸程來(lái)構(gòu)建其中一元數(shù)據(jù)表時(shí),此時(shí)的元數(shù)據(jù)源可能已經(jīng)變化了。當(dāng)元數(shù)據(jù)源高度動(dòng)態(tài)變化時(shí),這種情況的可能性會(huì)更大。在不同時(shí)刻讀取元數(shù)據(jù)時(shí),元數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)就會(huì)不同步。通過(guò)在集成處理過(guò)程中一次性創(chuàng)建抽取文件,所有的元數(shù)據(jù)表可由該抽取文件構(gòu)建,這就消除了可能的時(shí)效性問(wèn)題。
2)擴(kuò)展性
因?yàn)橐獎(jiǎng)?chuàng)建類(lèi)似于元數(shù)據(jù)源文件或表的抽取文件,所以只需要從元數(shù)據(jù)源一次性地讀取數(shù)據(jù)。如果沒(méi)有抽取文件或表,元數(shù)據(jù)倉(cāng)庫(kù)中的每張表都必須分別從元數(shù)據(jù)源中讀取,這并不是開(kāi)發(fā)人員所期望的。
3)備份
創(chuàng)建抽取文件提供了該元數(shù)據(jù)源的自然備份。因此,如果出現(xiàn)了不得不停止元數(shù)據(jù)集成處理的狀況,那么可以在不影響元數(shù)據(jù)源的情況下輕易地撤消改動(dòng)。 |
1 緒論
商業(yè)智能的發(fā)展
商業(yè)智能是一種綜合運(yùn)用了數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析和數(shù)據(jù)挖掘技術(shù)來(lái)處理和分析數(shù)據(jù)的嶄新技術(shù)。商業(yè)智能這一術(shù)語(yǔ)1989年由Gartner Group的Howard Dresner首次提出,它描述了一系列的概念和方法,通過(guò)應(yīng)用基于事實(shí)的支持系統(tǒng)來(lái)輔助商業(yè)決策的制定。商業(yè)智能提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處。商業(yè)智能系統(tǒng)從企業(yè)運(yùn)作的日常數(shù)據(jù)中開(kāi)發(fā)出結(jié)論性的、基于事實(shí)的和具有可實(shí)旌性的信息,使企業(yè)能夠更快更容易的做出更好的商業(yè)決策。使企業(yè)管理者和決簧者以一種更清晰的角度看待業(yè)務(wù)數(shù)據(jù),提高企業(yè)運(yùn)轉(zhuǎn)效率、增加利潤(rùn)并建立良好的客戶關(guān)系,使企業(yè)以最短的時(shí)間發(fā)現(xiàn)商業(yè)機(jī)會(huì)捕捉商業(yè)機(jī)遇。如何時(shí)何地進(jìn)入何市場(chǎng),如何選擇和管理大客戶聯(lián)系,以及如何選擇和有效她推出商品優(yōu)惠策略等。同時(shí)通過(guò)提供決策分析能力。使企業(yè)更有效地實(shí)現(xiàn)了財(cái)務(wù)分析、風(fēng)險(xiǎn)管理、詐騙檢測(cè)、分銷(xiāo)和后勤管理,以及銷(xiāo)售狀況分析等。
商業(yè)智能系統(tǒng)可以說(shuō)是一個(gè)智能決策支持系統(tǒng),它不是一種產(chǎn)品或服務(wù),從某種意義上商業(yè)智能是一種概念或者說(shuō)是一種商業(yè)理念,它是在企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,利用數(shù)據(jù)挖掘和信息挖掘工具獲取商業(yè)信息,以輔助和支持商業(yè)決策的全過(guò)程。通過(guò)商業(yè)智能技術(shù),用戶更充分地了解他們的產(chǎn)品、服務(wù)、客戶以及銷(xiāo)售趨勢(shì)。商業(yè)智能在我國(guó)尚處于起步階段,商業(yè)智能系統(tǒng)適合應(yīng)用的行業(yè)依次是:零售、保險(xiǎn)、銀行、通信、離散制造、政府、醫(yī)療、分銷(xiāo)、流程制造、教育。
國(guó)內(nèi)外研究現(xiàn)狀
隨著2003年12月12日Business Objects公司(簡(jiǎn)稱(chēng)Bo)收購(gòu)Crystal Decisions所有交易的全部結(jié)束,一個(gè)年?duì)I業(yè)額達(dá)7.36億美元的全球最大的m廠商誕生了。從聽(tīng)到關(guān)于沃爾瑪超市的“啤酒”與“尿布”的故事,我們知道了BI應(yīng)用可以如此神奇地分析出兩種看似毫不相干的東西之間原來(lái)還有著千絲萬(wàn)縷的聯(lián)系,如今以數(shù)據(jù)倉(cāng)庫(kù)為核心的BI應(yīng)用正在成為國(guó)內(nèi)很多用戶們實(shí)施的熱點(diǎn)。據(jù)IDC(Intemational Data Corp.1最新的研究報(bào)告稱(chēng),2007年商業(yè)智能系統(tǒng)的市場(chǎng)規(guī)模將翻倍,且在世界范圍超過(guò)140億美元,而亞太地區(qū):BI解決方案市場(chǎng)將達(dá)33億美元,這是目前市場(chǎng)價(jià)值12億美元的近3信。世界許多以提供軟件平臺(tái)和工具平臺(tái)的大公司通過(guò)多年與企業(yè)的交流,己經(jīng)認(rèn)識(shí)到企業(yè)對(duì)商業(yè)智能的迫切需求,紛紛加入到從事商業(yè)智能的研究與開(kāi)發(fā)上來(lái)。IBM建立了專(zhuān)門(mén)從事m方案設(shè)計(jì)的研究中心,ORACI丑、微軟等公司紛紛推出了支持Ⅸ開(kāi)發(fā)和應(yīng)用的軟件系統(tǒng),有的自接進(jìn)入了BI的開(kāi)發(fā)領(lǐng)域。據(jù)市場(chǎng)分析員介紹,BI己經(jīng)成了企業(yè)信息技術(shù)最為重要并且極具潛力的領(lǐng)域。
在國(guó)外己有很多實(shí)施商業(yè)智能的成功案例:AT&T Universal公司通過(guò)部署商業(yè)智能解決方案,每年減少信用卡欺詐額高達(dá)8001萬(wàn)美元:Cadbury巧克力公司借助商業(yè)智能使市場(chǎng)份額很快從28%提升到了30%:美國(guó)第二大銀行一花旗銀行(Citibank)在BI系統(tǒng)的幫助下,能夠有效分析其分布于57個(gè)國(guó)家的客戶和信息在國(guó)內(nèi),商業(yè)智能的應(yīng)用方面還處于剛剛起步階段,但它的需求潛力巨大。在過(guò)去兩年里,已經(jīng)有不少國(guó)際商業(yè)智能公司進(jìn)入中國(guó),其中有MicroStrategy,BusinessObjects, Cognos等國(guó)際知名的傳統(tǒng)的商業(yè)智能軟件廠商,也有一些著名的企業(yè)管理應(yīng)用軟件廠商,比如SAP,qj骨文和冠群等公司投資于分析軟件。國(guó)內(nèi)用友、金蝶、創(chuàng)智等廠商近期也推出了這類(lèi)產(chǎn)品。這些國(guó)內(nèi)廠商一方面同國(guó)際商業(yè)智能軟件廠商建立良好的合作關(guān)系以維持發(fā)展,另一方面也在積極提升產(chǎn)品和解決方案的內(nèi)在品質(zhì),向客戶提供更完美的決策支持服務(wù),爭(zhēng)取與國(guó)外廠商一比高低。BI的發(fā)展得益于相關(guān)技術(shù)的發(fā)展,并行處理系統(tǒng)、廉價(jià)數(shù)據(jù)存儲(chǔ)、新數(shù)據(jù)挖掘算法、神經(jīng)網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)、決策支持技術(shù)、從大量數(shù)據(jù)中發(fā)現(xiàn)其背后潛藏的商業(yè)機(jī)會(huì)等等技術(shù)的發(fā)展。隨著這些技術(shù)的不斷進(jìn)步,必將推動(dòng)商業(yè)智能的發(fā)展和完善。
目前國(guó)內(nèi)的m應(yīng)用仍然存在許多問(wèn)題,主要表現(xiàn)在數(shù)據(jù)分析、知識(shí)發(fā)現(xiàn)能力、效率低,或者缺乏知識(shí)發(fā)現(xiàn),而更像一個(gè)操作型應(yīng)用系統(tǒng)。很難在決策支持方面發(fā)揮BI應(yīng)有的作用。首先應(yīng)該認(rèn)識(shí)到劭發(fā)展、應(yīng)用的總體趨勢(shì),其次多借鑒國(guó)外BI成熟的技術(shù)和方法,開(kāi)發(fā)或不斷完善真正意義上的BI系統(tǒng)。相信本文對(duì)國(guó)內(nèi)企業(yè)BI系統(tǒng)的研究開(kāi)發(fā)會(huì)有啟發(fā)。
商韭智能解決方案的核心功能
(1)客戶智能(客戶關(guān)系管理):
提供全方位的客戶信息查詢、分析和監(jiān)控功能。利用客戶智能可幫助企業(yè)制定獲取客戶、保留情況和提升客戶和潤(rùn)貢獻(xiàn)度的客戶管理策略。客戶智能還可以對(duì)客戶滿意度、忠誠(chéng)度以及客戶生命周期進(jìn)行分析,并通過(guò)先進(jìn)的績(jī)效管理框架對(duì)客戶利潤(rùn)貢獻(xiàn)度進(jìn)行評(píng)估進(jìn)而制定客戶細(xì)分策略。
(2)營(yíng)銷(xiāo)智能:
通過(guò)分析、報(bào)告、管理和監(jiān)控營(yíng)銷(xiāo)信息來(lái)幫助企業(yè)的決策者、營(yíng)銷(xiāo)專(zhuān)家和分析人員制定戰(zhàn)略性的營(yíng)銷(xiāo)策略,幫助企業(yè)提高營(yíng)銷(xiāo)能力。并可以根據(jù)企業(yè)制定的營(yíng)銷(xiāo)策略進(jìn)行計(jì)算機(jī)仿真,觀察銷(xiāo)售策略是否能達(dá)到預(yù)期的效果。
(3)銷(xiāo)售智能:
提供全面的銷(xiāo)售團(tuán)隊(duì)分析、銷(xiāo)售業(yè)績(jī)分析、根源分析和業(yè)績(jī)管理來(lái)幫助決策者制定銷(xiāo)售策略及對(duì)銷(xiāo)售業(yè)務(wù)快速做出市場(chǎng)反應(yīng)。銷(xiāo)售智能還提供很多隨時(shí)可以運(yùn)行的智能報(bào)告和分析手冊(cè),評(píng)估銷(xiāo)售趨勢(shì)、市場(chǎng)開(kāi)拓活動(dòng)、產(chǎn)品利潤(rùn)、產(chǎn)品生存周期以及促銷(xiāo)效果。
(4)服務(wù)智能:
分析與服務(wù)相關(guān)活動(dòng)的全面信息,監(jiān)控服務(wù)質(zhì)量,幫助企業(yè)制定更合理高效的服務(wù)策略。該智能進(jìn)行閉環(huán)式的跟蹤反饋,并與業(yè)務(wù)人員的工作績(jī)效直接掛鉤,起到指導(dǎo)和監(jiān)督的作用。
(5)財(cái)務(wù)智能:
提供易于使用的財(cái)務(wù)盈利狀況分析報(bào)表、現(xiàn)金流分析報(bào)表、現(xiàn)金狀況分析報(bào)表、資產(chǎn)管理分析報(bào)表、項(xiàng)目分析報(bào)表等,方便決策者迅速地分析財(cái)務(wù)信息。
商業(yè)智能能為企業(yè)帶來(lái)效益
商業(yè)智能幫助企業(yè)的管理層進(jìn)行快速,準(zhǔn)確的決策,迅速的發(fā)現(xiàn)企業(yè)中的問(wèn)題,提示管理人員加以解決.但商業(yè)智能軟件系統(tǒng)能代替管理人員進(jìn)行決策,不能自動(dòng)處理企業(yè)運(yùn)行過(guò)程中遇到的問(wèn)題.因此商業(yè)智能系統(tǒng)并不能為企業(yè)帶來(lái)直接的經(jīng)濟(jì)效益,但必須看到,商業(yè)智能為企業(yè)帶來(lái)的是一種經(jīng)過(guò)科學(xué)武裝的管理思維,給整個(gè)企業(yè)帶來(lái)的是決策的快速性和準(zhǔn)確性,發(fā)現(xiàn)問(wèn)題的及時(shí)性,以及發(fā)現(xiàn)那些對(duì)手未發(fā)現(xiàn)的潛在的知識(shí)和規(guī)律,而這些信息是企業(yè)產(chǎn)生經(jīng)濟(jì)效益的基礎(chǔ),不能快速,準(zhǔn)確的指定決策方針等于將市場(chǎng)送給對(duì)手,不能及時(shí)發(fā)現(xiàn)業(yè)務(wù)種的潛在信息等于浪費(fèi)自己的資源.比如:通過(guò)對(duì)銷(xiāo)售數(shù)據(jù)的分析可發(fā)現(xiàn)各類(lèi)客戶的特征和喜歡購(gòu)買(mǎi)商品之間的聯(lián)系,這樣就可進(jìn)行更有針對(duì)性的精確的促銷(xiāo)活動(dòng)或向客戶提供更具有個(gè)性的服務(wù)等,這都會(huì)為企業(yè)帶來(lái)直接的經(jīng)濟(jì)效益.如果把“商業(yè)智能“技術(shù)應(yīng)用剄ERP系統(tǒng)中,并對(duì)ERP系統(tǒng)積累的數(shù)據(jù)進(jìn)行分析處理,使數(shù)據(jù)倉(cāng)庫(kù)建立在這些數(shù)據(jù)之上,結(jié)合0LAP技術(shù)及數(shù)據(jù)挖掘技術(shù),將非直觀的、隱含的信息和知識(shí)以直觀的形式描述,輔助領(lǐng)導(dǎo)層進(jìn)行決策分析,幫助用戶發(fā)現(xiàn)ERP系統(tǒng)積累的數(shù)據(jù)的潛在價(jià)值?梢赃@么說(shuō),普通的ERP系統(tǒng)能夠幫助用戶規(guī)范企業(yè)的管理,而擁有強(qiáng)大數(shù)據(jù)分析功能的ERP系統(tǒng)則能夠使用戶從這種規(guī)范的管理中獲得更大的效益。它也是當(dāng)前ERP系統(tǒng)研究的熱點(diǎn)。
中小企業(yè)對(duì)商業(yè)智能需求的迫切性
隨著信息技術(shù)的高速發(fā)展,企業(yè)信息處理量不斷加大,企業(yè)資源管理的復(fù)雜化也不斷加大,這要求信息的處理有更高的效率,信息的集成度要求擴(kuò)大到企業(yè)的整個(gè)資源的利用和管理,ERP(Enterprise Resource Planning-企業(yè)資源計(jì)劃正是為了適應(yīng)企業(yè)的需求而產(chǎn)生。激烈的市場(chǎng)競(jìng)爭(zhēng)使越來(lái)越多的國(guó)內(nèi)企業(yè)開(kāi)始關(guān)注ERP系統(tǒng),而且在企業(yè)中建立起自己的ERP系統(tǒng),并在多年的系統(tǒng)運(yùn)行中積累了豐富的數(shù)據(jù)。隨著計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展和企業(yè)走向電子商務(wù)的趨勢(shì)賦于了ERP許多新的發(fā)展趨勢(shì),要求把數(shù)據(jù)挖掘和聯(lián)機(jī)分析技術(shù)應(yīng)用到ERP系統(tǒng)中,使其具有商業(yè)智能。然而,目前多數(shù)國(guó)內(nèi)企業(yè)的礤瞪系統(tǒng)仍停留在功能全面的MIS系統(tǒng)層面,尤其沒(méi)能夠達(dá)到真正的ERP所期望的輔助決策分析的功能。企業(yè)面對(duì)日益積累的龐大數(shù)據(jù),渴望尋求新的途徑來(lái)迎接信息時(shí)代的挑戰(zhàn)。
商業(yè)智能的出現(xiàn),則可以很好的解決這個(gè)鬩題,并且順應(yīng)時(shí)代的的需求,利用現(xiàn)有的業(yè)務(wù)信息提取和組織有用的信息,能夠幫助用戶在加強(qiáng)管理、促進(jìn)營(yíng)銷(xiāo)和企業(yè)發(fā)展方面做出及時(shí)、正確的決策。然而,根據(jù)調(diào)查數(shù)據(jù)顯示,中國(guó)的BI市場(chǎng)主要集中在電信、金融、稅務(wù)、保險(xiǎn)等商端市場(chǎng),對(duì)于企業(yè)來(lái)說(shuō),也僅僅少數(shù)規(guī)模較大的企業(yè)用到了BI,究其原因是:
首先是ERP開(kāi)發(fā)商沒(méi)有在BI這個(gè)產(chǎn)品上投入研發(fā)。我們看國(guó)內(nèi)最大的兩家ERP廠商:用友和金蝶,,雖然他們的產(chǎn)品中都加入了自己研發(fā)的管理數(shù)據(jù)倉(cāng)庫(kù),但都屬于一個(gè)概念性的模塊,沒(méi)有實(shí)際的銷(xiāo)售。那為什么他們不在這個(gè)上面投入研發(fā)力量呢?原因又有二,其一,BI研發(fā)要求相對(duì)ERP更為精深的技術(shù),而且,需要更為專(zhuān)業(yè)的需求人員。其二,在用友或金蝶看來(lái),中國(guó)的ERP也才剛剛進(jìn)入到普及化的初級(jí)階段,國(guó)內(nèi)9096的企業(yè)屬于中小型的,BI的需求還不明顯,且它們多數(shù)不具備建立數(shù)據(jù)倉(cāng)庫(kù)的能力。
其次是中小企業(yè)在BI上一次性資金投入少,但對(duì)短期回報(bào)要求高。中小企業(yè)由于規(guī)模有限,不可能對(duì)企業(yè)的信息化做大的資金投入,尤其是軟件方面,一次性投入幾十萬(wàn)元人民幣,對(duì)多數(shù)中小企業(yè)來(lái)說(shuō)就是一個(gè)非常龐大的數(shù)字了,它們也不可能向大型企業(yè)那樣幾個(gè)月,甚至幾年后再計(jì)算收益,因此更希望在投入的短時(shí)間內(nèi)取得效果,而且效果越明顯越好。然而,商業(yè)智能的發(fā)展是建立在數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的,從目前國(guó)內(nèi)外數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)表明,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)不是一朝一夕的工作,它需要企業(yè)擁有強(qiáng)大的數(shù)據(jù)源,強(qiáng)大的資金作后盾,同時(shí)要配備一批數(shù)據(jù)倉(cāng)庫(kù)管理,維護(hù)人員進(jìn)行日常工作。對(duì)于廣大中小企業(yè)而言,面對(duì)剛剛興起的商業(yè)智能,企業(yè)決策者只能在理論上認(rèn)可。那么,是不是中小企業(yè)就根本不需要BI呢?答案是否定的。國(guó)內(nèi)中小企業(yè)需要商業(yè)智能,隨著我國(guó)經(jīng)濟(jì)的不斷發(fā)展,企業(yè)也在不斷壯大,商業(yè)智能的興起,使企業(yè)看到信息時(shí)代的優(yōu)越性,現(xiàn)有的ERP系統(tǒng)不能滿足決策者的要求,中小企業(yè)迫切希望能應(yīng)用商業(yè)智能給企業(yè)提供幫助。
其原因在于:
1.有關(guān)決策支持的功能分布于ERP的各個(gè)部分中,不利于系統(tǒng)的更新及維護(hù)。企業(yè)的決策需求隨著業(yè)務(wù)需求及市場(chǎng)的變化而不斷發(fā)生變化,在分散的系統(tǒng)中更新、維護(hù)系統(tǒng)遠(yuǎn)遠(yuǎn)不如在集中的系統(tǒng)中方便。
2.較難應(yīng)用OLAF的分析技術(shù)。OLAF技術(shù)為數(shù)據(jù)的快速查詢,分析提供了一種非常好的方法,但分散的系統(tǒng)不利于OLAP技術(shù)的實(shí)現(xiàn)。
3.不利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用。數(shù)據(jù)挖掘技術(shù)是現(xiàn)代人工智能和專(zhuān)家系統(tǒng)必用的技術(shù),是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市常用的技術(shù),目前多數(shù)企業(yè)的ERP系統(tǒng)在數(shù)據(jù)分析方面是以數(shù)據(jù)庫(kù)為基礎(chǔ),數(shù)據(jù)來(lái)源不同,不能形成統(tǒng)一的格式,很少建立起自己的數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市,使數(shù)據(jù)挖掘技術(shù)不能很好利用。
4.有關(guān)決策支持的功能分布于ERP的各個(gè)系統(tǒng)中,不能充分發(fā)揮第三方數(shù)據(jù)展示工具的應(yīng)用。在數(shù)據(jù)倉(cāng)庫(kù)的解決方案中,有很多的專(zhuān)用工具可以選擇,而分散的系統(tǒng)造成了工具使用上的難度。
研究意義
基于目前情況,本課題研究意義是把數(shù)據(jù)集市引入商業(yè)智能系統(tǒng)中代替數(shù)據(jù)倉(cāng)庫(kù),使國(guó)內(nèi)的中小企業(yè)也能擁有自己的商業(yè)智能,利用ERP系統(tǒng)提供的大量及時(shí)的數(shù)據(jù)果斷決策,使用少量的投資,獲取更大的回報(bào),抓住機(jī)遇,贏得優(yōu)勢(shì),使企業(yè)生存發(fā)展處于不敗之地。通過(guò)引入數(shù)據(jù)集市建立的ERP軟件的商業(yè)智能,它的優(yōu)勢(shì)在于:
1.?dāng)?shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉(cāng)庫(kù),是為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價(jià)途徑。它是具有特定應(yīng)用的數(shù)據(jù)倉(cāng)庫(kù),主要針對(duì)某個(gè)具有戰(zhàn)略意義的應(yīng)用或具體部門(mén)級(jí)的應(yīng)用,把企業(yè)長(zhǎng)期積累的數(shù)據(jù)充分利用。
2.?dāng)?shù)據(jù)集市一般包含有關(guān)某一特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù),可以分布在不同的物理平臺(tái)上,隨著企業(yè)的壯大,當(dāng)更多的數(shù)據(jù)集市加人時(shí),應(yīng)將這些數(shù)據(jù)集市加以集成,最終建立起一種結(jié)構(gòu),即構(gòu)成企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)。
相關(guān)理論與技術(shù)
數(shù)據(jù)倉(cāng)庫(kù)
業(yè)界公認(rèn)的數(shù)據(jù)倉(cāng)庫(kù)概念創(chuàng)始人w.H.Iumon在‘建立數(shù)據(jù)倉(cāng)庫(kù)》一書(shū)中對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義是:數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、穩(wěn)定的、不同時(shí)問(wèn)的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)面向主題與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用相對(duì)應(yīng)。主題是一個(gè)在較高層次將數(shù)據(jù)歸類(lèi)的標(biāo)準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域:數(shù)據(jù)倉(cāng)庫(kù)的集成特性是指在數(shù)據(jù)進(jìn)人數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過(guò)數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵步驟,首先要統(tǒng)一原始數(shù)據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用向面向主題的轉(zhuǎn)變:數(shù)據(jù)倉(cāng)庫(kù)的穩(wěn)定性是指數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史數(shù)據(jù)的內(nèi)容,而不是日常事務(wù)處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)加工和集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后是極少或根本不修改的;數(shù)據(jù)倉(cāng)庫(kù)是不同時(shí)間的數(shù)據(jù)集合,它要求數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)保存時(shí)限能滿足進(jìn)行決策分析的需要,而且數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都要標(biāo)明該數(shù)據(jù)的歷史時(shí)期。
數(shù)據(jù)倉(cāng)庫(kù)最根本的特點(diǎn)是物理地存放數(shù)據(jù),而且這些數(shù)據(jù)并不是最新的、專(zhuān)有的,而是來(lái)源于其它數(shù)據(jù)庫(kù)的。數(shù)據(jù)倉(cāng)庫(kù)的建立并不是要取代數(shù)據(jù)庫(kù),它要建立在一個(gè)較全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析,而事務(wù)處理數(shù)據(jù)庫(kù)在企業(yè)的信息環(huán)境中承擔(dān)的是日常操作性的任務(wù)。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一種新的應(yīng)用,而且到目前為止,數(shù)據(jù)倉(cāng)庫(kù)還是用數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)管理其中的數(shù)據(jù),
數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)是存儲(chǔ)數(shù)據(jù)的一種組織形式,它從傳統(tǒng)數(shù)據(jù)庫(kù)中獲得原始數(shù)據(jù),先按輔助決策的主題要求形成當(dāng)前基本數(shù)據(jù)層,再按綜合決策的要求形成綜合數(shù)據(jù)層(又可分為輕度綜合層和高度綜合層)。隨著時(shí)間的推移,由時(shí)間控制機(jī)制將當(dāng)前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層?梢(jiàn)數(shù)據(jù)倉(cāng)庫(kù)中邏輯結(jié)構(gòu)數(shù)據(jù)由3層到4層數(shù)據(jù)組成,它們均由元數(shù)據(jù)
聯(lián)機(jī)分析處理
聯(lián)機(jī)分析處理(On-Line Analytical Process,OLAP)瑚,是使分析人員,管理人員或執(zhí)行人員能夠從各種角度,對(duì)原始數(shù)據(jù)轉(zhuǎn)化出來(lái)的,能夠真正為用戶所證明的,并真實(shí)反映企業(yè)維持性的信息進(jìn)行快速,一致,交互的存取,從而獲得對(duì)數(shù)據(jù)的更深入得了解的一般軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和數(shù)據(jù)分析工具的集合。
聯(lián)機(jī)分析處理是數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策分析的一個(gè)重要概念,是一種共享多維信息的快速分析工具,也稱(chēng)多維分析。它是一種數(shù)據(jù)分析技術(shù),能夠完成基于某種數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)分析功能。OLAP技術(shù)是對(duì)由語(yǔ)意動(dòng)態(tài)對(duì)象建立的,以動(dòng)態(tài)微立方結(jié)構(gòu)形式存儲(chǔ)的表進(jìn)行向下鉆取(Drill Down)。向上鉆取(Drill Up),跨越鉆取,切片和切換等操作實(shí)現(xiàn)數(shù)據(jù)的多維分析。完成這些功能和任務(wù)涉及的技術(shù)包括數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),可視化網(wǎng)絡(luò),數(shù)據(jù)挖掘和領(lǐng)域知識(shí)處理等,系統(tǒng)集成還要處理多種環(huán)境。
在適應(yīng)性方面,有以下幾方面不同:
在維數(shù)交化方面
MOLAP具有較高的預(yù)綜合度,隨維數(shù)的增加,數(shù)據(jù)超立方體的體積增長(zhǎng)十分迅速,管理較難,相比之下,ROLAP的預(yù)綜合度較低,管理靈活,維的增加對(duì)數(shù)據(jù)集市的影響較小,適應(yīng)性較強(qiáng)。
在數(shù)據(jù)變化方面
由于MOLAP的高效率是建立在預(yù)綜合基礎(chǔ)上的,當(dāng)數(shù)據(jù)變化頻繁時(shí),如陰進(jìn)行預(yù)綜合所需的開(kāi)銷(xiāo)將十分客觀,它對(duì)數(shù)據(jù)變化的適應(yīng)性不如ROi.^P。
在數(shù)據(jù)量方面
作為ROLAP基礎(chǔ)的RDBMS,其發(fā)展歷程要遠(yuǎn)遠(yuǎn)超過(guò)MDDB,目前以擁有較強(qiáng)的并行處理能力,能較好的適應(yīng)大數(shù)據(jù)量的運(yùn)算,同時(shí)在對(duì)軟硬件環(huán)境的適應(yīng)能力上,也具有明顯的優(yōu)勢(shì)。
聯(lián)機(jī)分析處理與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系
在數(shù)據(jù)倉(cāng)庫(kù)中,OLAP和數(shù)據(jù)倉(cāng)庫(kù)是密不可分的,但是兩者具有不同的概念。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫(kù),這些歷史數(shù)據(jù)主要用于對(duì)企業(yè)的經(jīng)營(yíng)決策提供分析和支持。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是不能用于連機(jī)事務(wù)處理系統(tǒng)(OLTP)的,而OLAP技術(shù)則利用數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行聯(lián)機(jī)分析,將復(fù)雜的分析查詢結(jié)果快速地返回用戶。OLAP利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術(shù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行組織和匯總,用聯(lián)機(jī)分析和可視化工具對(duì)這些數(shù)據(jù)迅速進(jìn)行評(píng)價(jià)。從圖2-1中可以發(fā)現(xiàn)OLAP用多維結(jié)構(gòu)表示數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),創(chuàng)建組織和匯總數(shù)據(jù)的立方體,這樣才能有效地提高用戶復(fù)雜查詢的要求。因此數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)將直接影響立方體的設(shè)計(jì)和構(gòu)造,也就影響OLAP的:工作效率。從OLAP使用的效率角度考慮,在設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)時(shí)應(yīng)該考慮這樣一些因素。
數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)建立在數(shù)據(jù)倉(cāng)庫(kù)之上,一方面能夠提高數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的決策支持能力,另一方面,由于數(shù)據(jù)倉(cāng)庫(kù)完成了數(shù)據(jù)的清洗、ETL(抽取,轉(zhuǎn)換,裝載),數(shù)據(jù)挖掘面對(duì)的是經(jīng)過(guò)初步處理的數(shù)據(jù),更加有利于數(shù)據(jù)挖掘功能的發(fā)揮。與展示企業(yè)歷史和現(xiàn)有信息的靜態(tài)、動(dòng)態(tài)報(bào)表及查詢等分析方法不同,數(shù)據(jù)挖掘是從數(shù)據(jù)庫(kù)中智能地尋找模型,從海量數(shù)據(jù)中歸納出有用信息?梢哉f(shuō)通過(guò)商業(yè)智能系統(tǒng),企業(yè)獲得洞察力的主要手段就是數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘技術(shù)的分類(lèi)
數(shù)據(jù)挖掘技術(shù)充分利用機(jī)器學(xué)習(xí)、人上智能、模糊邏輯、人上神經(jīng)網(wǎng)絡(luò)等方法。按照研究方法的不同,可分為:
①歸納學(xué)習(xí)方法:如信息論方法(決策樹(shù)方法),集合論方法(粗集方法,概念樹(shù)方法等);
②仿生物技術(shù)方法:如神經(jīng)網(wǎng)絡(luò)方法,遺傳算法;
③公式發(fā)現(xiàn)法:如物理定律發(fā)現(xiàn)系統(tǒng)BACON、經(jīng)驗(yàn)公式發(fā)現(xiàn)系統(tǒng)FI)D;
④統(tǒng)計(jì)分析方法:如相關(guān)分析,回歸分析,因子分析等;
⑤模糊數(shù)學(xué)方法:如模糊評(píng)判,模糊聚類(lèi)等。數(shù)據(jù)挖掘按照功能又可分為描述型數(shù)據(jù)挖掘和預(yù)測(cè)型數(shù)據(jù)挖掘兩種。描述型數(shù)據(jù)挖掘包括數(shù)據(jù)總結(jié)、聚類(lèi)及關(guān)聯(lián)分析等。預(yù)測(cè)型數(shù)據(jù)挖掘包括分類(lèi)、回歸及時(shí)問(wèn)序列分析等。
下面介紹集中比較典型的數(shù)據(jù)挖掘方法:
(1)數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計(jì)分析。數(shù)據(jù)總結(jié)目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計(jì)方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類(lèi)。
(2)聚類(lèi):聚類(lèi)分析是根據(jù)物以類(lèi)聚的原理,將本身沒(méi)有類(lèi)別的樣本聚集成不同的群組,并且對(duì)每一個(gè)這樣的組進(jìn)行描述的過(guò)程。它的目的是使群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。
聚類(lèi)分析常用于客戶關(guān)系管理。利用聚類(lèi)技術(shù),根據(jù)客戶的個(gè)人特征以及消費(fèi)數(shù)據(jù),可以將客戶群體進(jìn)行細(xì)分。例如,可以得到這樣的一個(gè)消費(fèi)群體:女性占91%,全部無(wú)子女、年齡在3l到40歲占70%,高消費(fèi)級(jí)別的占64%,買(mǎi)過(guò)針織品的占91%,買(mǎi)過(guò)廚房用品的占89%,買(mǎi)過(guò)園藝用品的占79%。針對(duì)不同的客戶群,可以實(shí)施不同的營(yíng)銷(xiāo)和服務(wù)方式,從而提高客戶的滿意度。
對(duì)于空間數(shù)據(jù),根據(jù)地理位置以及障礙物的存在情況.可以自動(dòng)進(jìn)行區(qū)域劃分。例如,根據(jù)分布在不同地理位置的ATM機(jī)的情況將居民進(jìn)行區(qū)域劃分,根據(jù)這一信息,可以有效地進(jìn)行ATM機(jī)的設(shè)置規(guī)劃,避免浪費(fèi),同時(shí)也避免失掉每一個(gè)商機(jī)。對(duì)于文本數(shù)據(jù),利用聚類(lèi)技術(shù)可以根據(jù)文檔的內(nèi)容自動(dòng)劃分類(lèi)別,從而便于文本的檢索。
(3)關(guān)聯(lián)分析:關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個(gè)事件發(fā)生的同時(shí),另一個(gè)事件也經(jīng)常發(fā)生。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性:序列模式與此類(lèi)似,尋找的是事件之間時(shí)間上的相關(guān)性,如對(duì)股票漲跌的分析等。關(guān)聯(lián)分析的重點(diǎn)在于快速發(fā)現(xiàn)那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計(jì)意義。
對(duì)于結(jié)構(gòu)化的數(shù)據(jù),以客戶的購(gòu)買(mǎi)習(xí)慣數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)客戶的關(guān)聯(lián)購(gòu)買(mǎi)需要。例如,一個(gè)開(kāi)設(shè)儲(chǔ)蓄賬戶的客戶很可能同時(shí)進(jìn)行債券交易和股票交易,購(gòu)買(mǎi)紙尿褲的男顧客經(jīng)常同時(shí)購(gòu)買(mǎi)啤酒等。利用這種知識(shí)可以采取積極的營(yíng)銷(xiāo)策略,擴(kuò)展客戶購(gòu)買(mǎi)的產(chǎn)品范圍,吸引更多的客戶。通過(guò)調(diào)整商品的布局便于顧客買(mǎi)到經(jīng)常同時(shí)購(gòu)買(mǎi)的商品,或者通過(guò)降低一種商品的價(jià)格來(lái)促進(jìn)另一種商品的銷(xiāo)售等。
對(duì)于非結(jié)構(gòu)化的數(shù)據(jù),以空間數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性。例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場(chǎng)相鄰的對(duì)象等。
(4)分類(lèi):目的是構(gòu)造一個(gè)分類(lèi)函數(shù)或分類(lèi)模型(也常常稱(chēng)作分類(lèi)器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè)。要構(gòu)造分類(lèi)器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱(chēng)屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類(lèi)別標(biāo)記。
元數(shù)據(jù)分類(lèi)
對(duì)元數(shù)據(jù)的合理分類(lèi),是對(duì)其有效管理的前提,目前對(duì)于元數(shù)據(jù)分類(lèi)有很多種,從不同的角度可以將元數(shù)據(jù)分成不同的類(lèi)蹦。按數(shù)據(jù)類(lèi)型分為:基礎(chǔ)數(shù)據(jù)元數(shù)據(jù),數(shù)據(jù)處理元數(shù)據(jù):按抽象層次分為:概念元數(shù)據(jù),邏輯元數(shù)據(jù)和物理元數(shù)據(jù):按用戶使用角度來(lái)分:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù):按元數(shù)據(jù)來(lái)源分為:工具元數(shù)據(jù),資源元數(shù)據(jù),外來(lái)元數(shù)據(jù):按應(yīng)用日的分為:管理維護(hù)元數(shù)據(jù),更新元數(shù)據(jù)和分析元數(shù)據(jù),等等。
本文將元數(shù)據(jù)集市中的元數(shù)據(jù)劃分為:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)(technical metadata)是為企業(yè)技術(shù)用戶和IT員工提供支持的元數(shù)據(jù),而業(yè)務(wù)元數(shù)據(jù)(business metadata)是為企業(yè)業(yè)務(wù)用戶提供支持的元數(shù)據(jù)。當(dāng)開(kāi)發(fā)人員和技術(shù)用戶對(duì)企業(yè)應(yīng)用系統(tǒng)進(jìn)行維護(hù)和擴(kuò)展時(shí),技術(shù)元數(shù)據(jù)為他們提供所需的信息。例如,如果企業(yè)需要重新劃分其他地理銷(xiāo)售區(qū)域,信息主管就可以用技術(shù)元數(shù)據(jù)列出所有含有地理銷(xiāo)售數(shù)據(jù)的程序、表和系統(tǒng)。這些信息使主管能夠方便而迅速地估計(jì)出開(kāi)發(fā)團(tuán)隊(duì)進(jìn)行修改所需要的開(kāi)發(fā)資源和時(shí)問(wèn),還可以幫助確定可能受到影響的所有其它系統(tǒng)。然后開(kāi)發(fā)人員在實(shí)現(xiàn)新的地理銷(xiāo)售區(qū)域時(shí),可以使用其他技術(shù)元數(shù)據(jù)來(lái)幫助定位到具體的代碼。因此,技術(shù)元數(shù)據(jù)對(duì)于維護(hù)和改進(jìn)信息系統(tǒng)來(lái)說(shuō)時(shí)至關(guān)重要的。技術(shù)元數(shù)據(jù)還可以幫助IT員工為信息系統(tǒng)的后續(xù)版本制定計(jì)劃,還可以協(xié)助開(kāi)發(fā)人員實(shí)際地實(shí)現(xiàn)這些變化。如果沒(méi)有技術(shù)元數(shù)據(jù),分析和實(shí)現(xiàn)這些變換就會(huì)變成一項(xiàng)困難而費(fèi)時(shí)的任務(wù)。
盡管創(chuàng)建元數(shù)據(jù)源的副本《抽取文件)會(huì)有一些額外的存儲(chǔ)r丌銷(xiāo),但這些開(kāi)銷(xiāo)會(huì)相當(dāng)小,因?yàn)樵獢?shù)據(jù)源文件中的數(shù)據(jù)量通常不會(huì)很大。另一方面,單獨(dú)建立抽取層有三個(gè)優(yōu)點(diǎn):
1)時(shí)效性
抽取層對(duì)于保持系統(tǒng)中的元數(shù)據(jù)同步非常重要。為了說(shuō)明這一點(diǎn),可以假定有三張?jiān)獢?shù)據(jù)倉(cāng)庫(kù)表需要從相同的元數(shù)據(jù)源得至0數(shù)據(jù)。如何構(gòu)造一個(gè)進(jìn)程直接從同一數(shù)據(jù)源構(gòu)建這三張?jiān)獢?shù)據(jù)表,當(dāng)執(zhí)行該迸程來(lái)構(gòu)建其中一元數(shù)據(jù)表時(shí),此時(shí)的元數(shù)據(jù)源可能已經(jīng)變化了。當(dāng)元數(shù)據(jù)源高度動(dòng)態(tài)變化時(shí),這種情況的可能性會(huì)更大。在不同時(shí)刻讀取元數(shù)據(jù)時(shí),元數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)就會(huì)不同步。通過(guò)在集成處理過(guò)程中一次性創(chuàng)建抽取文件,所有的元數(shù)據(jù)表可由該抽取文件構(gòu)建,這就消除了可能的時(shí)效性問(wèn)題。
2)擴(kuò)展性
因?yàn)橐獎(jiǎng)?chuàng)建類(lèi)似于元數(shù)據(jù)源文件或表的抽取文件,所以只需要從元數(shù)據(jù)源一次性地讀取數(shù)據(jù)。如果沒(méi)有抽取文件或表,元數(shù)據(jù)倉(cāng)庫(kù)中的每張表都必須分別從元數(shù)據(jù)源中讀取,這并不是開(kāi)發(fā)人員所期望的。
3)備份
創(chuàng)建抽取文件提供了該元數(shù)據(jù)源的自然備份。因此,如果出現(xiàn)了不得不停止元數(shù)據(jù)集成處理的狀況,那么可以在不影響元數(shù)據(jù)源的情況下輕易地撤消改動(dòng)。 |
|
|