講座

【數(shù)據(jù)挖掘】大數(shù)據(jù)的啟蒙認(rèn)知課

【數(shù)據(jù)挖掘】大數(shù)據(jù)的啟蒙認(rèn)知課

講師介紹 涂子沛 前阿里巴巴副總裁 涂子沛,本科畢業(yè)于華中科技大學(xué)計算機系。后在武警部隊和政府部門工作十年,期間開發(fā)過全國第一個反偷渡遣返信息管理系統(tǒng),擔(dān)任過邊防巡邏艇的指揮官。后辭去公職赴美讀書,獲卡內(nèi)基梅隆大學(xué)公共管理碩士、信息科學(xué)碩士學(xué)位。在美期間,先后擔(dān)任軟件公司的數(shù)據(jù)倉庫程序員、數(shù)據(jù)部門經(jīng)理、數(shù)據(jù)中心主任、亞太事務(wù)總監(jiān)、首席研究員等職務(wù)。 曾為《南方都市報》、《時代周報》、艾瑞網(wǎng)等多個報刊網(wǎng)站撰寫專欄,著有《大數(shù)據(jù)》、《數(shù)據(jù)之巔》。 課程介紹 大數(shù)據(jù) 互聯(lián)網(wǎng) 數(shù)據(jù)挖掘 數(shù)據(jù)和石油一樣早就存在,但是人類開采使用石油后,才進入百年的石油時代;我們這個時代數(shù)據(jù)的采集、記錄手段變多變廉價了,挖掘技術(shù)更加強大,數(shù)據(jù)的作用日益凸顯,所以將要進入數(shù)據(jù)時代。 講座:阿里巴巴涂子沛:大數(shù)據(jù)的啟蒙認(rèn)知課 1.1大數(shù)據(jù)的定義 1.2數(shù)據(jù)疊加可引發(fā)爆炸效果 1.3大數(shù)據(jù)幫助機器代替小二腐敗 1.4業(yè)務(wù)數(shù)據(jù)化和數(shù)據(jù)業(yè)務(wù) (1)數(shù)據(jù)調(diào)研 業(yè)務(wù)調(diào)研 整個阿里集團涉及的業(yè)務(wù)涵蓋電商、數(shù)字娛樂、導(dǎo)航(高德)、 移動互聯(lián)網(wǎng)服務(wù)等領(lǐng)域。各個領(lǐng)域又涵蓋多個業(yè)務(wù)線,如電商領(lǐng)域就涵蓋了 C 類(淘寶、天貓、天貓國際)與 B 類(阿里巴巴中文站、國際站 、速賣通)業(yè)務(wù)。數(shù)據(jù)倉庫是要涵蓋所有業(yè)務(wù)領(lǐng)域,還是各個業(yè)務(wù)領(lǐng)域獨自建設(shè),業(yè)務(wù)領(lǐng)域內(nèi)的業(yè)務(wù)線也同樣面臨著這個問題。所以要構(gòu)建大數(shù)據(jù)數(shù)據(jù)倉庫,就需要了解各個業(yè)務(wù)領(lǐng)域、業(yè)務(wù)線的業(yè)務(wù)有什么共同點和不同點 ,以及各個業(yè)務(wù)線可以細(xì)分為哪幾個業(yè)務(wù)模塊,每個業(yè)務(wù)模塊具體的業(yè)務(wù)流程又是怎樣的。業(yè)務(wù)調(diào)研是否充分,將會直接決定數(shù)據(jù)倉庫建設(shè)是否成功 。 需求調(diào)研 可以想象一下,在沒有考慮分析師、業(yè)務(wù)運營人員的數(shù)據(jù)需求的情況下,根據(jù)業(yè)務(wù)調(diào)研建設(shè)的數(shù)據(jù)倉庫無疑等于閉 門造車。了解了業(yè)務(wù)系統(tǒng)的業(yè)務(wù)后并不代表就可以進行實施了,此刻要做的就是收集數(shù)據(jù)使用者的需求,可以去找分析師、業(yè)務(wù)運營人員了解他們有什么數(shù)據(jù)訴求,此時更多的就是報表需求。需求調(diào)研的途徑有兩種: 一是根據(jù)與分析師、業(yè)務(wù)運營人員的溝通(郵件、 IM )獲知需求: 二是對報表系統(tǒng)中現(xiàn)有的報表進行研究分析 。通過需求調(diào)研分析后,就清楚數(shù)據(jù)要做成什么樣的。很多時候,都是由具體的數(shù)據(jù)需求驅(qū)動數(shù)據(jù)倉庫團隊去了解業(yè)務(wù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù),這兩者并沒有嚴(yán)格的先后順序。舉例 : 分析師需要了解大淘寶(淘寶、天貓、天貓國際) 一級類目的成交金額。當(dāng)獲知這個需求后,我們要分析根據(jù)什么(維度)匯總,以及匯總什么(度量),這里類目是維度,金額是度量:明細(xì)數(shù)據(jù)和匯總數(shù)據(jù)應(yīng)該怎樣設(shè)計?這是一個公用的報表嗎?是需要沉淀到匯總表里面,還是在報表工具中進行匯總? (2)架構(gòu)設(shè)計 數(shù)據(jù)域劃分 數(shù)據(jù)域是指面向業(yè)務(wù)分析,將業(yè)務(wù)過程或者維度進行抽象的集合。業(yè)務(wù)過程可以概括為一個個不可拆分的行為事件,如下單、支付、退款。為保障整個體系 的生命力,數(shù)據(jù)域需要抽象提煉,并且長期維護和更新,但不輕易變動。在劃分?jǐn)?shù)據(jù)域時,既能涵蓋當(dāng)前所有的業(yè)務(wù)需求,又能在新業(yè)務(wù)進入時無影響地被包含進已有的數(shù)據(jù)域中或者擴展新的數(shù)據(jù)域。 構(gòu)建總線矩陣 在進行充分的業(yè)務(wù)調(diào)研和需求調(diào)研后,就要構(gòu)建總線矩陣了。需要做兩件事情 :明確每個數(shù)據(jù)域下有哪些業(yè)務(wù)過程;業(yè)務(wù)過程與哪些維度相關(guān),并定義每個數(shù)據(jù)域下的業(yè)務(wù)過程和維度。 (3)規(guī)范定義 規(guī)范定義主要定義指標(biāo)體系,包括原子指標(biāo)、修飾詞、時間周期和派生指標(biāo)。 (4)模型設(shè)計 模型設(shè)計主要包括維度及屬性的規(guī)范定義,維表、明細(xì)事實表和匯總事實表的模型設(shè)計。略。 (5)總結(jié) OneData 的實施過程是一個高度迭代和動態(tài)的過程, 一般采用螺旋式實施方法。在總體架構(gòu)設(shè)計完成之后,開始根據(jù)數(shù)據(jù)域進行迭代式模型設(shè)計和評審。在架構(gòu)設(shè)計、規(guī)范定義和模型設(shè)計等模型實施過程中,都會引人評審機制,以確保模型實施過程的正確性。


158資源整合網(wǎng):提供各類學(xué)習(xí)資源,名師講座視頻,培訓(xùn)課程視頻,音頻,文檔等···各類教程下載觀看。

  • 大。204 MB
  • 百度網(wǎng)盤觀看下載
  • 點數(shù):15 點數(shù)
  • 咨詢QQ:1686059668
好消息:為了回饋廣大用戶能學(xué)習(xí)更多知識。
現(xiàn)只需98開通終身VIP會員
就可以終身免費下載所有資源!
機會難得 錯過就沒有了
【 點我咨詢,開通免費下載!】
提示:在電腦上打開本站 tpyzk.cn 下載更方便。