大數據應用 Archives - 巨匠電腦評價誌-DBbox

好評價！巨匠電腦分享大數據專案失敗的八個理由

2015-08-14 / 巨匠電腦 / 巨匠電腦, 電腦新鮮事

錚／

巨匠電腦分享大數據專案失敗的八個理由
無論新創公司或傳統企業，愈來愈多組織將未來押注在巨量資料。根據 IDG Enterprise，過去一年以來，曾執行數據專案的公司數量增加了 125%1，CapGemini 與 EMC 共同執行的調查則顯示2，70% IT 決策者認為，能否充分運用大數據關鍵價值，將左右公司的前景；65% 的受訪者更直言，如果沒能擁抱大數據，公司很可能日落西山，失去競爭力。從林林總總的數字中，可以觀察到企業十分重視巨量資料，但是實際上，巨量資料專案卻很容易失敗，而且往往重蹈覆轍。Gartner 研究總監 Svetlana Sicular 列舉了八個最常出現的錯誤3，小心別掉進陷阱中。

管理層的惰性：根據 Fortune Knowledge Group 的調查，62% 的企業領導人依然仰賴直覺；下決策時，61% 以真實世界的情境為優先考量，而非數據。Svetlana Sicular 敘述，Gartner 曾經服務一家家喻戶曉的旅遊公司，他們採取了大數據技術，執行點擊流（clickstream）分析，以了解消費者在網站上瀏覽與購買的流程，結果竟然發現他們的消費模式與公司高層的銷售模式居然完全相反。在結案報告中這家旅行公司寫道：「這個技術有效的解決了我們的疑惑，其結果劇烈了改變原有的業務，為了充分實踐數據呈現的洞見，我們更替了全新的管理團隊。」

他質問，有多少公司的領導層需要砍掉重練呢？

選擇錯誤的使用案例：有些公司的實力跟不上野心，選擇遠超過自身負荷能力的大數據專案，又或者企圖使用舊方法執行新專案，兩者都無可避免將走上失敗之途。

問錯問題：數據科學是由產業知識（比如零售、金融）、數學與統計、程式結合的複雜混合體。很多公司增聘了資料科學家，他們可能是程式高手也懂統計，卻缺乏了最重要的成分：產業知識。Svetlana Sicular 建議，應從產業中找到對的人才，因為「學習 Hadoop 比了解商業內涵簡單」。

缺乏必要的技能：這點與「問錯問題」類似。曾有一家金融機構想要調查人們的生活習慣如何影響他們購買退休方案的偏好，不過「習慣」太多種，執行這個專案的負責人把問題限縮到抽菸／不抽菸，但是失敗了。後來 Svetlana Sicular 與從事醫療產業的人士聊到這個專案時發現，他們並不問這種非黑即白的問題（抽不抽菸），而是「你抽菸幾年了？」、「你戒菸幾次了？」、「你最後一次吸菸是什麼時候？」總之，進行大數據分析時，應該找到熟稔特定專業領域的人士——醫療、語言學、行為心理學家、社會人類學家等等，IT 部門以外的專業人士。

大數據之外，無法預料的問題：資料分析只是巨量資料專案的一部份，訪問與處理數據的能力同樣重要，不過諸如網絡壅塞、人員訓練不足等等都有可能阻礙專案執行。

企業策略不一：如果巨量資料專案被隔絕於公司核心業務之外，那大概註定失敗，如果公司把雲端或其他策略置於巨量資料之前，那失敗的機率當然又更高了。

大數據孤島（silos）：很多人喜愛談論「數據湖（data lake）」、「數據中心（data hubs）」，但是現實狀況是，很多公司嘗試建立數據水坑（data puddle），行銷數據水坑、製造數據水坑等等等等，但是彼此楚河漢界，不相往來。對組織而言，巨量資料只在水坑之間的高牆倒下、彼此匯流才會更凸顯價值。只是，辦公室政治或政策，往往抹煞了資料集體發揮的可能性。

問題迴避：這在藥物產業中最為明顯，藥廠無法進行情緒分析，因為病人服用某種實驗藥物後，只要一出現頭痛等副作用，就得回報 FDA。由於過程太麻煩，甚至可能碰上法律責任，因此藥廠傾向迴避此類措施，結果可能錯失珍貴的發現。

美國媒體 InformationWeek 編輯 Matt Asay 認為4，企業組織執行巨量資料專案時，也應注入「迭代」（iterate）的精神，別好高騖遠，從能夠快速發現問題的小規模開始進行實驗，並且邀請內部員工共同參與。利用大數據解決問題的關鍵，在於靈活且開放的數據基礎建設，讓員工不斷調整實際方案，直至他們的努力結出豐盈的果實，唯有如此，公司才能降低失敗的恐懼，真正嚐到巨量資料的甜美滋味。

巨匠電腦設計了程式/資料庫課程，教你大數據分析與應用、程式設計等等，快來巨匠電腦輕鬆學！

文章與圖片出處: http://www.inside.com.tw/2015/06/10/big-botched-data

朋友問我巨匠電腦好嗎～

巨匠電腦評價我覺得不錯啊

巨匠電腦給了我一個機會去找到另一個自己（轉圈^__^）

選擇自己喜歡的學習方式就是最好的-巨匠電腦心得分享

高評價！想從大數據淘金？巨匠電腦分享大數據系統的關鍵四層面

2015-08-14 / 巨匠電腦 / 巨匠電腦, 電腦新鮮事

錚／

想從大數據淘金？巨匠電腦分享大數據系統的關鍵四層面

對於 Big Data 的這個 Big Idea，還是許多人抱有疑問，究竟大數據是什麼？大數據的哪些部分是嶄新的概念而哪些是舊科技新包裝？

整個大數據的概念就是發展一個能讓資料從最初生成的原始數據、到最後成為有價值的分析結果或趨勢預測的系統。而這個「大數據系統」基本上可以被分成四個層面來探討：

第 1 層：資料來源 Data sources layer

這個部分是關於資料如何到達你的手中，可能是從你的銷售紀錄、客戶資料庫、產品回饋、社群網路管道、甚至 Email 郵件，也就是和你的「目標」相關、來自四面八方收集來的各式各樣的數據。

這個層面最重要的就是評估你現有的各方資料，對於你想達成的目標、想知道的寶貴資訊，你手上的資料是否足夠、是否全面？

如果資料有缺口，就必須去建立新的資料來源來補足；如果你很滿意現有的資料來源，那就進入第二層吧！

第 2 層：資料儲存 Data storage layer

建立了多元、全面的資料來源後，可以想像資料會排山倒海般地向你湧來，而能否成功並完整的儲存龐大的資料量將成為大數據存活的關鍵。

現今許多技術跟工具被發展來應付這個需求，像是之前介紹過的 HDFS —— Hadoop 分散式檔案系統（請參考《認識大數據的黃色小象幫手 –– Hadoop》），以及相應的資料庫（Database）。例如專門用在 Hadoop 上的資料庫系統 HBase，其他最廣為人知的資料庫像是 Amazon 的 DynamoDB、MangoDB、Cassandra（請參考《學大數據不卡關：精選 Big Data 相關用語》）等 NoSQL 資料庫軟體。

第 3 層：資料處理及分析 Data processing/analysis layer

原始資料儲存之後，下一步則是得想辦法從龐大看似無章法的資料中挖出有價值的資訊。

資料處理及分析最常用的方法是 MapReduce 平行運算架構（同樣請見《認識大數據的黃色小象幫手 –– Hadoop》）來分散處理大量結構化和非結構化資料，主要是選擇資料中想分析的元素，並且將其整合成既定的格式。

如果你所在的公司或機構擁有自己的資料分析團隊，資料分析處理這一層會利用 Apache PIG 以及 HIVE 等工具來進行轉換以及簡化複雜的查詢操作。

第 4 層：資料輸出 Data output layer

大數據系統的最後這一層就是我們將拿來利用的精華部分了，根據目的，資料分析的結果可以被輸出成各種形式以達到最完美的表現，可以是表格、圓餅圖、趨勢圖、關鍵資訊等等。

最終，大數據系統的主要任務就是運用你現有的資料輸出結果，在現階段至少在一項 KPI（關鍵績效指標，Key Performance Indicator）中得到改善。如果你建立了這四層次的系統，並且進一步提升績效，那恭喜你，你已經在利用大數據邁向目標了！

巨匠電腦設計了程式/資料庫課程，教你程式設計、大數據分析與應用等等，快來巨匠電腦輕鬆學！

文章與圖片出處: http://goo.gl/BPwtov

高評價！學大數據不卡關巨匠電腦分享精選Big Data相關用語

2015-08-14 / 巨匠電腦 / 巨匠電腦, 電腦新鮮事

錚／

學大數據不卡關巨匠電腦分享精選Big Data相關用語
大數據 (Big Data) 與資料科學 (Data Science) 已成為大眾耳熟能詳的詞彙，各行各業正在積極運用且開發大數據的價值，這些巨量資料也帶來了巨大的商機。

這時身處於「大數據時代」的我們，自然得對大數據有所認識，在這裏為大家列出了一些經常跟大數據一起出現的陌生用語，認識了這些大數據相關字彙，下次看大數據的相關文章就不會一直「卡」了。

Algorithm 演算法

出自於數學用語，在這裡指的是在有限步驟內，分析數據的具體方法，而且通常由軟體來執行。

AIDC 自動識別技術

AIDC（Automatic Identification and Data Capture）是將訊息數據自動識讀、自動輸入電腦的重要方法和手段，它是以電腦技術和通信技術為基礎的綜合性科學技術。常見的 AIDC 例如條碼（Bar codes）、磁條（magnetic strips）、生物識別（Biometrics）、RFID 等技術。

AWS 亞馬遜網路服務系統

2006 年 Amazon 開始以 Web 服務的形式向企業提供各種雲端運算服務，包括運算、儲存、資料庫、分析、應用程式和部署服務。現在許多科學家、開發人員以及各企業的技術人員都在利用 AWS （Amazon Web Services）進行大數據分析。

Avro 序列化系統

Avro 是 Hadoop 底下的子專案，是一個資料序列化系統（Data serialization system），被設計用來支援大量資料交換。

Behavioral analytics 行為分析

行為分析是指用科學方法分析環境刺激與行為之間的因果關係，藉著系統性的觀察來了解行為的變化原則，進而有系統的操作刺激，以達到行為的學習、塑造或改變。簡單來說，就是用一個有系統的方法去觀察、測量、收集客觀數據來分析目標的表現行為。

Big Data 大數據

大數據（or 巨量資料），顧名思義是指大量的資訊，當資料量龐大到資料庫系統無法在合理時間內進行儲存、運算、處理，分析成能解讀的資訊時，就稱為大數據。有興趣深入了解請參考《巨量資料的時代，用「大、快、雜、疑」四字箴言帶你認識大數據》以及《7 個你不可不知的大數據定義》。

BI 商業智慧

BI （Business Intelligence）指用現代資料倉儲技術、線上分析處理技術、數據挖掘進行數據分析，再以圖形化的界面或報表呈現以實現商業價值。

Cassandra 資料庫系統

是 Apache 軟體基金會底下的開源分布式 NoSQL 資料庫系統，適合用來管理巨量的結構化資料，由於其良好的可擴展性和性能，被 Digg、Twitter、Hulu、Netflix 等知名網站所採用。

CDR 詳細通聯記錄

CDRs （Call Detail Record）是電信網路的使用紀錄，例如通話時間、通話長度等資訊。CDR 是電信業者與企業分析網路營運和客戶行為的重要資源。

Clickstream Analytics 點擊流分析

點擊流（Clickstream）就是使用者在網頁間來來去去的點選記錄，也可以分成 Upstream –– 進入這個網站的「來源」，以及 Downstream —— 拜訪完這個網站之後的「去向」。對於網路行銷跟搜尋引擎來說，點擊流分析是十分重要的參考。

Cloud Computing 雲端運算

雲端運算（Cloud Computing）是一種將資料、工具及程式放到網際網路上處理的資源利用方式，是一種分散式電腦運算（Distrubted computing）的概念，也就是讓網路上不同的電腦同時幫你做一件事，可以大大的增加處理速度。

也因為所有資訊都被放置到網路的虛擬空間裡，工程師在繪製示意圖時常以一朵雲來代表這個虛擬空間，因而有了「雲端（Cloud）」一名。

Data Mining 資料探勘

顧名思義，就好比在地球上從一堆粗糙的石頭中進行地物探勘、尋找有價值的礦脈，資料探勘就是從巨量資料中提取出未知的、有價值的潛在資訊。

Data Modelling 資料建模

資料模式（Data Model）在資訊系統中指的是資料如何被表達、儲存及取用的方式，包括資料的格式、定義和屬性，資料之間的關係，以及資料的限制，而資料模式的設計過程就稱為「資料建模」。

Data Visualization 資料視覺化

是關於數據之視覺表現形式的研究，資料視覺化的技術可以幫助不同背景的工程人員溝通、理解，以達良好的設計與分析結果。

Data Experts 數據專家

數據專家就是能利用資料作出研究評估的專業人士，像是資料分析師、資料科學家、資料架構師等都可以被歸類為數據專家，其工作內容細分請參考《資料分析師？科學家？架構師？大數據人才的工作內容及年薪比較》。

Exploratory Data Analysis 探索式分析

探索式資料分析是指在沒有標準流程跟方法的情況下，在現有的數據中找尋資料的結構和特點、探索潛藏於資料中的訊息，這種資料分析方法強調的是探索式的分析而非嚴謹的模式確認。

Hadoop 技術

Hadoop 是一個能夠儲存並管理大量資料的雲端平台，為 Apache 軟體基金會底下的一個開放原始碼、社群基礎、而且完全免費的軟體，Hadoop 的兩大核心功能 —— 儲存（Store）及處理（Process）資料所用到的分散式檔案系統 HDFS 跟 MapReduce 平行運算架構。Hadoop 被廣泛應用於大數據儲存和大數據分析，成為大數據的主流技術。有興趣深入了解請參考《認識大數據的黃色小象幫手 –– Hadoop》。

Internet of Things 物聯網

物聯網（Iots）是一個全球化的網路基礎建設，透過資料擷取以及通訊能力以連結實體與虛擬物件，透過網際網路的發展，物連網可透過特定的機制，將所有裝置連結在一起，以供控制、偵測、識別，並交換所有的資訊。

NoSQL 資料庫系統

NoSQL 最早是指「No SQL」，號稱不使用 SQL 作為查詢語言的資料庫系統。但近來則普遍將 NoSQL 視為「Not Only SQL」，也就是「不只是 SQL」的意思，希望結合 SQL 優點並混用關聯式資料庫和 NoSQL 資料庫來達成最佳的儲存效果。

在巨量資料所帶動的潮流下，各種不同形態的NoSQL資料庫如雨後春筍般竄起，其中 MongoDB 是眾多 NoSQL 資料庫軟體中較為人熟知的一種。

Predictive Analytics 預測分析

是指透過預測模型、機器學習、資料挖掘等技術來分析現有和歷史的事實數據對未來作出預測的數據分析方法。

R 語言

R 是一個開放原始碼統計軟體，提供統計計算和繪圖功能，類似 Matlab 跟 SAS，而 R 不但免費而且簡單易上手，近年來成為資料科學界裡的重要工具。

SaaS 軟體即服務

SaaS （Software-As-A-Service）是隨著網際網路技術和應用軟體的成熟而興起的一種軟體應用模式。SaaS 提供商將軟體統一部署在自己的伺服器上，藉由網路提供軟體給客戶，所以客戶不用購買軟體，而是根據需求向提供商訂購所需的服務，且客戶無需對軟體進行維護，服務提供商會全權管理和維護軟體；軟體廠商在向客戶提供網際網路應用的同時，也提供軟體的離線操作和本地數據存儲，讓客戶隨時隨地都可以使用其定購的軟體和服務。

對於許多小型企業來說，SaaS 是採用先進技術的最好途徑，它消除了企業購買、構建和維護基礎設施和應用程式的需要。