尋找Google的創新

Google Cloud上的大資料工具探討 - Lambda Architecture原來這麼簡單

大資料的環境需求步上雲端的時代，運算與儲存空間隨著莫爾定律的實踐慢慢變得越來越便宜，而大資料的議題也越來越被重視，在Google這麼一個以大資料起家的企業，從一開始的分散式儲存體GFS(Google File System)到大資料分析工具MapReduce的概念，讓我們知道在大資料處理上，儲存(Input)與讀取(Output)兩個不可或缺的環節。分散式儲存在傳統的架構上，存在一顆硬碟或資料庫的資料，要讓多台主機同時存取並分析資料會有許多衝突問題需要解決。而且，在雲端的概念中，要訴求一台超級電腦似乎永遠是成本遠高於利潤的作法，在雲端分毫必爭的資源環境，Google是以小而多的方式來取勝。而GFS正式以此方式讓儲存可以無限延伸，不只空間的部分得以延伸，連存取該空間所需要用到的運算能力，也可以在這個架構上得到滿足。有效率的查詢方式 MapReduce是一種沒有index的查詢方式，從頭開始看資料，再透過所給訂的條件作過濾... 原本看似毫無效能的運作，在GFS之後漸漸變成可能... 由於GFS提供了平行的存取架構，讓原本查詢需要在一台機器上運作的傳統被打破。而基於GFS的可過展儲存方式，同一份資料可以由眾多的主機同時讀取，因此Google實作了MapReduce的架構，可以同時間讓多個運算資源存取同一份資料，因此只要使用正比於資料的大小的機器來運算，就可以把處理的時間壓縮到可以忍受的範圍。更多的資源調用方法當最困難的問題都已經解決，接下來的問題就相對單純了許多，而且，在現階段不論是網路環境、運算資源、儲存資源等等都持續不斷提升之下，資源的價格也在不斷的降低，這意味著適合大資料的環境已經具備... 接下來，開發者們可以集中在思考資料有意義的地方。但在資源無虞的情況下，使用資源的方式則需要再好好思考，如何自動化、如何因應量大的儲存、處理... 部署管理：如何在最短的時間內部署您的服務，讓他可以承受最大的request、儲存最多的資料，並且具備HA的架構... 自動化拓展(Auto Scale)：延伸部署管理的另一個應用層面，如何在不影響服務的層面下，自動化擴展您的伺服器群，並且可以在離峰時間將資源釋放。全球網路：雲端時代在步入全球存取的狀況下，我們在思考如何讓全世界的使用者可以存取無礙，已經成為雲端的

閱讀完整內容

尋找Google的創新

搜尋此網誌

發表文章

Google Cloud上的大資料工具探討 - Lambda Architecture原來這麼簡單