當大數(shù)據(jù)遇上在線旅游網(wǎng)站會撞出什么樣的火花?
譯文【51CTO快譯】一家德國知名旅游公司請總部設在科隆的咨詢公司empulse幫助為其設計在線旅游網(wǎng)站時,該公司應承了下來。畢竟,這家公司的顧問為郵政部門提供過電子化跟蹤方面的咨詢服務,為電力公司提供過智能電表方面的咨詢服務。如此看來,為旅游公司提供咨詢服務應該也不難吧?
結果發(fā)現(xiàn),難就難在響應時間--這家旅行社希望查詢結果在一秒或更短時間內返回來,因為只要時間一長,客戶就會掉頭而去,尋找另一家網(wǎng)站。也就是說,每延遲一秒,這家旅行社的損失就越大。
empulse公司總經(jīng)理Michael Hummel表示,該公司的開發(fā)人員曾經(jīng)試過幾款大數(shù)據(jù)解決方案,包括Hadoop、列式數(shù)據(jù)庫技術、甲骨文和微軟的FAST(文件和設置轉移),但是沒有一個接近這家旅行社需要的響應時間。
"我們所能構建的速度最快的系統(tǒng)搜遍2億條記錄也要用時6.5秒。這個速度實在太慢了,而且還要耗費大量的計算機資源。如果你每秒想要運行的不是一個查詢,而是一千個查詢,那就需要非常高的吞吐量以及數(shù)據(jù)處理方面更高的效率。我們試過的所有系統(tǒng)都需要數(shù)量眾多的服務器,那樣成本太高了,承擔不了。"
于是,他們決定自己構建一套系統(tǒng),先是從核心部分入手:數(shù)據(jù)結構、算法、索引以及新數(shù)據(jù)的持續(xù)性裝入,而且為這款產(chǎn)品開辦了一家新公司:ParStream。
現(xiàn)在這家在線旅行社每秒能夠處理1000個查詢,能夠以20個不同的參數(shù)查詢180億個旅游優(yōu)惠信息,并且在不到一秒的時間內返回響應結果。
Hummel說:"由于不同的航班、酒店、行程時間和餐飲計劃,我們在德國市場有數(shù)量巨大的旅游優(yōu)惠信息。每個優(yōu)惠信息有不同的價格,你得把它們全部都搜遍,才能找到***惠的方案。"
"我們開發(fā)完畢后,認識到自己為大數(shù)據(jù)領域提供了一款實時數(shù)據(jù)分析產(chǎn)品,這正是ParStream的由來。這家公司認為,能夠在非常短的時間內獲得動態(tài)更新的信息的查詢結果,這有著非常廣泛的應用價值,絕不僅僅局限于為沒多少耐心的零售客戶返回結果,因為這讓業(yè)務分析員、營銷和廣告人員等用戶可以查詢更多的問題,然后制定和完善促銷模式。"
"誰也不想長時間地等待結果返回。大多數(shù)人以認為,大數(shù)據(jù)就是數(shù)十億條記錄,不過是靜態(tài)的。這可大錯特錯。大數(shù)據(jù)是動態(tài)的。新數(shù)據(jù)每時每刻都在生成;你拿來這些新數(shù)據(jù)后,不得不與歷史數(shù)據(jù)一起處理。"
ParStream的技術結合了處理器和英偉達的Fermi圖形處理器(GPU),同樣非常高效。德國***的搜索引擎優(yōu)化軟件供應商SearchMetrics使用高級技術,為想在谷歌、必應及其他搜索引擎提供的結果中提高搜索排名的公司分析搜索引擎結果。其一整套搜索引擎工具使用7500萬個關鍵字和1億個域,還使用 ParStream實現(xiàn)高效處理。Hummel表示,這家公司之前一直在使用100余臺服務器;借助ParStream的技術,現(xiàn)在它只用四臺服務器就能完成同樣的任務。
大型電子商務網(wǎng)站上的龐大流量為調整網(wǎng)頁設計和近乎實時提供的優(yōu)惠活動提供了機會。公司可以看到來自贊助商鏈接、網(wǎng)絡廣告和電子郵件廣告活動的成效。Hummel表示,德國etracker公司做的就是這項工作。
"etracker使用ParStream來控制廣告活動--訪客點擊他們監(jiān)控的任何一個網(wǎng)站到點擊出現(xiàn)在所有報表中,這之間的***延遲時間是30秒;也就是說,如果你分析自己的網(wǎng)站,就能看到半分鐘之前的流量。使用etracker廣告活動控制技術的客戶可以實時監(jiān)控廣告活動的效果,如果廣告活動需要改進,可以立即采取相應對策。"
這讓電子商務公司得以在開展廣告活動的過程中監(jiān)控和修改廣告活動,調整活動以獲得***效果,密切關注效果,并且作進一步的改變。
不是只有在線監(jiān)控得益于非常快的分析速度--業(yè)務分析員也受益匪淺,因為他們可以運行更多的查詢、測試更多的假設情形,并且不斷改進分析機制。
"快速的大數(shù)據(jù)分析解決方案能幫助整個公司更快地了解情況、更快地變化及應對新趨勢,這可以帶來更有利的競爭地位。"
ParStream在數(shù)據(jù)庫設計方面研發(fā)出了幾項創(chuàng)新技術,以獲得這樣的性能。一個關鍵步驟就是,它簡化了數(shù)據(jù)裝入,并實現(xiàn)了并行處理。
Hummel說:"大數(shù)據(jù)的移動是個大問題。你現(xiàn)在的數(shù)據(jù)量比10年前多了1000倍,而且數(shù)據(jù)量的增幅超過計算機處理速度的增幅。你一定要進行并行處理,把工作分攤到多臺機器上。我們在查詢方面就這么做,我們在導入數(shù)據(jù)時也這么做。"實時導入數(shù)據(jù)還減少了硬件開銷。由于數(shù)據(jù)一直在導入,所以不需要額外硬件,就能滿足夜間批處理的峰值需求。
快速響應的其他關鍵是可以在數(shù)據(jù)導入時或可以構建的一個非常靈活的索引。ParStream開發(fā)了經(jīng)過壓縮的索引,能夠在壓縮狀態(tài)下運行。Hummel表示,此外,ParStream的算法比Hadoop使用的算法要高效得多。
HPC Wire網(wǎng)站的編輯Michael Feldman在今年6月于德國漢堡舉行的國際超級計算大會前夕采訪了ParStream,得出了這個結論:這家公司的目的是"以高性能計算(HPC)的性能來分析大數(shù)據(jù)。"
Hummel舉了個零售行業(yè)的假設例子:
美國的一家衣服銷售商可以細分從北卡羅來納州訪問其網(wǎng)頁,在過去兩周花了10美元買衣服的客戶。它能查看誰在上午7點到中午這個時間段訪問網(wǎng)站,分析他們的點擊模式、看看他們在購買什么樣的衣服,然后著重關注瀏覽休閑服的那些人,***開展針對他們的廣告活動,就促銷那些衣服,然后跟蹤效果。
"如果你能夠分析大數(shù)據(jù)以及網(wǎng)站上的數(shù)十億次點擊,那么這種針對性極強的廣告活動正是你所需要的。"






















