基於AWS雲平台的大數據統計分析系統
基於AWS雲平臺的大數據統計分析系統
用戶:行吟資訊科技(上海)有限公司
小紅書是新一代社區電商,它將海外購物分享社區與跨境電商相結合,精準捕捉85後和90後的消費升級需求,迅速發展成為極具影響力的全球購物分享社區。目前小紅書的註冊用戶數量已超過1億。在電商平臺成立的頭半年裡,其銷售額就達到7億人民幣,被國務院總理李克強在參觀時稱讚為“中國發展最快的創業公司之一”。小紅書App也在2015年11月“黑色星期五”期間連續兩天佔據App Store總榜第一名。
小紅書模式成功的關鍵離不開小紅書的技術團隊能夠通過後台數據,瞭解用戶喜歡什麼、在分享什麼、點贊最多的是哪些?並通過對這些數據的分析,推測出哪些商品可能是爆款。因此小紅書需要處理來自不同的數據源的數據:來自電商的結構化數據;來自社區的圖片、評論、表情等機器難以識別的非結構化數據;以及海量的日誌數據。所以數據團隊需要快速搭建起數據處理系統,對這些數據進行高效的清洗、歸整,使之成為適合於數據分析師使用的數據。而AWS雲平臺提供的Amazon EMR、Amazon RDS、Amazon RedShift等服務構成了完善的數據處理基礎架構。尤其Amazon Redshift是一種快速、完全託管的PB級數據倉庫解決方案,它使得用現有商業智慧工具對數據進行高效分析變得十分簡單而且節省成本。小紅書的數據團隊充分發揮了Redshift這一特性。最初,小紅書利用Amazon S3和Amazon RedShift來同步業務數據庫的交易數據,隨後開始使用Amazon S3、Amazon EMR和Amazon RedShift進行用戶日誌的解析和同步;同時Amazon RedShift則作為數據倉庫,承擔大量後續的BI分析工作。
使用AWS的數據處理服務帶來的效率提升是明顯的。如果沒有AWS,要搭建一個可用的日誌分析系統,需要好幾位元工程師,花幾個月的時間才能完成,而有了AWS的數據服務,小紅書的2位元工程師在兩週內就搭建起整個系統並且正式用在生產環境中。此外,解決新數據需求的速度也明顯提升。相比每次從業務後端數據庫寫代碼拉取數據,從數據倉庫進行SQL查詢則顯著提升了效率,把過去幾個小時的工作量縮減為幾分鐘。最重要的是,AWS的雲服務使小紅書建立一個“小而美的數據團隊”成為現實,從而可以快速嘗試新的模型和新的數據處理方式,找到最適合的數據解決方案。而且使用AWS令小紅書團隊的工作方式發生了很大的改變,成為一個數據驅動的團隊,無論是電商、社區,甚至市場團隊,如今都是在數據的指導下開展業務,公司的決策,業績考核也都依賴於數據。