傳統的數據存儲和管理以結構化數據為主,因此關系數據庫系統(RDBMS)可以一統天下滿足各類應用需求。但是試驗和考核實際所涉及的數據可能包含文本、日志、圖片、視頻、矢量地圖等來自不同數據采集源的、不同種類的數據。這些數據的格式通常都不是固定的,如果采用結構化的存儲模式將很難應對實際的需求。因此需要按照數據類型的不同,對數據的存儲和管理采用不同的技術路線。
采用新型數據庫集群,通過列存儲和行列混合存儲以及粗粒度索引等技術,結合MPP(MassiveParallelProcessing)架構高效的分布式計算模式,實現對大數據的存儲和管理,具有高性能和高擴展性特點;針對本項目中半結構化和非結構化數據,采用基于Hadoop開源體系的底層,通過對Hadoop生態體系的技術擴展和封裝,實現對半結構化和非結構化數據的存儲和管理。一方面用MPP來管理計算高質量的結構化數據,提供強大的SQL和OLTP型服務;另一方面,用Hadoop實現對半結構化和非結構化數據的處理,以支持內容檢索、深度挖掘與綜合分析等新型應用。
大數據應用系統集成
大數據查詢統計分析示意圖