檔案大數據來襲

2014-04-29 16:18

據統(tǒng)計，我國“十一五”末館藏檔案已達到39264萬卷（件）。隨著社會活動快速加強、網絡信息化日益普遍，移動互聯(lián)、社交網絡、電子商務大大拓展了網絡的疆界和應用領域，悄無聲息，大數據時代已經來臨。我國的檔案數據廣泛存在于政府、企業(yè)的各行各業(yè)。我們正走向我國的檔案大數據時代。

一、什么是檔案大數據

檔案大數據是在檔案方面涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具，在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的信息。

我們通常理解為大量非結構化數據（包含所有格式的辦公文檔、文本、圖片、圖像和音頻/視頻信息等等）和半結構化數據(結構方面缺少統(tǒng)一規(guī)律的數據)，這些數據在獲取并用于分析時會花費過多時間和金錢。

檔案大數據技術的戰(zhàn)略意義不在于掌握龐大的數據信息，而在于對這些有較高價值的飽含歷史意義的數據進行專業(yè)化處理。如果把大數據比作一種產業(yè)，那么這種產業(yè)實現(xiàn)盈利的關鍵，在于提高對數據的“加工能力”，通過“加工”實現(xiàn)數據的“增值”。也就是我們不僅要擁有一座礦山，還要通過各種手段發(fā)掘、開采、提煉出高價值的產品。方法和手段不一樣，產出的價值是不同的。

檔案大數據的特點：數據量巨大、數據類型繁多、價值密度低、處理速度快。

數據量巨大：以“十一五末”我國的館藏檔案量已達到近4億卷，以每卷3厘米厚度。我國的館藏檔案能把長江從源頭至入海口碼個來回。根據估算我國檔案正以每5年40%速度遞增。

數據類型繁多：檔案涉及政府機關、集團企業(yè)、金融、通信、建筑、房產、教育、軍工、法院等行業(yè)。這些行業(yè)運行不同的業(yè)務，產生檔案數據是各不相同的。如文檔、設計圖、照片、錄音材料、視頻、GIS信息、水文氣象信息等。這些不同的文檔又存在一定的關聯(lián)性。比如城市建設的平面圖、設計圖可以和GIS數據信息關聯(lián)，同時還要關聯(lián)政府建設規(guī)劃文件、批復與施工文件等。這些不同類型的數據不同程度上對數據的處理能力提出了更高的要求。

價值密度低：價值密度的高低與數據總量的大小成反比。如保險檔案，我們會把保險單逐一存檔，但發(fā)生理賠的概率是極低的。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。

處理速度快：這是大數據區(qū)分于傳統(tǒng)數據挖掘的最顯著特征。在海量的數據面前，處理數據的效率就是企業(yè)的生命。檔案大數據也是如此。

檔案大數據與互聯(lián)網大數據有著相同的特點，從檔案本身屬性看其特點還表現(xiàn)在一方面可以提供政府企業(yè)運行的依據，支持核心生產力與應用，另一方面檔案仍對合規(guī)、電子取證、安全、診斷以及其他支持性應用程序有相當大的價值。

二、檔案大數據的產生

過去，檔案檢索主要依靠手工著錄、卡片檢索。隨著信息技術的進步、數據庫技術的發(fā)展，計算機輔助檔案管理使檔案管理變得更為快捷和方便。檔案數據主要來源于兩個方面：1、各業(yè)務部門通過業(yè)務系統(tǒng)產生的業(yè)務數據轉為檔案數據；2、檔案部門通過人工填寫、錄入、搜集歸類后轉為檔案數據。

新形勢下業(yè)務系統(tǒng)產生的檔案數據具有及時、廣泛、數據量大、內容繁雜的特點。較為智能的業(yè)務系統(tǒng)能夠隨時將業(yè)務數據輸送至檔案部門存檔，如辦公系統(tǒng)、財務系統(tǒng)，當文件辦畢時，數據（文件）可立刻轉為檔案數據。不同職能的業(yè)務部門產生的檔案更具有廣泛性，如法院卷宗、醫(yī)院病歷、人事檔案等，不同的立檔部門產生不同的業(yè)務檔案。我們的業(yè)務系統(tǒng)時刻運行，意味著每時每刻都會產生檔案數據，因此檔案數據量會大得驚人。即便是同一個業(yè)務部門產生檔案數據，也會由于檔案門類、信息元不同，形成的檔案數據不同。

檔案部門除了采用業(yè)務系統(tǒng)收集檔案數據以外，還采用人工方式生成檔案數據。最常見的是將館藏的實體檔案通過數字化技術轉為檔案數據，如掃描、拍照等。我國的檔案信息化在未來幾年將得到快速發(fā)展，信息化將呈幾何級增長，形成真正意義上的檔案大數據。如圖：

因此，我們應從檔案大數據的源頭充分考慮未來的應用范圍，把握檔案數據“快、廣、大、亂”的特點，把來得“快”的檔案數據及時處理，把產生“廣”的檔案數據各個擊破，把存量“大”的檔案數據化整為零，把內容“亂”的檔案數據有序歸類。

三、檔案大數據的存儲

檔案大數據給傳統(tǒng)數據倉庫架構帶來了一系列的沖擊和挑戰(zhàn)，僅從存儲層面來審視，倉儲的構建者不得不面對來自兩方面的焦慮：一是數據規(guī)模急速增長，現(xiàn)有的共享磁盤架構能否適應海量數據的存儲；二是數據結構復雜多樣，現(xiàn)有的基于結構化數據為主體的存儲方案能否兼容無模式的非結構化數據。

面對大數據的挑戰(zhàn)，在技術上航星科技將如何解決大數據的問題呢？從現(xiàn)有數據庫存儲架構來和實踐研究看，一個大而全的存儲架構似乎不能完美的解決大數據的存儲。大部分企業(yè)更應該偏向于讓不同種類的數據存儲在最適合他們的存儲系統(tǒng)里，再將不同類型的數據進行融合，最后在融合的數據基礎上做商業(yè)分析。

首先，必須有足夠的空間存儲數據。對于大數據，當企業(yè)在快速增長數據的背景下要保持數據的一種平衡狀態(tài)并實現(xiàn)易擴展，應采用分而治之的思想，即構建分布式存儲系統(tǒng)，方便增加節(jié)點實現(xiàn)穩(wěn)步處理。

其次，兼有多種結構的存儲引擎。大數據的結構復雜多樣使數據倉庫面臨的源數據太過繁雜，此時應改變目前以結構化為主體的單一存儲方案，對非結構化數據采用分布式文件系統(tǒng)進行存儲，對結構松散無模式的半結構化數據采用面向文檔的分布式key/value存儲引擎是最適合的解決方案。

最后，航星科技建立連接多種存儲引擎的“連接器”。通過這個“連接”來建立分布式存儲與分布式文件系統(tǒng)之間的關系。我們存儲多元化的數據主要是為了集成分析，而多種結構的孤立存儲顯然不是集成分析的最佳選擇。通過構建連接器，使得非結構化數據在處理成結構化信息后，能快速融通和分布式數據庫中的關系型數據，達到對大數據敏捷分析。

四、檔案大數據的應用

傳統(tǒng)的檔案信息管理一直停留于檔案目錄管理、分類、歸檔、存儲及簡單的統(tǒng)計查詢，檔案大數據的關鍵信息需通過一定的技術方法進行提取，并針對提取出的有效信息根據一定的規(guī)律進行挖掘。只有滿足不同檔案用戶的信息需求，數據挖掘技術才會發(fā)揮巨大作用。在海量的檔案信息挖掘中主要采用文本數據挖掘技術，這相當于文字分析，一般指文本處理過程中產生高質量的信息。

文本數據挖掘的基礎領域，包括機器學習、數理統(tǒng)計、自然語言處理；在此基礎上是文本數據挖掘的基本技術，包括文本信息抽取、文本分類、文本聚類、文本數據壓縮、文本數據處理；文本挖掘有兩個主要應用領域，信息訪問和知識發(fā)現(xiàn)，信息訪問包括信息檢索、信息瀏覽、信息過濾、信息報告，知識發(fā)現(xiàn)包括數據分析、數據預測。如圖所示：

總之，我們可以把對文本數據的分類、融合、壓縮、摘要以及從文本中抽取發(fā)現(xiàn)知識與信息都看作是文本數據挖掘。通過這些技術使得我們在搜索檔案時從大數據范圍變成從小范圍，從而提高其效率和準確度。

在檔案信息化領域，知識管理的發(fā)展主要包括認知、信息積累、知識挖掘、知識運用、規(guī)范化發(fā)展五個步驟。通常結合信息檢索、分析及挖掘技術，將信息進行適當的分類及抽取或形成一組問答序列，并將這些信息進行提取，形成解決某一問題域的數據集市，挖掘出一定的專門知識，作為決策的依據。

檔案知識的輸出和評價還需要高效快速的輔助智能檢索技術。

（1）基于語義檢索。提供計算機可以理解人類語言后的一種搜索模式。

（2）基于音視頻內容檢索。可以直接對音視頻內容進行檢索，自動識別關鍵幀，能夠區(qū)分定位出一個視頻中的不同的兩段內容，減輕人工打點的工作量，提高視頻處理的能力。

（3）檔案智能化輔助分類。可從歷史分類中智能提取檔案分類，提高用戶整編效率，實現(xiàn)文獻的自動分類；系統(tǒng)可自主根據已有檔案分類進行學習，促進以后輔助分類的準確度；支持多維度的動態(tài)分類；支持用戶自定義分類展示。

因此，檔案大數據系統(tǒng)平臺總體架構應按照實際內容應用的流程實現(xiàn)，即從數據的采集、智能處理、數據挖掘與智能搜索應用平臺三個層次實現(xiàn)。通過多類型數據采集平臺進行數據采集，在智能數據處理平臺上對這些非結構化信息、多媒體信息和用戶信息進行分析，最后在應用平臺上提供數據挖掘結果的搜索平臺和多媒體自動編研平臺。

管理檔案大數據較傳統(tǒng)的檔案數據，需要去改變管理流程與文化，很多企業(yè)不愿意改變傳統(tǒng)的方式。形勢已經來臨，競爭對手可能已捷足先登，保守必將錯失機會。

消息來源：中國計算機報