10月26日下午14:30,世界頂尖信息學(xué)院聯(lián)盟iSchool主席MichaelSeadle教授應(yīng)邀在櫻頂老圖書館進(jìn)行關(guān)于管理和驗(yàn)證研究數(shù)據(jù)的學(xué)術(shù)交流講座。講座由信息管理學(xué)院院長(zhǎng)方卿教授主持,武漢大學(xué)黨委副書記駱郁廷教授出席講座。

MichaelSeadle教授首先從數(shù)據(jù)庫系統(tǒng)的歷史和概念講起。數(shù)據(jù)庫系統(tǒng)最初的雛形始于穿孔卡片,它可以將數(shù)據(jù)按照序列存儲(chǔ),但是數(shù)據(jù)的排序、存儲(chǔ)介質(zhì)和容量都十分有限。隨著技術(shù)的逐漸發(fā)展、數(shù)據(jù)源的多樣化,先后出現(xiàn)了磁性存儲(chǔ)、光盤存儲(chǔ)和以記錄為基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)。之后的數(shù)據(jù)庫也在不斷發(fā)展擴(kuò)充,數(shù)據(jù)的存取更加靈活和集中,八十年代出現(xiàn)了并非程序的SQL搜索語言。發(fā)展到如今,出現(xiàn)了機(jī)器學(xué)習(xí),機(jī)器通過以三元組存儲(chǔ)為數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)庫為數(shù)據(jù)來源,能夠分析出事件的相關(guān)性,這與統(tǒng)計(jì)算法息息相關(guān)。

接下來,他從研究數(shù)據(jù)的完整性和真實(shí)性向我們介紹了其特殊性。完整性是指數(shù)據(jù)在思想上不隨時(shí)間推移而改變,真實(shí)性是指這些數(shù)據(jù)是真實(shí)的。
研究數(shù)據(jù)要遠(yuǎn)復(fù)雜于商用數(shù)據(jù),數(shù)據(jù)背后更豐富的背景信息是必不可少的。在這種前提下,數(shù)據(jù)的完整性變得十分重要。然而,現(xiàn)實(shí)生活中卻時(shí)常發(fā)現(xiàn)數(shù)據(jù)造假的情況,他舉了一個(gè)例子來說明,國(guó)外有一學(xué)者的學(xué)術(shù)成果是基于統(tǒng)計(jì)嚴(yán)密的數(shù)據(jù),然而數(shù)據(jù)信息過于完整嚴(yán)密以至于讓人產(chǎn)生懷疑。隨著人們的發(fā)問,謎團(tuán)被揭開:研究人員所聲稱的數(shù)據(jù)來源機(jī)構(gòu)早已關(guān)閉,數(shù)據(jù)是憑空捏造的。
近年來,數(shù)據(jù)偽造和怎樣發(fā)現(xiàn)它的問題的重要性日益顯著,存儲(chǔ)虛假數(shù)據(jù)將危害科學(xué)的進(jìn)程,破壞以之為基礎(chǔ)的后續(xù)的工作,但是這種檢測(cè)偵察遠(yuǎn)非易事。
最后,他做出總結(jié),現(xiàn)如今,對(duì)數(shù)據(jù)的管理特別是研究是我們長(zhǎng)時(shí)間關(guān)注的事。最初往往是對(duì)數(shù)據(jù)的抽取,現(xiàn)在則更多的是針對(duì)特定需求去建立數(shù)據(jù)間的關(guān)系。在這種情況下,數(shù)據(jù)的完整性格外重要。
在提問環(huán)節(jié)中,老師和同學(xué)分別對(duì)研究數(shù)據(jù)過程中非精準(zhǔn)數(shù)據(jù)應(yīng)如何處理、社會(huì)學(xué)等非結(jié)構(gòu)化數(shù)據(jù)如何收集、對(duì)學(xué)術(shù)造假有無科學(xué)的管理系統(tǒng)、對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化與多樣化的平衡如何把握等問題進(jìn)行了提問,Seadle教授一一進(jìn)行了詳細(xì)解答。在回答“對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化與多樣化的平衡如何把握”時(shí),教授用了這樣的例子進(jìn)行解釋:就像一棟大樓無法用同一種磚塊建成一樣,對(duì)于信息世界,也需要多種多樣的數(shù)據(jù)分析模型。
Seadle教授的精彩講座將帶給在座師生和研究者們更多的思考和方向。
