精品乱码一区内射人妻无码-亚洲中文AⅤ中文字幕在线-免费不卡国产福利在线观看-国产综合无码一区二区色蜜蜜

          正在閱讀:突破局限 充分挖掘大數(shù)據價值

          突破局限 充分挖掘大數(shù)據價值

          2016-04-07 08:54:19來源:數(shù)據觀 關鍵詞:大數(shù)據云計算物聯(lián)網閱讀量:32247

          導讀:談大數(shù)據的局限性,并非要否定其價值。相反,只有我們充分認識了大數(shù)據的特點和優(yōu)劣勢,才能更好地利用大數(shù)據,充分挖掘和發(fā)揮其價值。
           【中國智能制造網 智造快訊】似乎在一夜之間,大數(shù)據就紅遍南北半球,在神州大地更是風頭無兩。與此同時,大數(shù)據也被神化得無處不在,無所不包,無所不能。筆者以為,越是在熱得發(fā)燙的時候,越是需要有人在旁邊吹吹冷風。在這里談談大數(shù)據的局限性,并非要否定其價值。相反,只有我們充分認識了大數(shù)據的特點和優(yōu)劣勢,才能更好地利用大數(shù)據,充分挖掘和發(fā)揮其價值。

            
          突破局限 充分挖掘大數(shù)據價值

            先闡述一個觀點:大數(shù)據本身并沒有也不直接產生價值,只有對其進行有效地管理、加工,挖掘出隱藏在其中的有用信息并加以合理、有效地利用,才能使其充分發(fā)揮作用,產生價值。這一觀點構成了以下闡述大數(shù)據局限性的基礎,如果你不認可這一基礎,那么請就此打住,別浪費你的寶貴時間了?;谶@種價值導向的衡量標準,大數(shù)據本身及其管理、加工、應用均具有多方面的局限性。
            
            1、數(shù)據噪聲:與生俱來的不和諧
            
            大數(shù)據之所以為大數(shù)據,首先是因為其數(shù)據體量巨大。然而,在這海量的數(shù)據中,并非所有的數(shù)據都是有用的,大多數(shù)時候,有用的數(shù)據甚至只是其中的很小一部分。隨著數(shù)據量的不斷增加,無意義的冗余、垃圾數(shù)據也會越來越多,而且其增長的速度比數(shù)據信息更快。這樣一來,我們尋求的重要數(shù)據信息或客觀真理往往會被龐大數(shù)據所帶來的噪聲所淹沒,甚至被引入歧途和陷阱,得出錯誤的結論。
            
            2、真實性:不得不接受的虛假
            
            “我們進入困局的并不是我們不知道的事物,而是我們知道、但不那么真實的事物。”真實性是一切數(shù)據價值的基礎,然而這同時也是大數(shù)據的一大先天性缺陷。
            
            網絡是大數(shù)據重要的來源之一,而網絡本身就充斥著大量的虛假信息。例如,網絡數(shù)據中存在著大量的虛假個人注冊信息、假賬號、假粉絲、假交易、灌水貼及虛假的意思表示等。這種失真是由網絡本身的特性決定的,比如說,絕大多數(shù)社交網站很難也不會對會員注冊信息的真實性進行全面核查,電商平臺也無法控制一人注冊多賬號,或賬號與實際消費個體的非對應關系(想想你家有沒有共用一個寬帶或電商賬號的情況)。
            
            除了網絡數(shù)據,即便是通過原始方法采集的個人信息數(shù)據也無法保障其真實、準確。就拿電信運營商來說,即便推行了實名制,但圈內人都知道,數(shù)據質量與期望仍有相當差距??梢灶A見,在相當長的時間內,即使的數(shù)據科學家、先進的數(shù)據處理方法也無法消除或修正某些數(shù)據固有的錯誤和不足,對大數(shù)據真實性的追求無疑是擺在我們面前的又一挑戰(zhàn)。
            
            3、代表性:永不可能的全樣本
            
            邁爾·舍恩伯格在《大數(shù)據時代》一書中闡述的一個核心觀點便是,大數(shù)據是全樣本,因此不再依賴隨機取樣。鞭者認為,這種觀點是錯誤的。
            
            大數(shù)據來源大致可以分為兩類,一類來自于物理世界的科學數(shù)據,如實驗數(shù)據、傳感數(shù)據、觀測數(shù)據等;另一類則來自于人類社會活動,主要是互聯(lián)網數(shù)據,如社交關系、商品交易、行為軌跡等個人信息。然而,這兩類數(shù)據的產生、收集都存在很大的盲區(qū)和局限性。歸納與演繹、由點及面是科學研究與應用的主要邏輯和方法,科學數(shù)據主要是精心設計的抽樣數(shù)據。至于互聯(lián)網數(shù)據,雖然我國網民數(shù)量已達7億,但這意味著仍然有6億人因不能或不愿上網而被排除在互聯(lián)網大數(shù)據之外,讓7億人來代表另外的6億人,你確認這6億人樂意被代表嗎?
            
            很多人在網上訂餐或消費的時候往往會參考其他人的推薦和點評,但經常在消費以后發(fā)現(xiàn)并不如意。撇開個人口味和刷評的因素,還有一個重要原因在于,網上點評的人并不具備足夠的代表性。喜歡上網的本身就只是消費人群中的一部分,上網消費同時又喜歡點評的人更只是其中的一小部分,所以,他們并不能代表整個消費群體。
            
            無論科學技術如何發(fā)達,來自于物理世界和網絡社會的大數(shù)據永遠都不可能覆蓋整個自然界和人類社會;如果再考慮宗教、法律、倫理、道德上的諸多限制,那么大數(shù)據就更不可能成為“全樣本”了。而且,被遺漏的那部分數(shù)據往往并不是隨機偏差,而是系統(tǒng)偏差,在統(tǒng)計分析時不能不考慮。也正因為如此,社會學家對大數(shù)據的代表性總是保持著一份可貴的疑慮和審慎,在許多領域仍然堅持用傳統(tǒng)的抽樣方法而不是大數(shù)據來進行社會研究。
            
            4、完整性:廣度與深度的缺失
            
            大數(shù)據的完整性不足主要是指單個組織所能獲取的數(shù)據體量雖然巨大,但所包含的實際信息卻十分有限,以致難以以此為基礎進行復雜的邏輯運算或全面描述。這種不完整主要包括信息維度(決定信息廣度)的缺失和維度信息(決定信息深度)的缺失。
            
            舉例而言,電信運營商由于把控著數(shù)據管道,從而可以較全面地掌握用戶的上網信息,比如上網時間、頻率、上網終端、訪問網站、瀏覽內容等等,有著較好的信息廣度,但其掌握的信息深度卻不夠。運營商可以清楚地知道用戶在什么時間、什么地點、以什么終端、什么網絡訪問了京東、亞馬遜、天貓等電商,瀏覽了何種商品,停留了多長時間等等,但卻不能掌握用戶是否在某電商平臺上購買了商品、購買了何種商品、參與了什么促銷活動、以什么方式付款、支付了多少款額等等。很顯然,京東對用戶在自己商城的瀏覽、消費行為了如指掌(信息深度充分),但它卻無法了解用戶的其他互聯(lián)網行為及在其他電商平臺的消費行為(信息廣度不足)。
            
            在大多數(shù)情況下,對某種自然、社會現(xiàn)象的深入研究或者對用戶的超級刻畫(包括超維度和超??v橫度兩個切面),信息廣度和信息深度缺一不可。大數(shù)據的價值恰恰在于廣泛的交叉融合,從這個意義上講,真正的大數(shù)據應是建立在共同的標準基礎之上,融合了企業(yè)、政府、科學研究等跨領域、跨行業(yè)、跨平臺數(shù)據的集合,是社會大數(shù)據(這是一個很有意思的提法,另案討論)。
            
            然而,當前的大數(shù)據依然以獨立孤島的形式存在,沒有任何一個組織能夠獲取在廣度和深度上都足夠充分的數(shù)據。應該大力推進全社會的數(shù)據公開和共享,其中政府數(shù)據開放尤其重要。毫不夸張地講,真正核心的數(shù)據絕大部分掌握在政府手中,沒有政府參與,就沒有真正的大數(shù)據。
            
            5、時效性:秒級價值存在
            
            任何數(shù)據都位于一個連續(xù)的時間軸上,都有其時間屬性,即數(shù)據年齡。不同年齡的數(shù)據有著不同的價值特性,往往老數(shù)據具有總體或趨勢分析價值,新數(shù)據則更具有個體應用價值。大數(shù)據時代,信息更新速度非???,從應用的角度看,大數(shù)據的時效性往往相當短。
            
            用于探測地震和海嘯的傳感器所產生的數(shù)據時效往往只有幾秒鐘,在此之后就基本失去意義了。美國國家海洋局的超級計算機能夠利用傳感器傳輸?shù)臄?shù)據,在日本地震后9分鐘內計算出海嘯的可能性及強度。短短的9分鐘,基本反映了當前人類計算的高水平,但這對于瞬間消失的生命來說還是太長了。
            
            實時營銷對用戶狀態(tài)信息的時效性也有很高的要求,試想想,如果你的目標用戶在離開店面500米后才收到你所謂“量身定做”的促銷信息,他(她)是不是會對此嗤之以鼻?大數(shù)據時效性的要求對數(shù)據的實時采集、實時加工、實時分發(fā)提出了極高的要求。數(shù)據處理上有一個的“1秒定律”,即要在秒級的時間范圍內計算出分析結果并分發(fā)出去,超過這個時間,數(shù)據就失去價值了。這在許多時候還很難做到,從而在相當程度上限制了大數(shù)據的應用。
            
            6、解釋性:不能沒有因果關系
            
            對于舍恩伯格關于大數(shù)據的另一個核心觀點,“不是因果關系,而是相關關系”,只需要了解是什么或未來會發(fā)生什么,而不是為什么和事情發(fā)生的內在原因,鞭者同樣不敢茍同。
            
            相關關系僅代表著過去和個案,沒有解釋性,有時甚至是錯誤的,而且不能推而廣之。只有掌握了事物之間的因果關系、原因機制和科學原理,才能舉一反三,迭代更新,持續(xù)推動社會進步。這是很簡單的道理,不必贅言。
            
            關于相關性,一直為人津津樂道的便是啤酒與尿布的故事。然而,沃爾瑪商品品種成千上萬,相關關系上億之多,我想類似的絕妙組合尚有不少,為什么再也難見?更何況,人們仍然對啤酒與尿布的相關關系進行了合理的因果邏輯解釋。試想,如果首先發(fā)現(xiàn)了這樣的因果關系,再通過相關關系予以驗證,是否可以發(fā)現(xiàn)更多的“啤酒和尿布”?
            
            Google的流感預測是另外一個被經常引用的大數(shù)據相關分析的成功案列。一個你可能不知道的事實是,自2009年Google的那次準確預測和高調宣傳以來,其流感預測的準確性一直走下坡路。特別是近兩三年,其預測不準確的次數(shù)比準確的次數(shù)還要多。
            
            大數(shù)據分析需要借助機器來完成,而機器從來就只能給出數(shù)據間的相關關系,而不能說明因果邏輯。因果關系需要人的思考和判斷,電腦現(xiàn)在沒有、將來也不可能完全替代人腦。玩笑一下,如此急迫地強調相關關系而不是因果關系,難道我們真的不需要腦子了嗎?
            
            7、預測性:讓過去決定未來
            

            大數(shù)據分析無論被賦予多么絢麗的光環(huán),從根本上講僅僅是對過去和現(xiàn)實的歸納和總結,其本身并不具有趨勢和方向性的特征。決定趨勢的是事物發(fā)展的內在因素及相互作用,在此方面大數(shù)據無能為力,這是大數(shù)據先天性缺陷之一。
            
            舍恩伯格也坦言,與大數(shù)據同行是有一定風險的,大數(shù)據有可能會把我們鎖定在以往的錯誤當中,使我們墮入讓過去決定未來的陷阱。
            
            現(xiàn)在有些基金公司推出大數(shù)據指數(shù)基金,期望通過大數(shù)據對股票行情進行準確的預測。歷史行情走勢只是過去已經發(fā)生的影響股票市場的諸多因素共同作用的結果,以此來預測未來的市場根本不靠譜。普林斯頓大學經濟學教授伯頓·麥基爾早在1973年的作品《漫步華爾街》中就指出,把一只猴子蒙上雙眼后讓它向報紙的金融版擲飛鏢而選中的投資組合,和那些專家經過大量研究而謹慎選擇的投資組合相比,盈利性可能一樣好。近幾年甚至有研究者提出,麥基爾的這種看法低估了猴子(應該是高估了基金經理吧)。2008年,好事的俄國人更是用實驗證明了這一點。俄羅斯《財經周刊》從馬戲團找來一只猴子,讓它從代表不同股票的牌子中選擇8支進行模擬投資組合,并投入100萬虛擬盧布。一年后,當金融專家再次觀察猴子所選股票的表現(xiàn)時不由大吃一驚,其市值上漲了近3倍,跑贏了94%的基金。
            
            必須承認,我們處于一個不確定的世界里,有許多事件是無法預測的。過分依賴大數(shù)據和預測模型是危險的,因為有許多決定性的影響因素都不能納入模型參數(shù)的覆蓋范圍之內。從天氣預報、地震預測、足球比賽到金融危機等等,都對這一點做了很好的詮釋。
            
            8、誤導性:數(shù)據也會說謊
            
            與大數(shù)據的代表性、真實性、完整性、解釋性等局限性相關的,必然是結論的不可靠性和誤導性,這兩者之間可是強相關的,因果關系不多說,在此僅舉幾例以娛諸君。
            
            先來一個經典的。電影《賭神》中,發(fā)哥扮演的賭神一直有一個擺弄戒指的習慣。對手通過研究大量的賭神職業(yè)比賽錄像察覺到了他這一習慣,并發(fā)現(xiàn)他轉動戒指往往伴隨著出千。然而,在一場生死之戰(zhàn)中,賭神利用長期以來一直發(fā)布的假數(shù)據欺騙了所有人。這次他依然像往常一樣轉動戒指,不同的是出千卻沒有隨之而來,于是乎,對手瞬間崩潰。
            
            對統(tǒng)計現(xiàn)象只看結果不重解釋,很可能導致錯誤甚至危險的結論。二戰(zhàn)時期英國與德國的空戰(zhàn)中,工程師發(fā)現(xiàn),每次戰(zhàn)斗機回來機翼上都帶有很多槍眼,因此認為機翼是容易受到攻擊的地方,需要進行特別防護。可是增加防護之后,飛機的損失率不但沒有降低,反而提高了。問題究竟出在哪呢?原來工程師們被這一統(tǒng)計結果誤導了,從而采取了錯誤地防護措施。對機翼槍眼的統(tǒng)計只針對成功返航的飛機,而那些不幸的飛機被擊落的原因并沒有被統(tǒng)計和發(fā)現(xiàn)。相反,機翼受損還能飛回來,說明機翼被攻擊并不是飛機被擊落的主要原因。至于為什么增加防護后飛機損失率反而提高了,原因很簡單,因為負荷增加降低了飛機的靈活性和航程。后來,工程師們反其道而行之,在沒有槍眼的部位加強防護,因為這些部位被擊中的飛機都沒有返航,事實證明效果良好。
            
            還有一個高度相關卻因果倒置的故事,也不知道是不是有意諷刺。說某慈善組織通過大量的數(shù)據分析發(fā)現(xiàn),一個國家、地區(qū)電視機的普及率與富裕程度強相關。因此,他們就向一些貧困國家贈送了大批電視機,以期促進當?shù)亟洕陌l(fā)展。很顯然,是因為經濟貧困導致了電視普及率低,而不是反過來,做出那樣的決策可能真沒過腦子。
            
            9、合法性:數(shù)據安全與隱私保護
            
            大數(shù)據本身及其采集、使用過程都極有可能會涉及個人隱私、商業(yè)機密、公眾權益和國家信息安全。因此,安全性和合法性問題構成了大數(shù)據價值發(fā)揮的限制性因素之一。商業(yè)和技術很重要,但商業(yè)和技術背后的價值觀更重要。
            
            Google曾將"不作惡"作為自己的公司價值觀;百度為了短期商業(yè)利益售賣多個貼吧,公然踐踏公眾隱私,結果遭千夫所指,萬人唾罵。這些都充分反映了公眾對隱私和信息安全的關注和重視。
            
            白宮曾在2014年發(fā)表書面聲明稱,大數(shù)據創(chuàng)造的社會價值與經濟價值得以遵從該國提倡的“隱私、公正、平等、自主”。中國政府在此方面雖然尚未立法,也從來沒有明確的說法,但民眾的基本權益和訴求理當被審慎考慮。
            
            誠然,安全性、合法性要求限制了大數(shù)據的使用和商業(yè)價值的充分發(fā)揮,但從社會價值的角度來看,是值得的,也是必須的。
            
            10、價值性:投入與收益的平衡
            
            價值密度低是被公認的大數(shù)據特征之—,這也在一定程度上限制了大數(shù)據的研究和應用。一方面,因為大數(shù)據的低密度價值特征,那么要使其價值達到可用的程度,就必須有足夠規(guī)模的數(shù)據積累和有效的價值提取。以常規(guī)的監(jiān)控視頻為例,連續(xù)24小時的視頻監(jiān)控中,有用的數(shù)據可能僅有數(shù)秒。如何優(yōu)化存儲,并通過強大的機器能力迅速完成數(shù)據的加工處理和價值呈現(xiàn),到目前為止還是大數(shù)據面臨的一大難題。
            
            另一方面,大數(shù)據邊際效用遞增規(guī)律的存在,使許多單位、組織的數(shù)據無法達到基本的規(guī)模要求,從而也使其數(shù)據價值無法充分顯現(xiàn)。
            
            同時,前面講到的大數(shù)據代表性、真實性、完整性、解釋性上的不足及由此引起的結論誤導,不僅會降低數(shù)據的價值,甚至可能產生負面作用。
            
            另外,大數(shù)據的采集、存儲、加工和使用所耗費的資金和時間成本都是非常高昂的。作為大數(shù)據投資主體,應該在投入和收益之間進行合理平衡。當前的確存在那么一種勢力,為了某種目的極力鼓動企業(yè)進行大規(guī)模的大數(shù)據投資,如果不審慎評估,很可能得不償失。
            
            在此講了這么多大數(shù)據的局限性,后再次重申,并非要以此否定大數(shù)據的價值;同時,也要再次強調,大數(shù)據代表的只是知識,而非智慧。對世界的改造僅憑有限的知識是遠遠不夠的,更需要人類取之不盡、用之不竭的智慧。只有用好了項上這顆六斤四,才能逐步突破大數(shù)據的局限性,更好地發(fā)揮大數(shù)據價值。
          我要評論
          • 《智能制造典型場景參考指引(2025 年版)》發(fā)布 安防行業(yè)何去何從

            隨著科技的飛速發(fā)展,智能制造已成為全球制造業(yè)轉型升級的重要方向。在這一背景下,安防行業(yè)也迎來了前所未有的變革機遇。
            人工智能物聯(lián)網
            2025-05-15 16:21:09
          • 物聯(lián)網的采用正在加速,但成本仍然是主要障礙

            盡管數(shù)字化轉型如今已被視為必然趨勢,但報告的結果表明,數(shù)字化轉型的成功將取決于供應商能否提供尖端技術,以及簡化、經濟高效的部署模式。
            物聯(lián)網物聯(lián)網技術
            2025-05-15 11:04:13
          • 2025年云計算:各行業(yè)如何借助云技術實現(xiàn)突破?

            云計算的新興趨勢預示著它將變得更加智能、多樣化、強大和環(huán)保。到2025年,預計超過85%的企業(yè)應用程序將是基于云的,從根本上改變商業(yè)模式和戰(zhàn)略。
            云計算
            2025-05-06 11:40:46
          • 物流智能轉型新引擎:DeepSeek+物流

            DeepSeek 物流不僅是技術的革新,更是城市發(fā)展的重要推動力。它通過智能化手段提升物流效率、優(yōu)化資源利用、減少環(huán)境影響,并為智慧城市建設提供支撐。未來,隨著AI技術的不斷進步,物流行業(yè)將迎來更深刻的變革。
            物流大數(shù)據服務平臺
            2025-04-30 10:11:15
          • 如何利用物聯(lián)網和開放平臺視頻管理系統(tǒng)(VMS)實現(xiàn)互聯(lián)未來

            物聯(lián)網和開放平臺VMS的結合將為實現(xiàn)互聯(lián)未來提供強大的技術支持。通過整合物聯(lián)網設備和VMS系統(tǒng),可以實現(xiàn)更廣泛的監(jiān)控、更高效的數(shù)據管理和更智能的決策支持。本文將探討如何利用物聯(lián)網和開放平臺VMS實現(xiàn)互聯(lián)未來,并分析其在不同領域的應用和優(yōu)勢。
            物聯(lián)網物聯(lián)網設備開放平臺VMS
            2025-04-16 09:48:35
          • 人工智能與物聯(lián)網融合:通往更智能未來的大門

            人工智能與物聯(lián)網的融合蘊含著變革性的潛力,有望重塑各行各業(yè),徹底改變日常生活,并為更智能、更互聯(lián)的未來鋪平道路。未來,AIoT技術將更加自主,能夠獨立完成復雜任務,無需人工干預。
            人工智能物聯(lián)網AIoT技術
            2025-04-14 11:28:21
          版權與免責聲明:

          凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。

          本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。

          鑒于本站稿件來源廣泛、數(shù)量較多,如涉及作品內容、版權等問題,請與本站聯(lián)系并提供相關證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。

          不想錯過行業(yè)資訊?

          訂閱 智能制造網APP

          一鍵篩選來訂閱

          信息更豐富

          推薦產品/PRODUCT 更多
          智造商城:

          PLC工控機嵌入式系統(tǒng)工業(yè)以太網工業(yè)軟件金屬加工機械包裝機械工程機械倉儲物流環(huán)保設備化工設備分析儀器工業(yè)機器人3D打印設備生物識別傳感器電機電線電纜輸配電設備電子元器件更多

          我要投稿
          • 投稿請發(fā)送郵件至:(郵件標題請備注“投稿”)1271141964.qq.com
          • 聯(lián)系電話0571-89719789
          工業(yè)4.0時代智能制造領域“互聯(lián)網+”服務平臺
          智能制造網APP

          功能豐富 實時交流

          智能制造網小程序

          訂閱獲取更多服務

          微信公眾號

          關注我們

          抖音

          智能制造網

          抖音號:gkzhan

          打開抖音 搜索頁掃一掃

          視頻號

          智能制造網

          公眾號:智能制造網

          打開微信掃碼關注視頻號

          快手

          智能制造網

          快手ID:gkzhan2006

          打開快手 掃一掃關注
          意見反饋
          我要投稿
          我知道了