完美世界小说txt下载,辰东全部小说,绝色狂妃仙魅小说

推斷時代的數(shù)據(jù)流動性

概率計算帶來了太多的希望，但這一切可能被數(shù)據(jù)的零和博弈所抑制。

Roger Chen, 2017年9月22日

編者注：這篇文章最初發(fā)布在Roger Chen的博客上，經(jīng)許可在這里重新出版。
敬請關(guān)注2018年4月10-13日人工智能北京大會。

在計算的進化史上，現(xiàn)在一個特殊的時刻。大數(shù)據(jù)、機器學習和人工智能等常用術(shù)語已經(jīng)成為信息處理中一個底層范式轉(zhuǎn)變的流行描述符。雖然傳統(tǒng)的基于規(guī)則的計算并沒有消失，但一個新的計算范式正圍繞著概率推斷出現(xiàn)。在這里，數(shù)字化的推斷是從樣本數(shù)據(jù)中學習而不是用布爾邏輯硬編碼實現(xiàn)。這一轉(zhuǎn)變意義重大，以至于一個新的計算技術(shù)棧正在圍繞它形成。其中的重點是數(shù)據(jù)工程、算法開發(fā)，甚至是針對數(shù)據(jù)中心和邊緣設(shè)備上的并行計算工作負載所優(yōu)化的新穎的硬件設(shè)計。

關(guān)于概率推斷的一個有趣的事情是，當模型運行良好時，它們在大多數(shù)情況下可能是正確的，但總會在某些時候出錯。從數(shù)學的角度來看，這是因為這些模型采用數(shù)值方法來逼近問題，而不是分析問題。也就是說，它們從具有一定統(tǒng)計意義的數(shù)據(jù)(人類參與的各種層次)中學習模式，但對與這些模式相關(guān)的任何物理層面的意義（不管是數(shù)學定理、推測還是其他）都不太了解。不過，這也正是概率推斷如此強大的原因。許多現(xiàn)實世界的系統(tǒng)都是多變量的、復雜的、甚至是隨機的。分析性數(shù)學模型并不存在，而且很難被開發(fā)出來。與此同時，分析性模型的相對物——那些物理知識無知的、依賴于浮點運算的以及經(jīng)常只是暴力的機器學習模型——卻可以發(fā)展出演繹的能力。這些能力并不會很好地遵循任何已知的規(guī)則，但幾乎總是能得到正確的答案。

這是令人興奮的，因為它意味著即使沒有完全理解底層的物理知識，我們也可以在軟件強大的功能中復制諸如感知、計劃和決策這樣的（人類的能力）。事實上，研究學習模型的輸入和輸出甚至可以幫助我們開發(fā)一些在生物、化學、環(huán)境科學等復雜系統(tǒng)中缺失的物理模型。當看到這些能力的時候，難怪學術(shù)界和實業(yè)家都在爭先恐后地應用人工智能。然而，這個即將到來的推斷時代帶來了令人興奮的希望，卻也有著無可爭辯的致命弱點。在這個計算范式中，運行軟件應用程序需要的數(shù)據(jù)和它需要的內(nèi)存和微處理器一樣多。數(shù)據(jù)作為一個計算組件，成為和組成實際計算機的物理部件一樣的核心部件。突然間，供應和價值鏈的概念不僅適用于實物商品，也適用于數(shù)據(jù)等數(shù)字資產(chǎn)。不幸的是，圍繞數(shù)據(jù)的經(jīng)濟生態(tài)系統(tǒng)在很大程度上仍然不發(fā)達，沒有被無縫地包裝和運輸。數(shù)據(jù)產(chǎn)品常常停留在原始和停滯的狀態(tài)。

1-colored-pearls-on-spoons-crop-99ff0fce96888586debfeaa6df03efd8

圖1. 口味是一個特別有趣的推斷問題。在高層次上，對于一個人喜歡或不喜歡什么菜進行規(guī)則編程是很簡單的。但是怎么去判斷由不同菜譜做出來的同一道菜一個人是否喜歡？然后再算上這個人喜歡的所有菜？是有可能把食物分解成分子數(shù)據(jù)，從而理解什么成分是最美味的，但很難想象一種大而全的理論能把所有的口味提煉成純粹的公式。這種情況就是統(tǒng)計學、深度神經(jīng)網(wǎng)絡和推斷模式能夠發(fā)光的地方，（因為）它提供了足夠的數(shù)據(jù)來訓練一個特定的人的美食偏好

數(shù)據(jù)的所屬域

盡管通過互聯(lián)網(wǎng)可以比以往更自由、更大規(guī)模地分發(fā)信息，但共享數(shù)據(jù)對于訓練和運行機器學習模型的價值卻與大多數(shù)互聯(lián)網(wǎng)商業(yè)模式的發(fā)展背道而馳?？梢岳斫獾氖?，這本身并沒有錯。如果一家公司通過投資建立有價值的數(shù)據(jù)集可以幫助其產(chǎn)品或服務與眾不同，那么它不想去分享數(shù)據(jù)的動機就是讓數(shù)據(jù)不被競爭對手獲取。但是與此同時，數(shù)據(jù)的網(wǎng)絡效應則是一種特別強大的業(yè)務和技術(shù)策略。當我們從一個更廣的視角，而不是把目光聚焦在單個公司的視角和它的特定利益時，就會開始看到打破數(shù)據(jù)孤島讓數(shù)據(jù)為公眾所用能帶來的幾個行業(yè)層面的好處。下面列出了一些。

提升效率

許多冗余數(shù)據(jù)集不必要地被創(chuàng)建出來，或是因為并不事先知道它們的存在，或是因為無法訪問。降低數(shù)據(jù)冗余所帶來的成本和時間的節(jié)省都是巨大的。

可重現(xiàn)

有時，故意重復進行數(shù)據(jù)收集是有好處的，因為通過重現(xiàn)可以保證數(shù)據(jù)的質(zhì)量。然而，即使在這種情況下，數(shù)據(jù)的透明性和共享也很必要，因為需要對獨立收集的數(shù)據(jù)集進行比較。

乘法效應

對于像識別貓這樣的狹窄應用，數(shù)據(jù)的價值會很快飽和。但是對于像基因?qū)W或紐約市周邊行車信息這樣的大型信息空間來說，數(shù)據(jù)的價值將在相當長一段時間內(nèi)隨著數(shù)據(jù)相互間的化合而持續(xù)存在。由于開源算法的文化已經(jīng)廣泛應用，數(shù)據(jù)聯(lián)盟會隨著開放模型與開放數(shù)據(jù)的相結(jié)合而產(chǎn)生乘法效應。

釋放新發(fā)現(xiàn)

許多計算問題的成功地解決不僅是要數(shù)據(jù)，還需要能達到臨界量的數(shù)據(jù)。一般通過數(shù)據(jù)聚合或眾包就能很快地獲得這些數(shù)據(jù)。不同層次的臨界量可以釋放出不同層次的新發(fā)現(xiàn)，我們甚至事先不知道這些層次是什么。

來自小玩家的巨大創(chuàng)新

規(guī)模經(jīng)濟能夠更有效地幫助大型組織收集數(shù)據(jù)，而較小的玩家經(jīng)常處于邊緣，發(fā)現(xiàn)他們的創(chuàng)新想法匱乏數(shù)據(jù)。為了幫助縮小數(shù)據(jù)不平等的差距，需要給小公司更多的新工具，這樣他們的創(chuàng)新就有更好的機會進入市場。

這里主要關(guān)心的不是所有數(shù)據(jù)都應該完全參與聯(lián)盟。專有數(shù)據(jù)總是會有，因為信息不對稱提供了強大的戰(zhàn)略優(yōu)勢。事實上，壟斷數(shù)據(jù)的所有權(quán)有時也會促進創(chuàng)新，因為它賦予了創(chuàng)新者足夠的安全感去投資那些需要長時間才能實現(xiàn)的項目。另一方面，過量的數(shù)據(jù)存在于不同的所屬域中，當它們能被匯集并可訪問時，就可以創(chuàng)建一個數(shù)據(jù)共同體，幫助信息密集型行業(yè)中的每個人加速進步。這些數(shù)據(jù)集自己通常不會為所有者帶來什么價值，但把它們聚合起來就能產(chǎn)生更大的價值，為每個人提供幫助。形成數(shù)據(jù)共同體是必要的，但是還不夠，企業(yè)需要更多的數(shù)據(jù)和工作才能使其產(chǎn)品具有競爭力。因此，試圖壟斷數(shù)據(jù)共同體的等級競爭似乎相當于一場零和游戲，而這樣做的資源可能會被更好地用于其他地方。相反，隨著機器學習在各個行業(yè)中擴散，共享某些類型的數(shù)據(jù)可以為每個人的進步打下堅實的基礎(chǔ)。隨著數(shù)據(jù)變得比以往任何時候都更重要，因此必須創(chuàng)建跨組織（由企業(yè)、大學甚至是民族國家所定義的）邊界的數(shù)據(jù)流動。

2-data-commons-f602bd88a7a47c53f4a91262fd306f47

圖2. 囤積通用數(shù)據(jù)的競爭可能導致投資的浪費，以及造成所有行業(yè)競爭者處于不穩(wěn)定的基礎(chǔ)上。相反地，建立某種程度的數(shù)據(jù)共享可以為整個行業(yè)創(chuàng)造一個強有力的立足點，它帶來了采用機器學習的機遇。企業(yè)仍然需要通過在數(shù)據(jù)共同體上開發(fā)專有工具和知識來進行競爭，但是他們這樣做的速度會快得多，同時也促進了數(shù)據(jù)的合作性競爭

數(shù)據(jù)交換的模式

為集體利益共享數(shù)據(jù)遠非一個新奇的概念。例如，在開放科學和開放政府中，要求提高信息透明度的呼聲由來已久。盡管如此，出于對競爭對手的懷疑和各自的小算盤，工業(yè)界所顯示出的主動性還是很有限的。然而，當工業(yè)市場擴展到大眾人群，而有遠見的利他主義則不然。由于市場是根據(jù)供求關(guān)系運作的，市場驅(qū)動的激勵機制很可能需要扎根于廣泛采用數(shù)據(jù)共享，因為它正努力將機器學習能力納入其中。在這里，我們需要探索一些數(shù)據(jù)交換的模型，來找到設(shè)計一個激勵共享的工業(yè)生態(tài)系統(tǒng)的方法。

一種理解數(shù)據(jù)共享的方法是網(wǎng)絡結(jié)構(gòu)。其中節(jié)點表示數(shù)據(jù)集或原料庫。從這個角度來看，最好的定義數(shù)據(jù)共享網(wǎng)絡的健壯性的參數(shù)是它的延遲和在線時間。在線時間對應于數(shù)據(jù)節(jié)點的可見性和可訪問性。當然，在諸如持續(xù)學習的應用中，實時數(shù)據(jù)共享是至關(guān)重要的，那么帶寬造成的延遲就會很重要。但是在這里，我們只考慮批量學習應用的場景，即獲取訓練數(shù)據(jù)的延遲更為重要。使用此框架可以幫助我們可視化三種類型的數(shù)據(jù)交換模式在不同原則下的屬性和差異：開放數(shù)據(jù)、數(shù)據(jù)經(jīng)紀人和數(shù)據(jù)合作。

3-data-exchange-models-f4c521a8a27ef64209f1712566585035

圖3. 由于缺乏市場激勵機制，這使得開放數(shù)據(jù)這個模型難以被大規(guī)模使用。而且這種模式尤其容易出現(xiàn)數(shù)據(jù)異質(zhì)性的問題。數(shù)據(jù)經(jīng)紀人通過收集和銷售數(shù)據(jù)獲得收益，這將帶來數(shù)據(jù)規(guī)模的增大。在網(wǎng)絡里會反映在節(jié)點尺寸更大和更多的數(shù)據(jù)流動性。但是只有客戶和合作伙伴用他們的錢包才能打開付費墻(藍色的圓圈)。數(shù)據(jù)合作最能協(xié)調(diào)經(jīng)濟利益、數(shù)據(jù)獲取和共享的工作，但需要最大程度的信任和解決冷啟動的挑戰(zhàn)

開放數(shù)據(jù)模式

公開數(shù)據(jù)的思想是值得贊揚的，而且這些想法的實現(xiàn)已經(jīng)產(chǎn)生了巨大的成果，比如Allen Institute正在進行的Allen腦圖譜（Allen Brain Atlas）研究。如果組織機構(gòu)公開的數(shù)據(jù)成功地提供了市場可用性，并很好地維護了托管數(shù)據(jù)的基礎(chǔ)設(shè)施，那么這些公開的數(shù)據(jù)的可見性和可訪問性很高的。但是由于數(shù)據(jù)的異質(zhì)性，有效地將不同組織機構(gòu)的數(shù)據(jù)整合在一起會存在很大的延遲。這一點對所有的數(shù)據(jù)交換模型都具有挑戰(zhàn)性，但在開放數(shù)據(jù)模式中尤其明顯。因為開放數(shù)據(jù)的初始意愿往往是來自底層的，而沒有強大的來自高層的關(guān)于如何整理這些數(shù)據(jù)的指導和推動。但這個問題是可以解決的。例如，政府機構(gòu)可以利用資金作為實施標準的杠桿。然而，這并不能解決更大的挑戰(zhàn)。當數(shù)據(jù)的規(guī)模越來越大，生成數(shù)據(jù)、構(gòu)造數(shù)據(jù)集、并為公共使用提供支持需要大量的工作和資金。雖然一些令人欽佩的人受公開數(shù)據(jù)的感召而承擔了這一責任，但他們只是少數(shù)。即使理解并同意數(shù)據(jù)共享的價值，大多數(shù)想要成為數(shù)據(jù)貢獻者的人也不會承擔這些額外的工作。最終，就需要有更多的激勵（來促進數(shù)據(jù)流動）。

數(shù)據(jù)經(jīng)紀人模式

一種明顯的激勵方式是引入金錢獎勵。將數(shù)據(jù)貨幣化具有鼓勵商業(yè)化數(shù)據(jù)收集和銷售以獲取利潤的自然效果。由于該業(yè)務模型與數(shù)據(jù)整合非常吻合，因此相比開放數(shù)據(jù)項目，數(shù)據(jù)經(jīng)紀人模式內(nèi)在地解決了海量數(shù)據(jù)的規(guī)模問題，同時業(yè)務模式還是持續(xù)的，因為數(shù)據(jù)經(jīng)紀人會很積極地去推銷他們的產(chǎn)品。不過雖然數(shù)據(jù)的可見性可能很高，但實際的數(shù)據(jù)可訪問性是隱藏在付費墻之后的。結(jié)果就是數(shù)據(jù)可以在網(wǎng)絡上快速移動，但僅限于付費用戶和合作伙伴之內(nèi)。盡管如此，數(shù)據(jù)經(jīng)紀公司通過為終端應用提供數(shù)據(jù)主干網(wǎng)，已經(jīng)為現(xiàn)代金融和電子商務業(yè)務提供了極有用和有效的驅(qū)動力。

不過數(shù)據(jù)經(jīng)紀模式也面臨著一些限制，特別是與它們處理的數(shù)據(jù)類型有關(guān)。也就是說，由于花費較多，高收購成本的數(shù)據(jù)對于數(shù)據(jù)經(jīng)紀人來說并不那么容易接受。例如，盡管增加醫(yī)療數(shù)據(jù)的共享和交換是毫無疑問得非常有價值，但與從能從網(wǎng)上免費獲取大量的消費者和金融數(shù)據(jù)相比，獲得病人同意的過程很明顯是過于昂貴的。因此，數(shù)據(jù)經(jīng)紀人對醫(yī)療保健和其他高數(shù)據(jù)獲取成本(DAC)的行業(yè)一般都避而遠之，這就導致了這些數(shù)據(jù)的共享很差。思考一下高DAC(因為數(shù)據(jù)是由運行實際物理實驗產(chǎn)生的)的醫(yī)藥、化學和材料等有重要的科學企業(yè)的領(lǐng)域。這些領(lǐng)域正是機器學習的推斷科學能夠帶來巨大進步的領(lǐng)域。但由于缺乏數(shù)據(jù)流動性，它們在爭相采用機器學習技術(shù)時處于非常不利的地位。在數(shù)據(jù)所有權(quán)嚴重分散的地區(qū)，數(shù)據(jù)經(jīng)紀模式的效果最好。但它很難在數(shù)據(jù)壟斷行業(yè)行得通，因為這些行業(yè)是有非常高的數(shù)據(jù)壟斷所帶來的優(yōu)勢和非常少的分享數(shù)據(jù)的激勵。

數(shù)據(jù)合作模式

數(shù)據(jù)合作是一種成員模式，它在協(xié)調(diào)利益一致方面具有強大的優(yōu)勢。在理想情況下，由于成員集體受益于合作，這吸引了新成員的加入，從而進一步擴大了成員的集體利益，由此形成了良性循環(huán)。合作(甚至是合作性競爭)的好處是非常強大的。例如，合作的成員可以形成數(shù)據(jù)的標準，以幫助應對整合異構(gòu)數(shù)據(jù)的挑戰(zhàn)。同時數(shù)據(jù)流動性甚至可能高于經(jīng)紀人模式，因為合作成員可能比心思各異的合伙人更愿意透明地協(xié)調(diào)數(shù)據(jù)交換。也許合作模式最明顯的優(yōu)勢在于協(xié)調(diào)一致地共同投資于數(shù)據(jù)生成和獲取的能力。這為解決如上所述的高DAC、低數(shù)據(jù)流動性行業(yè)所面臨的挑戰(zhàn)提供了一個關(guān)鍵的杠桿。合作社可以集體決定哪些數(shù)據(jù)更重要并集中資源來收集，從而降低獲取這些數(shù)據(jù)的工作量、成本和重復勞動。

像半導體研究公司(SRC)這樣有影響力的行業(yè)協(xié)會提供了一個例子，展示了這種動態(tài)的數(shù)據(jù)合作是如何運作的。SRC是成功的合作性競爭的一個超級好的例子，它是由合作伙伴和競爭對手圍繞著半導體行業(yè)價值鏈組成的。每年，各成員集體制定研發(fā)重點領(lǐng)域，以應對行業(yè)面臨的最關(guān)鍵的技術(shù)挑戰(zhàn)。SRC會資助其中的一些項目，并促進成員公司之間的知識轉(zhuǎn)移。當取得突破性進展的時候，研究結(jié)果會按協(xié)議被共享，并且認為這些技術(shù)是先于競爭的。也就是說，技術(shù)的發(fā)展對于行業(yè)中的每個人來說都是一個共同的福利，而競爭最終應該集中在產(chǎn)品的供應和差異化上。在軟件世界中，Linux基金會提供了另一個有意義的例子。在數(shù)據(jù)世界里，這種“把餅做大”的思考方法將會改變整個行業(yè)，但迄今為止還尚未出現(xiàn)。當前數(shù)據(jù)合作所面臨的主要挑戰(zhàn)是冷啟動問題。在企業(yè)有意愿貢獻有價值的數(shù)據(jù)之前，必須建立信任。實際上看到別人分享數(shù)據(jù)是建立信任的好方法。

數(shù)據(jù)的重要性將會繼續(xù)放大，有時會非常強烈。伴隨著企業(yè)搞清楚如何從數(shù)據(jù)中獲取價值，他們對隱私和安全方面的擔憂同時也會增加。我預計很快就會看到許多創(chuàng)新的解決方案來解決圍繞數(shù)據(jù)所有權(quán)和交易所產(chǎn)生的挑戰(zhàn)。然而，我們不應該預先假定這些問題會在無需思考和工作的情況下自行解決。有太多的可能我們會把這件事做錯。新出現(xiàn)的概率計算范式對人類的進步和新發(fā)現(xiàn)帶來了太多的希望，但這一切可能被數(shù)據(jù)的零和博弈所抑制。

This article originally appeared in English: "Data liquidity in the age of inference".

Roger Chen

Roger Chen正在創(chuàng)建一家新的風投公司。他也是O'Reilly 人工智能大會的聯(lián)合主席之一。在此之前，他曾是O'Reilly AlphaTech Ventures (OATV)的合伙人。在OATV，他投資早期的初創(chuàng)公司，并主要從數(shù)據(jù)、機器學習和機器人技術(shù)領(lǐng)域幫助這些公司。Roger有一段深刻的、有實踐經(jīng)驗的技術(shù)歷史。在從事風險投資之前，他曾是一名工程師和科學家。他在加州大學伯克利分校(UC Berkeley)以博士研究員的身份進行新的納米技術(shù)的研究，并曾在Oracle、EMC和Vicor擔任工程師。他持有波士頓大學的電氣工程專業(yè)的學士學位和加州大學伯克利分校的電氣工程專業(yè)博士學位。