91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

數(shù)據(jù)隱私和機(jī)器學(xué)習(xí)時(shí)代下的數(shù)據(jù)收集和數(shù)據(jù)市場(chǎng)
盡管模型和算法占據(jù)了大部分媒體報(bào)道版面,現(xiàn)在正是考慮針對(duì)數(shù)據(jù)構(gòu)建工具的好時(shí)機(jī)。
編者注:2019年6月18-21日在北京舉行的人工智能大會(huì)議題征集已經(jīng)開始。

在這篇文章中我分享5月底我在倫敦Strata數(shù)據(jù)會(huì)議上演講中使用的幻燈片和筆記。 我的目標(biāo)是提醒數(shù)據(jù)社區(qū),數(shù)據(jù)本身中存在著許多有趣的機(jī)遇和挑戰(zhàn)。 近期新聞報(bào)道的重點(diǎn)主要集中在算法和模型,尤其是深度學(xué)習(xí)日益增長(zhǎng)的應(yīng)用領(lǐng)域。由于大型深度學(xué)習(xí)架構(gòu)非常依賴大量數(shù)據(jù),這使得數(shù)據(jù)的重要性日益增長(zhǎng)。 在這篇簡(jiǎn)短的演講中,我描述了一些關(guān)于數(shù)據(jù)是如何被估值、收集和共享的趨勢(shì)。

Figure1-371e64b763819820494a857742249291

數(shù)據(jù)的經(jīng)濟(jì)價(jià)值

眾所周知,公司非常重視數(shù)據(jù),以及那些產(chǎn)生關(guān)鍵數(shù)據(jù)特征的數(shù)據(jù)管線。 在機(jī)器學(xué)習(xí)(ML)廣泛被采納的的早期階段,公司專注于確保他們有足夠數(shù)量的有標(biāo)注的(訓(xùn)練)數(shù)據(jù),把這些數(shù)據(jù)應(yīng)用于他們想要解決的問題。 然后,他們會(huì)研究可用于擴(kuò)充現(xiàn)有數(shù)據(jù)的附加數(shù)據(jù)源。 實(shí)際上,在許多從業(yè)者眼中,數(shù)據(jù)仍然比模型更有價(jià)值(許多人公開談?wù)撍麄兯褂玫哪P停麄儾辉敢庥懻撍麄優(yōu)檫@些模型輸入了什么特征。

如果數(shù)據(jù)很珍貴,我們?cè)撊绾卧u(píng)估其價(jià)值呢? 對(duì)于我們之中構(gòu)建機(jī)器學(xué)習(xí)模型的人,我們可以通過檢查獲取訓(xùn)練數(shù)據(jù)的成本來估算數(shù)據(jù)的價(jià)值:

Figure2-23922e449b161e7a4970164288580d14

  • 在數(shù)據(jù)科學(xué)工作中,我們中不少人在不同程度上已經(jīng)開始使用付費(fèi)的外部數(shù)據(jù)源,以擴(kuò)充我們已有的數(shù)據(jù)集。 Bloomberg,Nielsen,Dun&Bradstreet,以及Planet Labs這種新進(jìn)入行業(yè)的數(shù)據(jù)提供商圍繞許多數(shù)據(jù)集提供數(shù)據(jù)訂閱服務(wù)。
  • 我們還確切地知道,從頭開始構(gòu)建訓(xùn)練數(shù)據(jù)集需要多少成本。 隨著類似深度學(xué)習(xí)等大量需要數(shù)據(jù)方法的興起,對(duì)Figure Eight和Mighty AI等公司提供服務(wù)的需求不斷增長(zhǎng),這些服務(wù)可幫助公司對(duì)圖像,視頻和其他數(shù)據(jù)源進(jìn)行標(biāo)注。
  • 對(duì)于特定的數(shù)據(jù)類型(如圖像),一些新興的公司,如Neuromation,DataGen和AI.Reverie等,可以通過生成人工合成數(shù)據(jù)的工具,幫助企業(yè)降低采集訓(xùn)練數(shù)據(jù)的成本。

我們可以收集數(shù)據(jù)價(jià)值的另一種方法,是查看那些知名度主要來自于其擁有數(shù)據(jù)集的初創(chuàng)公司的估值。 我列舉了不少媒體行業(yè)的例子,不過也有很多新的創(chuàng)業(yè)公司收集航拍圖像,天氣數(shù)據(jù), 體育賽中數(shù)據(jù)和物流數(shù)據(jù)等。 如果您是一位有抱負(fù)的企業(yè)家,請(qǐng)注意,您可以通過專注于數(shù)據(jù)來建立有趣且高估值的公司。

Figure3-cd5ce728561cdc1953204641f43efb30

數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師需要更多數(shù)據(jù)的原因,是他們可以因此衡量數(shù)據(jù)對(duì)其數(shù)據(jù)產(chǎn)品的影響。 這導(dǎo)致了另一種可以估計(jì)數(shù)據(jù)價(jià)值的方法:通過觀察新數(shù)據(jù)源對(duì)現(xiàn)有數(shù)據(jù)產(chǎn)品的增量影響來核定數(shù)據(jù)價(jià)值。

Figure4-748c277f14504f2b2d44d1715fb02fb3

依靠外部數(shù)據(jù)并非沒有風(fēng)險(xiǎn)。 安全漏洞和其他技術(shù)原因可能會(huì)導(dǎo)致您的數(shù)據(jù)供應(yīng)中斷。 更可能的原因是,由于對(duì)數(shù)據(jù)收集和數(shù)據(jù)隱私的顧慮變得日益強(qiáng)烈,共享和銷售數(shù)據(jù)的行為受到更多的審查。 訪問權(quán)限的丟失也可間接證明數(shù)據(jù)是多么有價(jià)值:

  • 數(shù)據(jù)事故對(duì)公司市值的影響是可觀察到的
  • 在您所建立的機(jī)器學(xué)習(xí)模型上發(fā)生了數(shù)據(jù)源“失去訪問權(quán)”的影響是可以度量的

Figure5-d9d30ceb2e8704ed2ee8e56fd134d51d

數(shù)據(jù)隱私的現(xiàn)狀:來自關(guān)鍵利益相關(guān)者的觀點(diǎn)

最近幾個(gè)月,圍繞數(shù)據(jù)隱私和數(shù)據(jù)收集,我們的期望和態(tài)度發(fā)生了變化。 讓我們從一些關(guān)鍵利益相關(guān)者的角度來審視當(dāng)前的情況:這些利益相關(guān)者包括用戶,監(jiān)管機(jī)構(gòu),公司和數(shù)據(jù)專業(yè)人士。

用戶對(duì)“什么可能發(fā)生在他們自己產(chǎn)生的數(shù)據(jù)”的期望已經(jīng)發(fā)生了變化。 根據(jù)最近的頭條新聞( Facebook和Cambridge Analytica),公眾對(duì)數(shù)據(jù)收集,存儲(chǔ)和共享已經(jīng)變得更加關(guān)注。溝通已經(jīng)不局限于數(shù)據(jù)隱私,用戶的訴求包括:

  • 更大的透明度 – 他們想知道哪些數(shù)據(jù)正在被收集,又共享給了誰(shuí)
  • 控制他們的數(shù)據(jù)如何被共享和使用
  • 限制數(shù)據(jù)共享的屬性和持續(xù)時(shí)間

許多國(guó)家和地區(qū)的監(jiān)管機(jī)構(gòu)正在推進(jìn)具有里程碑意義的立法:針對(duì)那些部署數(shù)據(jù)分析產(chǎn)品的公司,歐洲( GDPR)和加利福尼亞( 消費(fèi)者隱私法案)將“用戶控制”和“設(shè)計(jì)隱私”等概念置于最高優(yōu)先級(jí)。 澳大利亞最近在其現(xiàn)有數(shù)據(jù)隱私規(guī)則中添加了數(shù)據(jù)泄露通知。

數(shù)據(jù)隱私和數(shù)據(jù)貨幣化的立場(chǎng)正在成為一些小型和大型企業(yè)的競(jìng)爭(zhēng)切入點(diǎn)。 特別值得一提的是蘋果公司,它正在提高數(shù)據(jù)隱私和收集的標(biāo)準(zhǔn),不過其他公司也紛紛效仿。 展望未來,一些公司將不得不調(diào)整其服務(wù) – 不僅要考慮到監(jiān)管,也要考慮用戶不斷變化的期望。

數(shù)據(jù)專業(yè)人員也非常重視數(shù)據(jù)隱私問題。 許多人已經(jīng)在他們的公司內(nèi)部實(shí)施了培訓(xùn)計(jì)劃,有些人已經(jīng)在探索新的隱私保護(hù)工具和方法論來構(gòu)建數(shù)據(jù)分析產(chǎn)品。 除了隱私,更進(jìn)一步的是,下一代數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師正在接受培訓(xùn)并參與關(guān)于道德的討論。 許多大學(xué)提供了相關(guān)課程,像加州大學(xué)伯克利分校提供了多門課程。

Figure6-09d7153b1880855c046d45927b408f69

隱私時(shí)代的數(shù)據(jù)流動(dòng)性:新型數(shù)據(jù)交換

處于一個(gè)用戶對(duì)對(duì)數(shù)據(jù)隱私和用戶控制的認(rèn)知被提高的時(shí)期,我們?cè)谶@個(gè)背景下進(jìn)行公司運(yùn)營(yíng)。 在機(jī)器學(xué)習(xí)模型需要如此多數(shù)據(jù)的時(shí)代,我們?cè)撊绾卫^續(xù)提供數(shù)據(jù)的流動(dòng)性?

許多機(jī)構(gòu)都在維護(hù)數(shù)據(jù)孤島:數(shù)個(gè)獨(dú)立系統(tǒng)在內(nèi)部團(tuán)隊(duì)間限制彼此的訪問,還有一些系統(tǒng)存儲(chǔ)著他們不愿意與外部用戶共享數(shù)據(jù)。 與此同時(shí),公司通常會(huì)擁有愿意與他人分享的數(shù)據(jù)。 問題是,沒有方便的機(jī)制或通用格式能讓數(shù)據(jù)共享變得更容易。 想象一下如果有工具和機(jī)制(通過公共數(shù)據(jù)標(biāo)準(zhǔn))使這些數(shù)據(jù)集可共享會(huì)是怎樣的情形。 這意味著,獨(dú)立的數(shù)據(jù)孤島現(xiàn)在可以建立在外部數(shù)據(jù)的堅(jiān)實(shí)基礎(chǔ)上,所有參與組織都可以使用這些數(shù)據(jù)孤島來增強(qiáng)其ML模型。

Figure7-1106e833a6e11529be19df493d588629

2017年的一篇文章中Roger Chen描述了公司在構(gòu)建數(shù)據(jù)交易所(或“數(shù)據(jù)網(wǎng)絡(luò)”)時(shí)采取的三種主要方法:

  • 開源數(shù)據(jù) :缺乏市場(chǎng)激勵(lì)使得開源數(shù)據(jù)模型難以線性擴(kuò)展,并且它們尤其容易受到數(shù)據(jù)異構(gòu)性的挑戰(zhàn)。
  • 數(shù)據(jù)合作 :需要最大程度的信任,因此受到冷啟動(dòng)的挑戰(zhàn)。 話雖如此,為生物醫(yī)學(xué)領(lǐng)域中的公共數(shù)據(jù)標(biāo)準(zhǔn)建立工具已經(jīng)有了長(zhǎng)足的進(jìn)步,在該領(lǐng)域中學(xué)到的經(jīng)驗(yàn)教訓(xùn)應(yīng)該轉(zhuǎn)化到其他領(lǐng)域中。
  • 數(shù)據(jù)中間商 :參與者獲得匯總和銷售數(shù)據(jù)的經(jīng)濟(jì)回報(bào),潛在地可以帶來更大的規(guī)模和更好的流動(dòng)性。

Figure8-7de0e40f59fef10f8f8451f133d9748f

我最近遇到的一個(gè)趨勢(shì)是去中心化的數(shù)據(jù)網(wǎng)絡(luò)。這個(gè)想法是,建立使用基于區(qū)塊鏈和分布式賬本的技術(shù),以及使用加密貨幣的激勵(lì)結(jié)構(gòu),建立去中心化的數(shù)據(jù)交易所。 這個(gè)領(lǐng)域的一些初創(chuàng)公司是專門針對(duì)機(jī)器學(xué)習(xí)的 —— 他們希望數(shù)據(jù)科學(xué)家能夠“在不看數(shù)據(jù)的情況下訓(xùn)練模型”。

最有趣的原創(chuàng)性思考來自于舊金山一家名為Computable Labs的創(chuàng)業(yè)公司。 他們正在構(gòu)建開源、去中心化的基礎(chǔ)架構(gòu)允許公司安全地共享數(shù)據(jù)和模型。 在此過程中,他們希望“使區(qū)塊鏈網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)計(jì)算兼容”。

結(jié)束語(yǔ):一些思考

Figure9-c71fa534fe12990a53e9f720e0a4b863

盡管模型和算法占據(jù)了大部分媒體報(bào)道版面,現(xiàn)在正是考慮針對(duì)數(shù)據(jù)構(gòu)建工具的不錯(cuò)時(shí)機(jī)。 我們正處于機(jī)器學(xué)習(xí)模型需要大量數(shù)據(jù)的時(shí)代,許多公司才剛剛開始部署機(jī)器學(xué)習(xí)模型。 安全和隱私的核心主題一直存在,但還有許多其他引人注目且具有挑戰(zhàn)性的問題和機(jī)會(huì)涉及道德,經(jīng)濟(jì)價(jià)值,數(shù)據(jù)流動(dòng)性,用戶控制和去中心化。

相關(guān)資源:

Ben Lorica

本· 羅瑞卡是O'Reilly的首席數(shù)據(jù)科學(xué)家和關(guān)于數(shù)據(jù)方面的內(nèi)容策略主管。在多個(gè)領(lǐng)域里(包括直銷市場(chǎng)、消費(fèi)者和市場(chǎng)研究、精準(zhǔn)廣告、文本挖掘和金融工程),他曾經(jīng)進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的工作。他曾效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。

虛擬現(xiàn)實(shí)(圖片來源:Pixabay