在這一的數(shù)據(jù)秀里我采訪了Aurélien Géron。Aurélien是一個(gè)創(chuàng)業(yè)者、數(shù)據(jù)科學(xué)家,還是最近流行的一本新書(shū)《用Scikit-Learn和TensorFlow實(shí)踐機(jī)器學(xué)習(xí)》的作者。Géron的新書(shū)的目標(biāo)讀者是那些想開(kāi)始學(xué)習(xí)機(jī)器學(xué)習(xí)并希望在現(xiàn)實(shí)世界產(chǎn)品里部署機(jī)器學(xué)習(xí)模型的軟件工程師們。
隨著越來(lái)越多的企業(yè)采用大數(shù)據(jù)和數(shù)據(jù)科學(xué)技術(shù),一個(gè)新的群體正在出現(xiàn)。他們有著很強(qiáng)的軟件工程的技能,同時(shí)還擁有使用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的經(jīng)驗(yàn)。開(kāi)發(fā)和構(gòu)建數(shù)據(jù)產(chǎn)品的需求帶來(lái)了大家所說(shuō)的“機(jī)器學(xué)習(xí)工程師”的需求的增長(zhǎng)。他們是既能夠開(kāi)發(fā)數(shù)據(jù)科學(xué)的原型,也能工作于生產(chǎn)系統(tǒng)。

本圖由Ben Lorica繪制
作為一名咨詢機(jī)器學(xué)習(xí)工程師Géron發(fā)現(xiàn)對(duì)于他的業(yè)務(wù)需求很旺盛。他希望他的新書(shū)能成為想進(jìn)入這個(gè)領(lǐng)域的人士的一份重要資料。
下面是本次采訪中的一些重點(diǎn):
由產(chǎn)品經(jīng)理轉(zhuǎn)變?yōu)闄C(jī)器學(xué)習(xí)工程師
我決定加入谷歌,作為YouTube的視頻分類團(tuán)隊(duì)的首席產(chǎn)品經(jīng)理。這個(gè)團(tuán)隊(duì)的目標(biāo)是構(gòu)建一個(gè)能自動(dòng)發(fā)現(xiàn)每個(gè)視頻內(nèi)容的系統(tǒng)。谷歌有一個(gè)巨大的知識(shí)圖譜,其中包括幾億個(gè)主題。我們的目標(biāo)就是把每個(gè)視頻和它所包含的知識(shí)圖譜里的主題建立連接。
我是一個(gè)產(chǎn)品經(jīng)理,我也一直是一個(gè)軟件工程師。我覺(jué)得我有點(diǎn)遠(yuǎn)離技術(shù)了;我想繼續(xù)寫(xiě)代碼。這是第一個(gè)原因。第二個(gè)原因是TensorFlow出現(xiàn)了,在谷歌內(nèi)部有非常多的關(guān)于它的討論。我開(kāi)始使用TensorFlow,然后就愛(ài)不釋手。我知道TensorFlow會(huì)變得很流行。我覺(jué)得寫(xiě)它會(huì)產(chǎn)生一本好書(shū)。
為工程師寫(xiě)一本機(jī)器學(xué)習(xí)的書(shū)
我上了所有能上的課程。有谷歌內(nèi)部的機(jī)器學(xué)習(xí)的課程,那里有不少好老師。我也盡可能地從書(shū)本上學(xué)習(xí),從吳恩達(dá)的Coursera在線課程學(xué)習(xí),以及任何你能想到的資源里來(lái)學(xué)習(xí)機(jī)器學(xué)習(xí)。但是我對(duì)這些書(shū)有些失望。這些書(shū)不錯(cuò),但是有很多書(shū)是研究人員寫(xiě)的,它們沒(méi)有什么實(shí)踐內(nèi)容。我是一個(gè)軟件工程師,我想編程。這就是為什么我決定要寫(xiě)一個(gè)本真正關(guān)于TensorFlow實(shí)踐的書(shū),里面有工程師們能選擇并能立即使用的代碼和例子。另外一點(diǎn)是,盡管有一些面向工程師的書(shū)籍,但是它們的內(nèi)容都盡可能地遠(yuǎn)離基礎(chǔ)的數(shù)學(xué)。另外,很多現(xiàn)有書(shū)籍里面的內(nèi)容只是玩具性的功能、玩具性的代碼。這讓我有些失望,因?yàn)槲倚枰氖悄懿渴鸬缴a(chǎn)系統(tǒng)上的代碼。這些就是整個(gè)這本書(shū)的想法的來(lái)源:為工程師們寫(xiě)一本關(guān)于TensorFlow的書(shū),里面包括可用于生產(chǎn)系統(tǒng)的例子。
業(yè)務(wù)指標(biāo)和機(jī)器學(xué)習(xí)的指標(biāo)是截然不同的
你可以用幾個(gè)月來(lái)調(diào)優(yōu)一個(gè)很棒的分類器,讓它能以98%的精確度來(lái)識(shí)別一個(gè)特定的主題集。但當(dāng)你真正把它上線后才發(fā)現(xiàn)它并沒(méi)有對(duì)你的業(yè)務(wù)指標(biāo)帶來(lái)什么影響。
第一步就是要真正地去理解業(yè)務(wù)指標(biāo),或者業(yè)務(wù)目標(biāo)是什么。你將如何去測(cè)量它們?然后去嘗試看看你能否有機(jī)會(huì)去改進(jìn)一些東西。一個(gè)有趣的技巧就是嘗試人工去完成這個(gè)任務(wù)。讓一個(gè)人去試著完成這個(gè)任務(wù),然后看看是否能帶來(lái)影響。并不是每次都能產(chǎn)生影響,但是如果人可以做到,那么就值得花費(fèi)幾個(gè)月的時(shí)間來(lái)開(kāi)發(fā)一個(gè)自動(dòng)實(shí)現(xiàn)的架構(gòu)了。如果人工不能帶來(lái)提升,那么可能由機(jī)器來(lái)更好地完成它也會(huì)充滿挑戰(zhàn)。經(jīng)管有可能,但是會(huì)比較的艱難。
確保你知道業(yè)務(wù)目標(biāo)是什么,并絕不要偏離它。我見(jiàn)過(guò)有人開(kāi)始改進(jìn)模型,但他們其實(shí)并沒(méi)有合適的指標(biāo)來(lái)觀察是否真正的有提升。聽(tīng)起來(lái)可能很傻,但是你需要做的第一批事情之一就是確保你有一個(gè)明確定義的、且大家都一致同意的測(cè)量指標(biāo)。盡管說(shuō)“我覺(jué)得這個(gè)架構(gòu)會(huì)工作得更好”然后就投入開(kāi)發(fā)工作是非常吸引人的,但這并沒(méi)有帶來(lái)任何實(shí)質(zhì)的提升,因?yàn)槟銢](méi)有一個(gè)明確可用的測(cè)量指標(biāo)。
相關(guān)資料:
- 《用Scikit-Learn和TensorFlow實(shí)踐機(jī)器學(xué)習(xí)》——Aurélien Géron的新書(shū)
- 《什么是實(shí)踐中真正在用的數(shù)據(jù)科學(xué)系統(tǒng)?》——Mikio Braun談如何把數(shù)據(jù)科學(xué)帶入生產(chǎn)系統(tǒng)應(yīng)用
- 深度學(xué)習(xí)視頻集(2016 Strata數(shù)據(jù)大會(huì))
- 《深度學(xué)習(xí)基礎(chǔ)》
- 《用Spark進(jìn)行高級(jí)分析》
Ben Lorica
Ben Lorica是O’Reilly Media的首席數(shù)據(jù)科學(xué)家和數(shù)據(jù)主題內(nèi)容策略的主管。他已經(jīng)在多個(gè)領(lǐng)域里(包括直銷(xiāo)市場(chǎng)、消費(fèi)者和市場(chǎng)研究、精準(zhǔn)廣告、文本挖掘和金融工程)進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析的工作。他之前曾效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。



請(qǐng)訂閱O’Reilly的數(shù)據(jù)秀播客來(lái)更好地把握驅(qū)動(dòng)大數(shù)據(jù)、數(shù)據(jù)科學(xué)和人工智能的機(jī)會(huì)與技術(shù)。也可以在Stitcher,TuneIn,iTunes,SoundCloud,RSS找到我們。
更多內(nèi)容可以參考Strata北京2017的相關(guān)議題。