人(rén)工(gōng)智能(néng)®δ已成為(wèi)許多(duō)領域的(de)自(zì)然力量,機(jī)器 ↕(qì)智能(néng)對(duì)我們來(lái)說(shuō)每天都(dōεΩu)變得(de)越來(lái)越重要(yào)。芝↑✔加哥(gē)大(dà)學布斯商學院教授 Se®ndhil Mullainathan 和(hé)斯坦福≠↕×商學院助理(lǐ)教授 Jann Spiσ₽ess 觀察到(dào)機(jī)器(qìδ)學習(xí),特别是(shì)監督機(jī)器(qì)學習(xí),比程↔↔♠序更具經驗性。例如(rú),人(rén)臉識别算(suàn×±α∏)法不(bù)使用(yòng)嚴格的(de)規則來(lái)掃描某些(x∑ λ•iē)像素識别。相(xiàng)反,這(→×α♠zhè)些(xiē)算(suàn)法利用(yòng)大(dà)型φ®照(zhào)片數(shù)據集來(lái)預測人(ré✘>n)臉的(de)外(wài)觀。
另一(yī)個(gè)嚴重依賴這(zhè)種₩♣ 方法的(de)學科(kē)是(shì)計(jì)™Ω♣★量經濟學。計(jì)量經濟學是(shì)在經濟數(shù)據中應用(yòn∞×π>g)統計(jì)程序,對(duì)經濟關系進行(↕xíng)實證分(fēn)析。随著(zhe)機(j↔<ī)器(qì)學習(xí)被用(yòng)→✔<于預測等用(yòng)途的(de)數(shù)∞¥λ§據,經驗經濟學家(jiā)能(néng)否在他(tā)們的(de)工(g♥σ>≈ōng)作(zuò)中使用(yòng)機(jī)器(qì)學習(<δγδxí)工(gōng)具?
個(gè)人(rén)可(kě)以在其中工(gōng>σε)作(zuò)的(de)數(shù)據構成發生(shēng)了(le) β♠§相(xiàng)當大(dà)的(de)變化(huà)。
機(jī)器(qì)學習(xí)使統計(jì)φλ學家(jiā)和(hé)分(fēn)析師(≤δshī)能(néng)夠處理(lǐ)對(duì)于标準估計(jì)方法而言維度 過高(gāo)的(de)數(shù)據,例如(rα₽ú)在線帖子(zǐ)和(hé)評論、圖像和(hé)語言信息。統計€✘(jì)學家(jiā)幾乎無法查看(kàn)回歸↓®♦等過程的(de)此類數(shù)據類型。然而,在 2016 年(niá♥★™n)的(de)一(yī)項研究中,研究人(rén)員(yuán)使用(yò ✘ εng)來(lái)自(zì)谷歌(gē)街(jiē)景的(de)圖像來(lái₽ &®)衡量紐約市(shì)和(hé)波士頓的(de)街(jλ∏iē)區(qū)級收入。此外(wài),2013 年(niá®σ"n)的(de)一(yī)項研究開(kāi)發了(le)一(yī)種↕♠α•模型,可(kě)以使用(yòng)在線帖子(zǐ)來(lái)預測∞♣衛生(shēng)檢查的(de)結果。因此,我們看(kàn)到(dàoσ¥₽)機(jī)器(qì)學習(xí)如(rú)何增強我們今天的(de)研究方式。♣☆÷讓我們更詳細地(dì)看(kàn)看(kàn)這(zhè)個(gè)™✘© 。
傳統的(de)估計(jì)方法,如(rú)普通(tō ♣Ωng)最小(xiǎo)二乘法 (OLS), &已被用(yòng)于進行(xíng)預測。那(nà)麽機(jī≥∏σ)器(qì)學習(xí)如(rú)何适應這(zhè)一(yī)點呢(ne) β?
将 OLS 應用(yòng)于此将需要(yào)對(duì)要(yào← ↑)包含在回歸中的(de)變量進行(xíng)特¥σ↕别策劃的(de)選擇。添加變量之間(jiān)的(de)每個(gè)交≈↕₹β互(例如(rú),基本面積和(hé)卧室數(shù)★$ε™量之間(jiān))是(shì)不(bù)可(kě)行(₩₽¥xíng)的(de),因為(wèi)這(zhè♥✔↓£)将包含比數(shù)據點更多(duō)的(de)回歸變量。但(d♠λ>$àn)是(shì),ML 會(huì)自(zì)動搜索此類交互。這β₩€ε(zhè)裡(lǐ)的(de)一(yī)個★✘(gè)問(wèn)題是(shì),具有($₽yǒu)這(zhè)麽多(duō)交互作(zuò)用(yòng)的(d♣ π e)樹(shù)會(huì)導緻過拟合,即它不(bù)夠靈活以處理(lǐ×φ)其他(tā)數(shù)據集。這(zhè)個(gè)問(wèn)題可(≠σkě)以通(tōng)過稱為(wèi)正則化(huà)的(de)東(dōng)♠↔西(xī)來(lái)解決。在回歸樹(shù)的>β'(de)情況下(xià),需要(yào)根據更差的(de)樣本內₹×(nèi)拟合和(hé)較低(dī)的(de)過度拟₽→€♣合之間(jiān)的(de)權衡來(lái)選擇特定深度的(de)樹(shù♥∏)。這(zhè)種正則化(huà)水(shuǐ)φ∞平将通(tōng)過經驗調整 ML 算(suàn)≈↑←法來(lái)選擇——通(tōng)過在原始樣本÷¶∏中創建樣本外(wài)實驗。
因此,選擇基于 ML 的(de)預測函數(shù)包括兩個(gè)步驟:♠✔∞≈選擇最佳的(de)損失最小(xiǎo)化(huà)函數(shù)和(héΩ↑₽)通(tōng)過經驗調整找到(dào)最佳的≥★☆×(de)複雜(zá)度水(shuǐ)平。樹(shù)∑₩木(mù)及其部門(mén)隻是(shì¶∏&α)這(zhè)樣的(de)一(yī)個(gè)φ↓§例子(zǐ)。Mullainathan ™ 和(hé) Speiss 表示,該技(jì)<γ術(shù)可(kě)以與其他(tā) ML 工(α↑§gōng)具(如(rú)神經網絡)一(yī)起使用('$&&yòng)。對(duì)于他(tā)們的(de)數(shù)據,他(tā&↕)們在包括森(sēn)林(lín)和(hé) LASSO 在內(nèiε∞λ)的(de)各種其他(tā) ML 方法上(shàng)進行(xí<♦¶ng)了(le)測試,發現(xiàn)它們的(de)性能(néβσ£ng)優于 OLS(但(dàn)是(shì),按深度$♠調整的(de)樹(shù)并不(bù)比傳統的(de<) OLS 更有(yǒu)效)。最好(hǎo)Ω≈φ的(de)預測性能(néng)是(shì)由運行(xíng)幾種不(bù<∞€ )同算(suàn)法的(de)集成系統看(kàn)到≠♣←∑(dào)的(de)(論文(wén)運行(xíng)了(le) LΩ§ASSO、樹(shù)和(hé)森(sēn)林(lín))。因此, ↓≈計(jì)量經濟學可(kě)以指導設計(jì)選擇以幫助提高(gāo)預測質δ÷σγ量。
當然,這(zhè)裡(lǐ)有(yǒu)一(yī)些σ£(xiē)與 ML 的(de)使用(yòng)₹™相(xiàng)關的(de)問(wèn)÷≠題。首先是(shì) ML 方法中系數(shù)缺乏标準誤差。¥β£↔讓我們看(kàn)看(kàn)這(zhè)怎麽會(huì)™♠成為(wèi)一(yī)個(gè)問(wèn)題:Mullainathan-$•Spiess 研究将住房(fáng)單元樣本随機(j€π✔±ī)分(fēn)成十個(gè)相(xiàng)等的(de)分(§λε fēn)區(qū)。在此之後,他(tā)們重新估計(jì)≠<了(le) LASSO 預測器(qì)(正則化(huà)器(qα©ì)保持固定)。結果顯示:LASSO 模型在一(yī)個(gè)分♦₹λ(fēn)區(qū)中使用(yòng)的(de)變量★₽ 可(kě)能(néng)在另一(yī)個(gè)分(fēn)區&φ(qū)中未使用(yòng)。在整個(gè)分(fēn) >★區(qū)中幾乎沒有(yǒu)穩定的(de)模式。
這(zhè)對(duì)預測精度沒有(yǒu)太大(dà)影(yǐ♠¶•ng)響,但(dàn)無助于破譯兩個(gè)變量是(shì)否高(gāo)度相®↔¥™(xiàng)關。
在傳統的(de)估計(jì)方法中,這(z₹¥±hè)種相(xiàng)關性反映為(wèi&Ω)顯著(zhe)的(de)标準誤差。因此,雖然我們可(kě)以準确地 §÷(dì)預測房(fáng)價,但(dàn)我們不(bù)能(nén 'g)使用(yòng)這(zhè)樣的(de) ML 模π型來(lái)回答(dá)諸如(rú)餐" 廳數(shù)量等變量在本研究中是(shì)否不(bù)重要(y✔πγào)等問(wèn)題,因為(wèi) LASSO 回歸沒有(yǒu)使用÷★ (yòng)它。正則化(huà)也(yěδ§♣)會(huì)導緻問(wèn)題:它允許選擇不(bù)太複雜(zá)但(d♣&β<àn)可(kě)能(néng)錯(cuò)誤的(de)模型。它還(h↑✔ái)可(kě)能(néng)引起對(duì)遺漏變量偏差的(d>λπ↑e)擔憂。
一(yī)個(gè)這(zhè)樣的(de)類别屬÷β于前面提到(dào)的(de)新類型的(de♦↕)數(shù)據(語言、圖像)。分(fēn)析此類數(shù)據涉及作∞÷<ε(zuò)為(wèi)預處理(lǐ)步驟的(de)預™☆測。這(zhè)在存在經濟結果數(shù)據缺失的(<€de)情況下(xià)尤為(wèi)重要(yà> ☆™o)。 |