2016-03-04

以演算法取代人類直覺的系統表現優於人類團隊

System that replaces human intuition with algorithms outperforms human teams
http://phys.org/news/2015-10-human-intuition-algorithms-outperforms-teams.html

By Larry Hardesty
October 16, 2015

大數據分析由隱藏模式(patterns)的搜尋所組成,而那有某種預測力量。但要選擇資料的那種「特徵(features)」來分析,通常需要一些人類的直覺。在一個資料庫中包含,比方說,各種促銷方案的開始與結束日期以及每週獲利,而關鍵資料也許不是日期本身,而是之間的這段時期,也有可能不是總收益而是這段期間的平均獲利。

MIT 研究者試圖將人這個元素自大數據分析中取出。他們的新系統不僅搜尋模式還能夠設計特徵集合(feature set)。為了要測試其系統的第一個原型,他們讓它參加三項資料科學競賽,在競賽中,它與人類團隊比賽在不熟悉的資料集合中尋找預測性模式(predictive patterns)。在參與三項競賽的 906 個團隊中,研究者的「Data Science Machine」最後領先了 615 個團隊。

這三項競賽的其中二項,Data Science Machine 的預測以 94% 與 96% 的準確度,成為獲勝提交(winning submissions)。在第三項中,這個數字是比較適切的 87%。不過,這些人類團隊通常要花幾個月的時間在他們的預測演算法上,而 Data Science Machine 每次只要花 2 到 12 個小時來產生其輸入。

"我們將 Data Science Machine 視為一種人類智慧的自然補足(a natural complement to human intelligence)," Max Kanter 表示,他的 MIT 電腦科學碩士論文是 Data Science Machine 的基礎。

"那兒有許多資料等著被分析。而它們現在只是待在那裡,啥事都沒做。所以,我們或許能想出某種解決方法,那至少會讓我們開始進行,至少讓我們開始動起來。"


界線之間

Kanter 與其論文指導者 Kalyan Veeramachaneni,MIT CSAIL 的研究科學家,在一篇下週將由 Kanter 在 IEEE International Conference on Data Science and Advanced Analytics 上面發表的論文中描述了 Data Science Machine。

Veeramachaneni 在 CSAIL 的所有小組中共同領導 Anyscale Learning,那將機器學習技術應用在大數據分析的實際問題中,例如測定風電農場場址的發電量,或預測那些學生有從線上課程輟學的風險。

"我們從我們經驗中所觀察到的東西,為業界解決了一些資料科學問題,那是其中非常關鍵的一步,稱為特徵工程(feature engineering)," Veeramachaneni 表示。"你要做的第一件事是確認從資料庫或組成中取出那些變數,而從這些變數中,你得要提出許多點子。" 例如,在輟學的預測中,經證明,二個關鍵指標是在截止時間之前,一個學生在解答一組問題時花的時間有多久以及這位學生與其同學相較花多少時間在課程網站上。MIT 的線上學習平台 MITx 並沒有記錄這二種統計數據,不過它所收集的資料能夠推斷出這些。


特徵化組成(Featured composition)

Kanter 與 Veeramachaneni 使用一些技巧來製造用於資料分析的候選特徵。一個是利用資料庫設計中固有的結構化關係。資料庫中通常將不同類型的資料儲存在不同表格中,利用數值識別符(numerical identifiers)指出它們之間的相關性。Data Science Machine 會追蹤這些相關性,把它們當作特徵建構的一個線索。

例如,其中一個表格可能列出零售物品與它們的價格,另一個可能列出個別客戶採購中包含了哪些物品。 Data Science Machine 可能一開始將價格從第一個表格中匯入到第二個。接著,會在第二個表格中找出購買數量相同的數個不同物品,從這些物品的關聯性尋找線索。它可能會執行一些操作,產生候選特徵:每次訂購的總成本、每次訂購的平均成本、每次訂購的最小成本等等。當數值識別符擴散(proliferate)到這些表格後,Data Science Machine 會使它們彼此重疊進行操作,尋找最小平均、總數的平均等等。

它也會查看所謂的類別型資料(categorical data),那顯然會受限於有限的數值範圍,例如一週有幾天或品牌名稱。它接著會拿現有的特徵來除這些類別產生更進一步的特徵候選者。

一旦它產生了一個候選者陣列,它會確認這些值當中的那些看起來相關,從而減少了候選者的數量。接著,它開始以這個精簡過的特徵集合來測試樣本資料,以不同的方式來重組它們,將它們產生的預測準確性最佳化。

"應用尖端研究來解決實際問題,Data Science Machine 是這些令人難以置信的研究計畫的其中一個,開啟了看待問題的全新方法," Margo Seltzer 表示,哈佛大學電腦科學教授 Margo Seltzer 表示,他並未參與研究。"我認為,他們所做的將很快成為標準 -- 非常快!"

※ 相關報導:

* Deep Feature Synthesis: Towards Automating Data Science Endeavors (PDF 檔)
http://groups.csail.mit.edu/EVO-DesignOpt/groupWebSite/uploads/Site/DSAA_DSM_2015.pdf

人工智慧在2029 年可與人類較量?
史丹佛的「自主」直升機自己學飛
第一款人類與AI 軟體合作的線上遊戲
機器學習演算法能使化學反應更聰明
第二次機器時代

擴增實境:科幻或真實
3D 圖形、實境「即時」融合
以多重透鏡顯示器呈現3D 深度(含影片)

沒有留言: