「科普周」機器學習掃盲篇（一）

歡迎大家關注公眾號【雜湊大資料】

最近大家反應說公眾號的東西太難啦~看到一般看不懂就關掉了，估計下次也不會打開了。所以昨天小希希呀，希小妹啊等等雜湊們進行了很激烈的討論，做了個極其重要的決定那就是：

接下來我們的內容將給大家從最基礎的東西講起！！！這一週以及接下來幾周我們主要是進行知識點全面掃盲，包括機器學習、資料爬蟲和分析、影象識別、自然語言處理、機器人程式設計、人工智慧等知識概念和應用普及。

畢竟每個進來的孩紙都是抱著做“更好的自己”這樣的初衷，先給每位努力的小可愛一個抱抱~~所以現在希望大家緊緊跟著我們的腳步來，我們慢慢地努力地跟大家一起不放過任何一個知識點！！！

並且我們還開設了答疑專欄~~有任何不懂的可以在文章後面or公眾號後臺留言，我們會透過公眾號私信你，或是直接回答你，或是在下一期的講解裡集中回答~千萬不要怕自己提出的問題很幼稚，我們需要你的提問和建議！！

今天要給大家介紹的是“機器學習的掃盲篇（一）—機器學習的概念和分類”~~文章不長，想從基礎學習的同學，需要靜下心來跟上哦！！

機器學習的概念

機器學習（machine learning），從字面上來看可分為

機器

和

學習

兩部分，其中機器是指電腦、pad、手機等一切可以處理資料的電子裝置（計算機）；

學習

是指機器為獲得解決問題能力所做出的行為（學習是智慧生物的基本特徵之一），

即設計一些讓計算機可以自動“學習”的演算法，以便從輸入（輸出）的資料中習得經驗獲取規律，進一步將其轉換成知識，利用知識而完成特定的預測和判斷任務

。

在這裡機器是學習的承擔者，而學習是機器執行的具體行為。機器學習的目的就是讓機器可以像人類一樣透過不斷的學習而具備解決問題的能力，這種能力可以體現在演算法設計和資料模型構建中。可完成的任務包括分類、聚類、迴歸、降維、推薦、密度估計等新的輸出。

機器學習的分類

對於機器而言，無論文字、圖片、音訊、影片等都是一種資料，根據給定

資料集

的不同，機器學習可以分為

有監督學習、無監督學習和強化學習

。

有監督的學習

是指，在訓練機器學習的過程中，給定機器完整已知資料的輸入（資料特徵）和輸出結果（資料迴歸值或類別），機器學習後可以對新的輸入特徵進行預測得到新的輸出結果。

給大家舉個例子：

以我們之前做的波士頓房價

視覺化迴歸預測

來看，如果告訴機器一棟房子所在地區的住宅地比例、環保的指標、自住的比例、便利的指數、以及不動產稅率等指標，以及不同指標下房屋的價格，這樣機器就能學習這些指標的特點和房價的關係，而給出當前指標下具體的房屋價格。但是這個價格準確率的問題要看機器透過不同模型和演算法學習效果如何。（之前已嘗試過線性迴歸模型、決策樹模型等，不同模型對應的預測結果完全不同的，這也表示出了機器學習程度的不同）。

以機器學習實現

鳶尾花的分類

來看，我們只需給機器提供鳶尾花萼片和花瓣的長度和寬度資料，以及花的類別，機器便可以透過學習KNN演算法、邏輯迴歸演算法、決策樹演算法等，來判斷新生長出的鳶尾花究竟是屬於山鳶尾、變色鳶尾還是維尼亞鳶尾。這些都是有監督的機器學習方式。

無監督的機器學習，是僅提供輸入特徵即鳶尾花萼片和花瓣的長度和寬度資料，機器在學習過程中並不知道其結果是否正確。但是透過聚類、神經網路等演算法它會自動從這些特徵中找出其潛在類別規則，而將鳶尾花分為三大類。

有監督的機器學習

（背景為資料集的預測結果）

無監督的機器學習

強化學習

是基於監督和無監督學習兩者之間，其中機器在學習階段和有監督學習是一樣的，資料特徵和資料結果會完整輸入提供給資料。但等到測試階段，只是會告訴機器這次測試的結果是否達到了預期，也就是預測的房子價格和實際價格是否是差很多。

只有預測差值符合要求後才會停止學習，否則機器將在學習中動態調整預測演算法引數，來達到預期。

一些總結

總而言之機器學習要實現

從規律到知識的提煉

，進而得出

輸入特徵和目標之間的對映關係

（由模型演算法定義的演算法空間），這種對映關係就是計算機透過學習大量例項資料得出的。因此機器學習雖然包括資料和演算法，但最主要的部分還是資料，資料是機器學習成為可能的關鍵因素。在使用機器學習中也需要注意：

首先需要了解機器學習只能在與訓練資料同分布的資料上有效，其並非適用於所有的資料集，因此需要對訓練資料和實際資料之間統計上的不對稱性保持足夠的警覺，同時需要保持模型不斷地被訓練讓它不落伍。

其次，如果機器學習演算法出現偏差，在學習過程中也可能會持續的收集新的資料來不斷強化這一偏差。要時刻保持懷疑的態度來使用機器學習演算法，並在應用的過程中進行嚴格的檢查。

最終，我們需要明白無論何種學習方式都不是萬能的，需要結合現實應用場景在一定的範圍內使用機器學習技術，而且可能更多的需要在資料清洗和變換上花進行不斷嘗試，以便讓機器可以更好的從資料中學習。