機械学習を世界一わかりやすく説明するよーーーん

。機械学習について人々が話しているのを聞いたことがあるが、それが何を意味するのかぼんやりとしか分からないということはないだろうか?同僚との会話で頷くのにうんざりしていませんか?それを変えましょう!
この記事は、機械学習に興味はあるけれど、何から始めたらいいのかわからないという人のためのものだ。ウィキペディアの記事を読んでみたものの、挫折して諦めてしまった人も多いだろう。それがこれだ。

ゴールは誰にでもアクセスできること、つまり一般論が多いということだ。しかし、そんなことはどうでもいい。これでMLに興味を持つ人が増えれば、ミッション達成だ。

機械学習とは、問題に特化したカスタムコードを書かなくても、データの集合について興味深いことを教えてくれる汎用的なアルゴリズムがあるという考え方だ。コードを書く代わりに、一般的なアルゴリズムにデータを与えると、そのデータに基づいて独自のロジックを構築する。

例えば、アルゴリズムの一種に分類アルゴリズムがある。データを異なるグループに分類することができる。手書きの数字を認識するのに使われるのと同じ分類アルゴリズムを、コードを一行も変えることなく、電子メールをスパムとそうでないものに分類するのにも使うことができる。同じアルゴリズムでありながら、異なる学習データを与えることで、異なる分類ロジックを導き出すのだ。
「機械学習」とは、このような一般的なアルゴリズムの多くをカバーする包括的な用語である。

機械学習アルゴリズムは、教師あり学習と教師なし学習の2つに大別される。この違いは単純だが、実に重要だ。

あなたが不動産業者だとしよう。あなたのビジネスは成長しているので、あなたはあなたを助けるために新しい研修生エージェントを雇う。しかし、問題があります – あなたは家を一目見て、家の価値が何であるかについてのかなり良いアイデアを持っていることができますが、あなたの研修生はあなたの経験を持っていないので、彼らは彼らの家の価格の付け方がわからない。

研修生を助けるために(そして休暇のために自分を解放するために)、あなたは、家の大きさ、近所など、そして似たような家がいくらで売れたかに基づいて、その地域の家の価値を見積もることができる小さなアプリを書くことにした。

そこであなたは、3ヶ月間、誰かがあなたの街で家を売るたびに、その記録を書き留める。それぞれの家について、寝室の数、広さ(平方フィート)、近所など、たくさんの詳細を書き留める。しかし最も重要なのは、最終的な売却価格を書き留めることだ:
この学習データを使って、あなたの地域の他の家がどれくらいの価値があるかを推定できるプログラムを作りたい:
これは教師あり学習と呼ばれる。つまり、あなたは問題の答えを知っており、そこから逆算してロジックを考えることができる。

アプリを作るには、それぞれの家に関するトレーニングデータを機械学習アルゴリズムに送り込む。アルゴリズムは、数字がうまくいくためにはどのような計算が必要かを見つけ出そうとする。
これは、算数記号をすべて消した数学のテストの解答用紙を持っているようなものだ:
ここから、テストにどんな算数の問題が出題されたかがわかるだろうか?あなたは、右の答えを得るために、左の数字を使って「何かをする」ことになっていることを知っている。
教師あり学習では、コンピューターにその関係を計算させるのだ。そして、この特定の問題集を解くのに必要な計算がわかれば、同じタイプの他の問題にも答えることができる!

不動産業者の例に戻ろう。それぞれの家の販売価格を知らなかったとしたら?知っているのはそれぞれの家の大きさ、場所などだけだとしても、とてもクールなことができることがわかった。これを教師なし学習と呼ぶ。
これは、誰かがあなたに紙に書かれた数字のリストを渡して、”この数字が何を意味するのかよくわからないけど、パターンやグループ分けがあるかどうかならわかるかもしれないよ、頑張って!”と言うようなものだ。

では、このデータで何ができるだろうか?手始めに、データから異なる市場セグメントを自動的に識別するアルゴリズムができるかもしれない。地元の大学に近い地域の住宅購入者は、ベッドルームの多い小さな家が好きだが、郊外の住宅購入者は3ベッドルームの広々とした家が好きだということがわかるかもしれない。このような異なる種類の顧客について知ることで、マーケティング活動を方向づけることができる。

もうひとつできることは、他とは大きく異なる異常値住宅を自動的に特定することだ。もしかしたら、そのような異常値住宅は巨大な豪邸かもしれず、その地域に優秀な営業マンを集中させることができる。
この記事の残りでは教師あり学習に焦点を当てるが、それは教師なし学習の有用性や面白さが低いからではない。

実際、教師なし学習はアルゴリズムが良くなるにつれてますます重要になってきている。なぜなら、データに正解のラベルを付けなくても使えるからだ。

余談:機械学習アルゴリズムには他にもたくさんの種類がある。しかし、これはかなり良いスタート地点だ。

人間であれば、脳はどんな状況にも対応でき、明示的な指示がなくてもその状況に対処する方法を学ぶことができる。長い間住宅を販売していれば、住宅の適正価格、その住宅を販売する最良の方法、興味を持つであろう顧客の種類などについて、本能的に「感覚」を持つようになる。強力なAI研究の目標は、この能力をコンピューターで再現できるようにすることだ。

しかし、現在の機械学習アルゴリズムはまだそれほど優れているとは言えない。この場合の「学習」のより良い定義は、「いくつかの例題データに基づいて、特定の問題を解く方程式を見つけ出すこと」かもしれない。
残念なことに、「いくつかの例題データに基づいて、特定の問題を解く方程式を導き出す機械」というのは、あまりいい名前ではない。だから私たちは代わりに「機械学習」に行き着いた。

もちろん、もしあなたがこれを50年後の未来に読んでいて、私たちが強いAIのアルゴリズムを解明していたら、この記事全体が少し古めかしく感じるだろう。読むのをやめて、ロボットの召使いにサンドイッチを作ってくるよう言いに行くかもしれない、未来の人間よ。

Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です