前回の続きですが、題を変えました。
前回は、動機づけ(モチベーション)に重要な大脳基底核という脳の場所は、同時にさまざまな依存症を起こす原因にもなるという話だった。
今回は、大脳基底核と学習との関係について。
だんだん授業じみた内容になって恐縮だが、実は、私が大学院で脳の研究を始めたときのテーマが、「手続き学習における大脳基底核の役割」というものだったのだ。そういう訳で、ここを端折って進んでしまっては、甚だ義理を欠くことになってしまうである。
まず、大脳基底核とやらがどこにあるか説明しておいた方が良いだろう。基底核(長い名前なので、「大脳」をとって「基底核」と呼ぶことが多い)は、じつは単一の神経核ではない。線条体、淡蒼球、黒質、視床下核といった、大脳の奥深くにある神経核のグループなのである。
図1で 青くなっているところが線条体。図2は、脳の断面図だ。この図で黒質と書いてあるところおよびそこより少し内側の領域に、ドーパミンを神経伝達物質としてもっているニューロン(ドーパミンニューロン)がある。このドーパミンニューロンが、今回の主役だ。
20世紀の終わり頃、このドーパミンニューロンの活動が、「報酬予測誤差」を表現しているという論文が発表された。どういうことかを説明するには、実験の内容を説明するのが早いだろう。
サルの口元に置かれたチューブから、時々ジュースが出るようにしておく。ジュースが出ると、もちろんサルはペロペロ舐める訳だが、その時にドーパミンニューロンの活動を調べると、ジュースが出た直後に、活動が激しくなった。次に、ジュースを出す直前にブザーを鳴らすようにしてしばらく実験を続けると、ドーパミンニューロンの活動は、ブザーが鳴った直後に激しくなり、ジュースが出る頃には平常状態にもどった。さらに、時々いたずらして、ブザーを鳴らしてジュースを出さないようにすると、ジュースが出るはずのタイミングで、ドーパミンニューロンはぴたりと活動を止めた。
つまり、予測していないタイミングで報酬(ジュース)や報酬を予告する信号(ブザー音)が出ると活動が増加し、予測した報酬が出ないと活動が減る。これが、機械学習で言うところの「報酬予測誤差」というもので、自分で学習するコンピュータを作るのに必要な情報だというので、コンピュータサイエンスの人たちが大脳基底核に興味を持つようになった。ドーパミンニューロンのような「いいぞ!」とか「だめだ!」とかいう情報をもらって、それによって出力を調整するプログラムがあれば、人間が正解を与えなくても、コンピュータが試行錯誤しながら正解(あるいは最善の解)を探し出せる訳だ。
私が見せてもらったデモでは、ロボットが手のひらの上に立てた棒を倒さないように維持することを学習していた。(ただし、実物のロボットではなく、CGである。)棒が傾いたときに、どのように手を動かせば棒を倒さずに持ち続けられるかを、コンピュータが試行錯誤で学習するのだ。倒れたら「ダメだった」ということで、運動パラメータを変更する。上手く維持できた時は、「いいぞ!」ということで、そのやり方を続ける。こういうプログラムだと、人が細かく指示を与えなくても、状況に応じたやり方を、コンピュータ自身が経験から学んでいくわけだ。
人間の場合、このような学習は無意識に進行する。結果が良いか悪いかが分かるような行動であれば、やり方を学習しようと思わなくても、それどころか、本人に正しいやり方が説明できなくても、学習は成立する。いわゆる「体で覚える」というやつで、手続き学習とかハビット(癖)学習などと呼ばれる。よく例としてあげられるのは、自転車の乗り方とか鉄棒の逆上がりだが、そういう体を使う技術には限らない。認知的な手続き、つまりは思考の型とか癖のようなものも、同様に無意識のうちに学習される。「熟練者の勘」というやつだ。
ドーパミンニューロンが脱落するパーキンソン病の患者では、そのような認知的手続きあるいはハビットの学習ができなくなる。ちなみに、前回書いた依存症を引き起こすのも、ドーパミン細胞の働きだ。
ドーパミンが、特定の行動を選択させ、強化する。それはモチベーションにも熟練の技にもつながるが、一旦学習が成立すると、たとえ行き過ぎて体に害を及ぼしても、あるいは状況が変わって習得した技術がもはや無用になっても、簡単には消去できない。それは、「中毒」であり、「悪い癖」である。こうなると困ったものである。AIだったら、無用になったプログラムは削除すれば良いのだろうけど。
(※図1、図2:Kandel他 Principles of Neural Scienceより一部改変。)
(by みやち)