HAQM Web Services ブログ
製造業の設計開発領域での AI 活用 – 「身体性」の原理から考える(前編)
こんにちは。製造業のお客様を技術支援しているソリューションアーキテクトの中西です。
生成 AI が普及するなかで、設計領域のユースケースとして「仕様書に記載された要件から図面や設計パラメータを出力したい」、「図面に表現された部品を理解した AI のインサイトが欲しい」といったご相談をお客様からいただくことがあります。機械設計の経験があり機械が大好きな筆者としても、お客様のご期待に応えたい気持ちが強いですが、残念ながらこれらのユースケースに対して現状の AI が大活躍することは「原理的に」難しいです。
では、なぜできないのか? 将来的にできるようになるのか? このあたりが気になるところかと思います。本ブログでは前編・後編に分けて、原理的な観点からそこに迫ります。これにより、普及が進む生成 AI の活用シーンを一緒に見極め、効果的な投資の一助になれたら幸いです。
- 前編:
- 「身体性」という概念を通して、現代の AI がハードウェア設計のコア業務で活躍しにくい理由を原理的に解き明かします。
- 後編:
- ハードウェア開発とソフトウェア開発の本質的な違いを明らかにしつつ、製造業のどの領域で AI が効果的に活用できるのかを探ります。
現在主流の AI のパラダイムとその限界
これまで機械学習 (ML) は、教師あり学習ではラベルつきデータを学習して分類問題を解いたり、教師なし学習ではラベルなしデータに内在するパターンや規則性を明らかにしたりする技術でした。このパラダイムは、大規模言語モデル (LLM) が台頭しても大きく変わることはありません。LLM は非常に大規模なラベルなしデータを学習した結果得られた自然言語の潜在的な確率的パターンに基づいて応答します。
人間は柔軟で臨機応変な行動能力を持ち、「知能」を持っていると言われます。では、現在主流のこれらの AI (Artificial Intelligence) は、人間と同様の知能 (Intelligence) と呼べるのでしょうか?
この問いは、AI 研究や認知発達科学において非常に重要です。以前から一部の研究者はこの課題感を持っており、知能の発現には「身体性」が必要と唱えています。本ブログでは身体性という切り口から、設計領域での生成 AI 活用を見ていきたいと思います。
AI と「身体性」
身体性とは?
身体性 (embodiment) とは、知能や認知プロセスが単に脳や計算機の中だけで起こるのではなく、身体全体と環境との相互作用を通じて形成されるという考え方です。知能を持つシステムを構築するために、環境と相互作用する「身体」が必要であることは、これまでの認知科学や発達心理学で明らかになっています。
従来の AI 研究では、人間の知能を推論、記憶などの機能ごとに分解して、それぞれの入力と出力の関係をモデル化しようとしてきました。このアプローチに基づく以上、人間のような真に柔軟で臨機応変な知能を実現することはできません。なぜでしょうか?
知能と身体性の関係
人間は発達の過程で、身体と外界との相互作用を通じて学習し、抽象的概念や推論能力が自発的に発達するプロセスを経ます。一方、現代の AI は、開発者が論理規則や統計モデルとして構築した言語的知識の帰結のみを明示的にシステムに埋め込むアプローチとなっています。
「認知ロボティクス」に関する論文ではこう表現されています:
発達システムは「流れ」であり、ある瞬間の機能や構造は「渦」といえる。従来の AI や認知ロボティクスの方法は、静水中に渦の型を入れたあと、適当な水流を起こして意図した渦の発生と維持を期待することに近い。
論文の表現を借りるなら、真の知能は「川の流れ」のようなもので、その中に生まれる「渦」が私たちが観察できる知的な振る舞いといえます。これに対して現代の AI は、あらかじめ「渦の形」を決めておいて、それらしい動きが出るように水を流すようなものでした。でも、本物の川の渦はそうやって作られるものではありませんよね。
人間は発達の過程で、身体と外界との相互作用を通じて学習し、抽象的概念や推論能力が自発的に発達します。この過程は教師なし学習であり、学習結果は入力のみに依存するので、意味のある学習が生まれるのか疑問に思うかもしれません。この疑問を解消するのが、まさに身体性です。身体と環境の物理的特性によって、発生する相互作用全体は構造化されています。その構造化を与えるのが身体性であり、身体性こそが「川の流れ」を規定して学習結果に意味を与え、知能を発現させるのです。
AI における身体性の欠如がもたらす影響
図 1: マルチモーダル生成 AI による機械図面の理解力を試す実験
実際に、筆者が過去に書いた機械図面をマルチモーダル生成 AI に読ませてみたところ、図面の内容をほとんど理解できていないことがわかりました (図 1)。シャフトカラー(回転軸に取り付けてトルクを伝達する締結部品)の図面を与えて図面の基本的な理解を問い、回答を◯△×で評価しました。その結果、図面かプロンプトから読み取れた文字情報から連想した一般的な回答しか正解できていません。このように身体性のない AI は、たとえ機械図面に描かれた外形や穴を認識できたとしても、それらが実際に我々の 3 次元空間でどのように存在して、どのように回転し、荷重やトルクを伝えるかという物理的な理解まで到達できないのです。 この身体性の欠如は、AI が設計プロセスの核心部分を担うことを難しくしています。機械設計者が部品の形状と材質を決めるには、その形が物理世界でどのように機能するかを理解し、予測することが必須だからです。
身体性が、カオスから秩序を生む
ここで、筆者がこれまで生きてきた中で、身体性知能と不思議な共通点を見た 3 つの面白いトピックをご紹介します。「製造業や生成 AI と何の関係があるのか?」と感じられるかもしれませんが、まずはお読みください。
物理リザバーコンピューティング (RC)
図 2: 物理リザバーコンピューティングの概念図
ここでご紹介したいのは、物理リザバーコンピューティング (RC) です。聞き慣れない言葉と思いますが、とても簡単に言えば「自然界の物理現象を計算に活用できる」というものです。例えば、水の波紋や柔らかいタコの足、光デバイスなど、複雑な動きをする(入力に対して非線形な出力を発生する)ハードウェアが「リザバー」になりえます。
このリザバーに何か信号を入力すると、複雑な(非線形で時間変化する)反応が起きます。その反応をいくつかのセンサーで測定し、それらの値に定数をかけて足し引きする(= 線形結合する)だけで、望みの出力を得られるように調整します。大事なポイントは、図 2 のようにリザバー層の挙動は物理現象で定義されており変えることはできないので、出力層だけを調整(学習)させる点です。一般的なニューラルネットワークでは、バックプロパゲーションという方法で、出力層から入力層に向かって全ての層を学習しますが、物理 RC では出力層以外は一切変更せずそのまま利用する点が興味深いです。
図 2 の左に示した原始的な人工知能モデルである「単純パーセプトロン」では XOR 問題 (「A か B のどちらか一方だけが真のとき真となる」という単純な論理) すら解けませんが、これは出力が入力の線型結合だけで作られるためです。より複雑な問題を解くことができる現代のニューラルネットワークは、非線形な関数(= 活性化関数)と線型結合を何層にも重ねることで、ある種のカオス(非常に複雑な挙動)を作り出しています。同様に、物理リザバーコンピューティング (RC) も実世界の非線形な物理現象を計算資源として活用していると理解できます。
身体性の観点から見れば、この類似性は、物理世界のカオス的な振る舞いの中に知能の萌芽が存在することを示すように思えます。
ビッグバンから知的生命
我々の知能がどのように形成されてきたかを、宇宙物理学者たちは宇宙の始まりから遡って考えています。 ビッグバンから元素や恒星が生まれ、惑星でアミノ酸が合成され、知的生命体が生まれた。カオスから秩序が生まれたということができます。偶然にしてはできすぎているので、「神が全て作った」というのは一つの説明の仕方ではありますが、物理学者たちはカオスから秩序が生まれるのは自然なことと解き明かしています。
皆様も家の中でハエなどの害虫を仕留め損なったことがあるのではないでしょうか。ハエもビッグバンから自然の流れの中で生まれ、発達してきた生き物です。我々が叩き潰そうとすると、ハエは素早くそれを察知し、脚や羽を的確に駆動して、逃げようとします。ロボット工学的に例えて、あの小さな体にセンサー、アクチュエータ、制御プログラムが全て入っていると考えると驚くべきことですが、これも身体性知能が為せる業です。
モリヌークス問題
モリヌークス問題は特に興味深い事例です。17 世紀、哲学者ウィリアム・モリヌークスが提起したこの問題は、「生まれつき盲目の人が、触覚で球体と立方体を区別できるようになった後、もし後天的に手術で視力を得たら、見ただけでそれらを区別できるだろうか?」というものです。 この問題の本質は、異なる感覚モダリティ(触覚と視覚)間での知識の転移可能性にあります。ニューラルネットワークの文脈で考えると、これは一つの入力形式(触覚データ)で学習したモデルが、別の入力形式(視覚データ)に対しても適切に一般化できるかという問題に相当します。 先天盲の人々は、生後に手術により視力を得ても、最初は視覚だけでは物体を識別できない、ということを示す認知科学研究の報告は多く存在します(一例)。これは、知覚が、身体を通じた環境との相互作用から生まれることを示唆しています。
このモリヌークス問題は、ブログ冒頭に書いた「生成 AI で機械図面を真に理解できるか?」に示唆を与えると考えています。画像入力に対応したマルチモーダル AI モデルは「目」を持つと言えますが、身体を持ちません。先述のように、身体を持って外界と相互作用して発達しながらこの世界を理解してきたわけではないので、図 1 のように「目」だけで図面をインプットしたとしても、その形状の部品が我々の生きる物理環境でどんな意味を持つのか、どう相互作用するかを真に理解することはできないのです。
まとめ
前編では、身体性の観点から、知能とはハードウェア(身体)に宿るものであり、現代の AI にも原理的な限界があること示しました。後編では、ハードウェア開発とソフトウェア開発の違いをさらに深掘りし、製造業のどの領域で AI が効果的に活用できるのかを考察します。