May, 20, 2024, Lausanne--EPFLの研究者は、網膜インプラントやその他の感覚プロテーゼへの応用により、学習不要の計算方法よりも高い精度で画像データを圧縮する機械学習(ML)アプローチを開発した。
より優れた神経プロテーゼを開発するための大きな課題は、感覚エンコーディングである。つまり、センサによって環境から捕捉された情報を、神経系が解釈できる神経信号に変換することである。しかし、プロテーゼの電極数は限られているため、脳に伝達されるデータの品質を維持しながら、この環境入力を何らかの方法で減らす必要がある。
Demetri Psaltis(光学研究室)とChristophe Moser(応用フォトニクスデバイス研究室)は、Hôpital ophtalmique Jules-Gonin – Fondation Asile des Aveugles(旧EPFL神経工学メドトロニック講座)のDiego Ghezziと共同で、色やコントラストなどの多次元で画像データを圧縮する問題に機械学習(ML)を適用した。研究チームの場合、圧縮の目標はダウンサンプリング、つまり人工網膜を介して送信される画像のピクセル数を減らすことだった。
「網膜インプラントのダウンサンプリングは、現在、ピクセル平均化によって行われている。これは基本的に、ファイルサイズを縮小したいときにグラフィックソフトウェアが行うことだ。しかし、結局のところ、これは数学的なプロセスである。そこには学習は含まれていない」(Ghezzi)。
「学習ベースのアプローチを適用すると、感覚のエンコードが最適化されるという点で改善された結果が得られることがわかった。しかし、もっと驚いたことは、制約のないニューラルネットワークを使ったところ、網膜処理の側面を独自に模倣することを学習したことである」
具体的には、アクターモデルフレームワークと呼ばれる研究者の機械学習アプローチは、画像のコントラストの「スイートスポット」を見つけるのに特に優れていた。Ghezzi は Photoshop を例に挙げている。「コントラストスライダをどちらかの方向に動かしすぎると、画像が見づらくなる。われわれのネットワークは、網膜処理の特徴のいくつかを再現するためにフィルタを進化させた。
この研究成果は、Nature Communications誌に掲載された。
in-silicoとex-vivoの両方でのバリデーション
アクターモデルフレームワークでは、2つのニューラルネットワークが補完的に機能する。モデル部分(フォワードモデル)は、網膜のデジタルツインとして機能し、最初に高解像度の画像を受信し、生物学的網膜によって生成された神経コードに可能な限り類似したバイナリニューラルコードを出力するようにトレーニングされる。次に、アクターネットワークは、元の画像に応答して生物学的網膜によって生成された神経コードに可能な限り近い神経コードをフォワードモデルから引き出すことができる高解像度画像をダウンサンプリングするようにトレーニングされる。
研究チームは、このフレームワークを用いて、網膜のデジタルツインと、除去(摘出)して培地に入れたマウスの死体網膜の両方で、ダウンサンプリングされた画像をテストした。どちらの実験でも、アクターモデルアプローチでは、ピクセル平均化などの学習のない計算アプローチによって生成された画像よりも、元の画像応答に近いニューロン応答を誘発する画像が生成されることが明らかになった。
外植したマウス網膜の使用には方法論的および倫理的な課題が伴うが、Ghezzによると、このモデルのex vivo検証こそが、この研究をこの分野における真のイノベーションにしている。
「われわれは、デジタルモデル、つまりin-silicoモデルだけを信頼することはできない。だからこそ、われわれはこの実験を行い、われわれのアプローチを検証したのだ」
その他の感覚的地平線
研究チームは過去に人工網膜に取り組んできた経験があるため、感覚のエンコーディングにアクターモデルフレームワークを使用したのは今回が初めてだった。しかし、Ghezziは、このフレームワークの応用を視力回復の領域内外に拡大する可能性を見出している。また、マウスの網膜を用いて検証されたモデルのうち、どの程度がヒトに適用できるかを判断することが重要になる、と同氏は付け加えている。
「明らかな次のステップは、ピクセル削減を超えて、より広く画像を圧縮し、フレームワークが同時に複数の視覚的次元でプレイできるようにする方法を確認することだ。別の可能性は、この網膜モデルを脳の他の領域からの出力に転置すること。聴覚やプロテーゼなど、他のデバイスとリンクする可能性もある」(Ghezzi)。