May, 14, 2024, Dresden--新しいジェネレーティブモデルにより、既存のアプローチよりも効率的に画像を計算することができる。
生成人工知能(AI)は、ChatGPTやStable Diffusionなどのテキストや画像を作成するアプリケーションで最もよく知られているかも知れないが、それを超えたその有用性は、ますます多くの異なる科学分野で示されている。
ドレスデン・ロッセンドルフ大学ヘルムホルツ校(HZDR)の先端システム理解センタ(CASUS)の研究チームは、インペリアル・カレッジ・ロンドンおよびユニバーシティ・カレッジ・ロンドンの研究者と共同で、Conditional Variational Diffusion Model(CVDM)(DOI: 10.48550/arXiv.2312.02246)と呼ばれる新しいオープンソースアルゴリズムを、International Conference on Learning Representations(ICLR)で発表する。
このモデルは、生成AIに基づいて、ランダム性から画像を再構築することで、画像の品質を向上させる。さらに、CVDMは、確立された拡散モデルよりも計算コストが低く、様々なアプリケーションに簡単に適合させることができる。
ビッグデータや新しい数理・データサイエンスの手法の登場により、生物学、医学、環境科学などでは説明のつかない現象を逆問題アプローチで解読することを目指している。逆問題(inverse problems)は、特定の観測結果につながる因果要因の回復を扱う。画像のグレースケールバージョンがあり、色を復元したい。たとえば、水色と淡い赤はグレースケール画像で同じように見えるため、通常はいくつかの有効な解決策がある。したがって、この逆の問題の解決策は、水色の画像または水色のシャツの画像である。
顕微鏡画像の解析も、典型的な逆問題になり得る。「観察がある。顕微鏡画像である。いくつかの計算を適用すると、サンプルについて最初に見たよりも多くのことを知ることができる」と、CASUSのPh.D学生、ICLR論文の筆頭著者、Gabriel della Maggioraは言う。その結果、高解像度または高品質の画像が得られる。しかし、観察、つまり顕微鏡画像から「スーパー画像」への経路は、通常、明らかではない。さらに、観測データはノイズが多く、不完全で、不確実であることがよくある。これにより、逆問題を解くことが複雑になり、エキサイティングな数学的課題になる。
Soraのような生成AIモデルの力
逆問題に取り組むための強力なツールの1つがジェネレーティブ(生成)AI。生成AIモデルは一般に、特定のトレーニングデータセット内のデータの根底にある分布を学習する。典型例は画像生成である。トレーニングフェーズの後、ジェネレーティブAIモデルは、トレーニングデータと一致するまったく新しい画像を生成する。
ジェネレーティブAIの様々なバリエーションの中で、最近、研究者の間で人気が高まっているのが拡散モデルという特定のファミリーである。拡散モデルでは、反復的なデータ生成プロセスは、自然界で発生する多くのランダムなプロセスの効果を模倣するために情報理論で使用される概念である基本的なノイズから始まる。画像生成に関して、拡散モデルは、トレーニングデータセット画像でどのピクセル配置が一般的で、どのピクセル配置が一般的でないかを学習している。ピクセル配置がトレーニング データの基になる構造と最もよく一致するまで、新しい目的の画像を少しずつ生成する。拡散モデルの威力を示す好例は、米国のソフトウェア会社OpenAIのテキストからビデオへのモデルであるSora。実装された拡散コンポーネントにより、Sora は AI モデルがこれまでに作成したものよりもリアルに見えるビデオを生成できる。
とは言え、1つの欠点がある。「拡散モデルは、トレーニングに計算コストがかかることで長い間知られていた。最近では、まさにそのために諦めている研究者もいた。しかし、条件付き変分拡散モデルのような新しい開発により、最終的なモデルに結びつかない『非生産的な実行』を最小限に抑えることができる。このアプローチは、計算労力と消費電力を削減することで、拡散モデルのトレーニングをより環境に優しいものにする可能性もある」と、Dr. Artur Yakimovichは、話している。同氏は、CASUS若手研究者グループのリーダー、ICLR論文の責任著者。
巧妙なトレーニングは、スポーツに限らず、うまくいく
「非生産的な実行」は、拡散モデルの重要な欠点である。その理由の1つは、モデルが拡散プロセスのダイナミクスを制御する事前定義されたスケジュールの選択に敏感であること:このスケジュールは、ノイズがどのように追加されるかを制御する:少なすぎたり多すぎたり、間違った場所や間違った時間 – トレーニングの失敗で終わるシナリオはたくさん考えられる。これまでのところ、このスケジュールはハイパーパラメータとして設定されており、新しいアプリケーションごとに調整する必要がある。言い換えれば、研究者は通常、モデルを設計する際に、試行錯誤しながら選択したスケジュールを見積もる。ICLRで発表された新しい論文では、研究チームは、CVDMが最適なトレーニングを自分で見つけることができるように、すでにトレーニング段階にあるスケジュールを組み込んでいる。このモデルは、事前定義されたスケジュールに依存する他のモデルよりも優れた結果をもたらした。
とりわけ、チームは、典型的な逆問題である超解像顕微鏡法という科学的問題へのCVDMの適用可能性を実証した。超解像顕微鏡は、顕微鏡系の光学特性によって分解能が制限される回折限界を克服することを目的としている。この限界をアルゴリズムで超えるために、データサイエンティストは、記録された限られた解像度の画像からボヤケとノイズの両方を除去することで、高解像度の画像を再構築する。このシナリオでは、CVDMは、一般的に使用される方法と比較して、同等またはそれ以上の結果をもたらした。
「もちろん、顕微鏡画像の意義を高める方法はいくつかあるが、その中には生成AIモデルを利用したものもある。しかし、われわれのアプローチには、イメージングコミュニティにインパクトを残すいくつかの新しいユニークな特性があると信じている。それは、他の拡散モデルのアプローチと比較して、同等またはそれ以上の品質で高い柔軟性と速度である。さらに、われわれのCVDMは、再構成についてよくわからない場合に直接ヒントを提供し、新しい実験やシミュレーションでこれらの不確実性に対処するための道筋を設定する非常に有用な特性である」とYakimovichは、話している。