たった1枚の画像から高解像度の360度画像を生成する「Era3D」
1枚の画像を認識するだけで360度の視点からの姿も立体的に生成する「Era3D」は、従来のマルチビュー手法の問題点である「不正確」「非効率」「低解像度」という問題点を解消したものになっています。Era3Dの詳細について製作者がウェブページで解説しているほか、ブラウザ上で素早く簡単にマルチビューの生成を体験することができます。
Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention
https://penghtyx.github.io/Era3D/
Era3D MV Demo - a Hugging Face Space by pengHTYX
https://huggingface.co/spaces/pengHTYX/Era3D_MV_demo
少ない素材から別の角度から見たマルチビューを生成する技術は大幅に進歩していますが、Era3Dの製作者であるpengHTYX氏によると、従来の方法では前提としたカメラタイプから少しでも外れた画像は崩れてしまうそうです。また、従来の方法で採用されているマルチビューの計算手法は、画像解像度が上がるにつれて計算の複雑さが指数関数的に増大するため、高解像度の画像を生成するためのトレーニングコストが膨大になってしまいます。
Era3Dはまず、入力画像の焦点距離と仰角を推定するカメラ予測モジュールを適用することで、形状の歪みのない画像を生成しています。さらに、「row-wise attention」と呼ばれるシンプルかつ高効率なレイヤーを使用して、複数の視点からの情報をうまく組み合わせています。結果としてEra3Dは、従来の最先端である方法と比較して計算の複雑さを12分の1まで削減しているそうです。以下の画像はEra3Dのプロセスを示したもので、どのような視点か、カメラ位置はどうなっているかを推定してから計算することで、高品質かつ高速の生成を可能にしていると説明しています。画像右が最終的に生成された別視点画像で、車の表情は少し崩れているものの、反転した形状はうまく出力されていることがわかります。
その他、Era3Dで生成したさまざまな360度画像がサンプルとして掲載されています。以下の画像は、それぞれの一番左が入力画像、真ん中が360度ビュー、右は画像から虹色のグラデーションで彩色した3Dアセットに変換したもの。
また、「黒い海賊帽子をかぶったブルドッグ」「リュックを背負った豚」「美しい茶髪のサイボーグ」というように、テキストを入力して3Dアセットを生成することも可能とのこと。
Era3Dは、デモページから実際に生成を試してみることができます。デモに使えるサンプルの画像がいくつか用意されているので、カメラの画像を選択してみます。
画像が読み込まれたのを確認したら「Generate Normals and Colors」をクリックして生成開始。
「processing 22.5秒」と表示され、実際に20秒ほどで素早く生成が完了しました。このとき、サンプルの画像は元から背景がありませんが、背景が含まれる画像でも自動的に背景を削除して読み込んでくれます。
マルチビューを生成した結果が以下。「Multiview Images」の方はレンズの出っ張り部分に違和感があったり、真裏が白く塗りつぶされていたりしますが、かなり高品質な外観が素早く作られたことがわかります。
また、「クリックしてアップロード」から自由な画像で試すこともできるため、マンガ「勇者で社畜の兼業ライフ」のキャラクター画像を読み込ませてみました。
画像を選択して「開く」をクリック。画像形式はJPEGやPNGのほか、XBMやTIFF、GIF、SVGなど広く対応しています。
画像が読み込まれたのを確認して「Generate Normals and Colors」をクリック。
マルチビューを生成した結果は以下。キャラクターの表情がつぶれているほか、なぜか髪の毛と同じ色の尻尾がついていますが、平面のイラストからでも立体的なマルチビューを生成することができました。
Era3Dの詳細はGitHubで公開されています。
GitHub - pengHTYX/Era3D
https://github.com/pengHTYX/Era3D
07/07 09:00
GIGAZINE