Top Banner
シンポジ (MIRU2008)2008 7 フレーム られる シルエット から †† 大学学 メディアセンター 〒 606-8501 †† 大学大学院 606-8501 E-mail: †{toyo,funatomi,kakusho,minoh}@mm.media.kyoto-u.ac.jp, ††[email protected] あらまし いるシルエット が多いほ を獲 きる. フレーム られるシルエットを いて を獲 する 案されている.こ し,こ フレーム られるシルエットを する.こ ,運 がうまくいか に, カメラ位 しく われず,獲 される が大きく するこ があるこ ある. シルエットに が多い ,運 に大き こり すい. した する い.しかし がら,運 しく されたか うかを るこ しい. ある が, した に多く されるこ した.あるフレーム シルエットを した きに,そ フレーム られる れほ まれるかを するこ した を獲 するこ きる. キーワード frontier point, SPOT, シルエット 3D Shape Reconstruction from Incomplete Silhouettes in Multiple Frames Masahiro TOYOURA , Masaaki IIYAMA †† , Takuya FUNATOMI , Koh KAKUSHO , and Michihiko MINOH Academic Center for Computing and Media Studies, Kyoto University, Yoshidanihonmatsucho, Sakyo-ku, Kyoto, 606–8501 Japan †† Graduate School of Economics, Kyoto University, Yoshidahonmachi, Sakyo-ku, Kyoto, 606–8501 Japan E-mail: †{toyo,funatomi,kakusho,minoh}@mm.media.kyoto-u.ac.jp, ††[email protected] Abstract 3D shapes are reconstructed from silhouettes obtained by multiple cameras with the volume intersection method. In recent works, methods of integrating silhouettes in multiple frames have been proposed. The number of silhouettes can be increased by integrating silhouettes in multiple frames. The silhouettes of a rigid object in multiple frames are integrated with its rigid motion. When the estimated motion has large error, shapes are reconstructed with missing parts. Lacking of outstanding points means the missing of the characteristics. This error is given by the incompleteness of extracted silhouettes. Here, we propose an intelligent method of integrating incomplete silhouettes where outcrop points, which are 3D feature points for estimating motion, play an important role. The reconstructed shape are preserved can be evaluated referring to how many outcrop points have been included in the reconstructed shape of another frame. Key words Volume intersection method, outcrop point, frontier point, SPOT, silhouette extraction, shape inte- gration. 1. はじめに [1] [2] カメラ 体を し, から られるシルエットから を獲 する ある. 各シルエットから, 体が しうる 域を し,す シルエットから られる 域を めるこ を獲
8

3D Shape Reconstruction from Incomplete Silhouettes in Multiple Frames

Feb 20, 2023

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 3D Shape Reconstruction from Incomplete Silhouettes in Multiple Frames

「画像の認識・理解シンポジウム (MIRU2008)」 2008 年 7 月

複数フレームで得られる不完全なシルエット群からの三次元形状獲得

豊浦 正広† 飯山 将晃†† 舩冨 卓哉† 角所 考† 美濃 導彦†

† 京都大学学術情報メディアセンター 〒 606-8501 京都市左京区吉田二本松町†† 京都大学大学院 経済学研究科 〒 606-8501 京都市左京区吉田本町

E-mail: †{toyo,funatomi,kakusho,minoh}@mm.media.kyoto-u.ac.jp, ††[email protected]

あらまし 視体積交差法では,用いるシルエットの数が多いほど,原形状に近い形状を獲得できる.近年では,複数

フレームで得られるシルエットを用いて形状を獲得する手法が提案されている.この手法では,剛体物体の運動を推

定し,この運動を基に複数フレームで得られるシルエットを統合する.この手法の問題は,運動推定がうまくいかな

い場合に,仮想的なカメラ位置の計算が正しく行われず,獲得される形状が大きく欠損することがあることである.

シルエットに欠損や過抽出が多い場合には,運動推定に大きな誤差が起こりやすい.突出した部分が欠損すると,原

形状の特徴を十分に表現できない.しかしながら,運動が正しく推定されたかどうかを知ることは難しい.本研究で

は,三次元特徴点の一種である表出点が,物体形状の突出した部分に多く抽出されることに着目した.あるフレーム

のシルエットを統合したときに,そのフレームで得られる表出点がどれほど統合形状に含まれるかを評価することで,

突出部分を残した形状を獲得することができる.

キーワード 視体積交差法,表出点,frontier point, SPOT, シルエット統合.

3D Shape Reconstruction from Incomplete Silhouettes

in Multiple Frames

Masahiro TOYOURA†, Masaaki IIYAMA††, Takuya FUNATOMI†, Koh KAKUSHO†, and

Michihiko MINOH†

† Academic Center for Computing and Media Studies, Kyoto University, Yoshidanihonmatsucho, Sakyo-ku,Kyoto, 606–8501 Japan

†† Graduate School of Economics, Kyoto University, Yoshidahonmachi, Sakyo-ku, Kyoto, 606–8501 JapanE-mail: †{toyo,funatomi,kakusho,minoh}@mm.media.kyoto-u.ac.jp, ††[email protected]

Abstract 3D shapes are reconstructed from silhouettes obtained by multiple cameras with the volume intersection

method. In recent works, methods of integrating silhouettes in multiple frames have been proposed. The number of

silhouettes can be increased by integrating silhouettes in multiple frames. The silhouettes of a rigid object in multiple

frames are integrated with its rigid motion. When the estimated motion has large error, shapes are reconstructed

with missing parts. Lacking of outstanding points means the missing of the characteristics. This error is given

by the incompleteness of extracted silhouettes. Here, we propose an intelligent method of integrating incomplete

silhouettes where outcrop points, which are 3D feature points for estimating motion, play an important role. The

reconstructed shape are preserved can be evaluated referring to how many outcrop points have been included in the

reconstructed shape of another frame.

Key words Volume intersection method, outcrop point, frontier point, SPOT, silhouette extraction, shape inte-gration.

1. は じ め に

視体積交差法 [1] [2] は,複数のカメラで物体を観測し,観測

画像から得られるシルエットから形状を獲得する手法である.

各シルエットから,物体が存在しうる領域を計算し,すべての

シルエットから得られる領域の積領域を求めることで形状を獲

Page 2: 3D Shape Reconstruction from Incomplete Silhouettes in Multiple Frames

得する.視体積交差法における獲得形状は,視体積と呼ばれる.

視体積交差法では,シルエット獲得に用いるカメラ台数が多い

ほど,視体積に含まれる物体領域以外の余分な領域が減少し,

原形状に近い形状を獲得することができる.しかし,現実には

数十台を越えるカメラを設置することができない.近年,物体

の剛体運動を推定することにより,カメラと物体の相対的な位

置関係変化を計算し,各フレームで観測される視体積を統合す

る手法が提案されてきた.Cheung ら [3] は,各フレームの視

体積と画像から Colored Surface Point(CSPs)を特徴点として

抽出し,物体の剛体運動を特徴点から推定した.時系列で変化

するカメラと物体の位置関係は物体の剛体運動で記述できるの

で,この運動を基に複数フレームのシルエットの統合を行うこ

とができる.豊浦ら [4]も,色情報を用いることなく抽出でき

る特徴点として表出点を提案し,物体の剛体運動の推定に利用

した.物体形状の突出した部分に対応したボクセルが CSPsや

表出点として抽出されやすい.

上述の複数フレームで視体積を統合する手法の問題点は,運

動推定誤差が大きいフレームが存在するときに,獲得形状が大

きく欠損することである.欠損の原因となる運動推定誤りは,

運動推定を行う 2 フレーム間で対応がつく特徴点が得られな

いことにより生じる.このことは,特徴点の抽出に用いるシル

エットに欠損や過抽出があるために起こる.しかしながら,従

来の CSPsや表出点の特徴点抽出法では,シルエットに欠損や

過抽出があることを想定していない.また一方で,対応を持た

ない特徴点群から正しい運動を推定するのは簡単ではない.物

体形状の特徴を示す突出部分が欠損するときには,獲得形状の

品質を大きく損なうことになる.突出部分は物体形状を特徴づ

けることが知られている [5] .

そこで本研究では,時系列視体積統合において,物体特徴を

示す突出部分が保存されるようなシルエット統合手法を提案す

る.ただし,シルエットの欠損や過抽出は,白色ノイズで表現

できるものとする.この手法は,シルエットの不完全さや運動

推定誤差そのものを減少させる手法ではないものの,得られ

る統合形状が形状特徴を保存することを保証する手法になって

いる.

物体の突出部分を選択的に統合形状に含めるために,我々は

物体の突出部分に抽出されやすい性質を持つ三次元特徴点に

着目した.CSPsや表出点は視体積内部に抽出されるボクセル

であるが,物体形状の突出した部分に多く現れる性質がある.

この性質を利用した従来研究として,CSPsのアイデアの元に

なっている Frontier pointに着目した形状獲得手法が提案され

ている [6]~[9] .これらの手法では,Frontier point が物体形

状を特徴的に示す点であることから,Frontier pointを三次元

的に繋いでなめらかな物体表面を構成する.本研究ではこの性

質を,物体形状の突出部分を保存するようなフレームを選択す

ることに利用する.物体形状の特徴を示す突出部分が保存され

るようなフレームのみを対象とする.特徴点は突出部分に抽出

されやすいため,特徴点がどれほど保存されるかを評価関数と

して利用することで,物体形状の特徴を保存するようなフレー

ムのシルエット統合を実現する.

Camera Cj

Camera Cg

Object O

Visual Cone Vij

Visual Cone Vig

Visual Hull V

S ig

Silhouette

S ij

i

図 1 第 i フレームにおける視体積獲得

Fig. 1 Reconstructing a visual hull in i-frame.

2. ではまず,本研究を進める上で前提となる視体積交差法,

時系列シルエット統合および表出点抽出について説明する.3.

では,どれほどの表出点が統合形状に保存されるかを評価する

評価関数を設計し,この評価関数を元に利用するフレームを選

択する手法について述べる.5.ではシミュレーション実験およ

び実環境実験を通して,提案する評価関数および評価統合方法

の正当性を検証する.最後に,6.でまとめと今後の課題につい

て述べる.

2. シルエットからの三次元形状獲得

本節では,議論を進める上で必要な視体積交差法,時系列視

体積統合および表出点抽出について説明する.

2. 1 複数フレームで得られるシルエットからの視体積交差法

視体積交差法 [1] [2] では,複数のカメラで物体を観測し,三

次元形状を獲得する.獲得される形状は視体積 (Visual Hull,

VH)と呼ばれる.

視体積は物体の全周モデルを獲得できる利点がある.形状獲

得手法には,他に Shape-from-Motion [10]~[12] や,多視点ス

テレオ [13] [14] ,レーザスキャンを用いたステレオ視 [15] [16]

などがあるが,いずれも表面モデルを獲得する手法であり,全

周モデルを獲得する工夫が別途必要となる.そのため,近年で

は,視体積を “物体が存在しうる領域の上限を与える”領域と

して用い,上述のような視体積交差法以外の形状獲得手法と組

み合わせて最終的な形状を獲得する研究が盛んに行われてい

る [17]~[22].

図 1 に第 i フレーム (i = 1, · · · , M) において視体積交差法

が適用される様子を示す.カメラは同期撮影しているものとす

る.第 j 番目のカメラ (j = 1, · · · , N)を Cj と表す.各カメラ

では対象物体 Oが観測され,物体投影領域が抽出される.物体

投影領域はシルエットと呼ばれ,第 iフレームで Cj によって

得られるシルエットを Sij と表す.Cj におけるカメラの射影行

列 Pj と Sij から,物体が存在しうる錐体状の領域が計算でき

る.この錐体状の領域を視錐体 Vij と呼ぶ.離散ボクセル空間

における Vij は以下の式 (1)のようにボクセルの集合として表

される.

Vij = {v | Pjv ⊂ Sij} (1)

Page 3: 3D Shape Reconstruction from Incomplete Silhouettes in Multiple Frames

Outcrop Point

Silhouette

Visual hull

図 2 表出点抽出

Fig. 2 Extraction of outcrop points.

ただし,vはボクセルである.第 iフレームの視錐体から計算

できる物体が存在しうる領域は,視錐体 Vij(j = 1, · · · , N)の

積領域として計算できる.この積領域を視体積 Vi と呼ぶ.Vi

は式 (2)で表すことができる.

Vi = {v | ∀j, Pjv ⊂ Sij} (2)

2. 2 時系列視体積統合

対象物体が剛体で運動しているときに,その剛体運動を推定

することができれば,対象物体の存在しうる領域を求めるため

には,すべてのフレームの視体積 Vi(i = 1, · · · , N)の積領域を

計算すればよい [3] [4].第 k フレームを基準として時系列シル

エットを統合するものとしたとき,第 iフレーム (i = 1, · · · , N)

と第 kフレームの間の物体の剛体運動Dik が推定できれば,複

数フレームでシルエットを統合して得られる形状 V k は式 (3)

で求められる.V k は統合形状と呼ばれる.

V k = {v | ∀i, Dikv ⊂ Vi} (3)

2. 3 表出点抽出

統合形状獲得のためには,物体の剛体運動を知る必要があり,

三次元特徴点を用いてこの運動が推定される.表出点 (Outcrop

Points, OPs) [4] は,複数カメラのシルエットから得られる三

次元特徴点の一種である.

異なるフレームで得られる表出点間の運動から物体運動を推

定し,時系列視体積を統合することができる.表出点は視体積

に含まれるボクセルであり,1. 一つ以上のシルエット境界領域

を構成する画素に投影され,2. 投影される画素には唯一そのボ

クセルが投影される,の 2条件を満たすものであると定義され

ている.図 2中の灰色のボクセルが表出点にあたる.

表出点は物体領域に含まれることが保証されることが示され

ている.また,このようにして抽出される表出点は,形状の突

出した部分に多く抽出される.図 3(b)に示す点群は,図 3(a)

の物体を観測したときに得られた表出点である.表出点は,物

体とカメラの位置関係が変化しても,安定して抽出されやすい

ことが確かめられている [4].

2. 4 表出点からの運動推定

特徴点間の運動推定にはロバスト推定 [23] を用いる.ロバス

ト推定では,中間推定運動にそぐわないような特徴点の誤差を

考慮しないことで,対応点が存在しない特徴点の影響が小さく

なるように設計されている.ロバスト推定を用いることで,対

(a) Original shape (b) Outcrop points

図 3 表出点抽出例

Fig. 3 An example of outcrop point extraction.

応点を持たない特徴点が少数である場合には,ロバストに運動

を推定することができる.

運動推定は,誤差関数 E を定め,E を Powellの収束法を用

いて最小化することで行う.第 sフレーム,第 tフレームで得

られる表出点群をそれぞれ OPs,OPt とする.第 s フレーム

で求めた表出点 ps ∈ OPs を剛体変換行列 Dst により移動させ

たとき,第 tフレームにおける表出点 pt ∈ OPt のうちで最も

近くにある表出点を ps に対応する点と考え,この点との二乗

距離を求める.誤差関数はこの二乗距離に関数 f を作用させた

ものの総和をとった値に相当する.誤差関数 E を以下のように

定める.

E =X

pt∈OPt

f

minps∈OPs

(pt − Dstps)2

«

(4)

f(x) =

(

x x <= Mth

Mth x > Mth

ただし,Mth は第 sフレームと第 tフレームの間の移動距離

の最大量を定めた閾値である.f のような外れ値の影響を小さ

くする関数を用いて収束法を適用するロバスト推定は,大きく

離れた対応点を持つような表出点が収束に与える影響を小さく

している.

3. 表出点保存に基づく評価関数の設計と時系列視体積統合

第 s フレームと第 t フレームの間の剛体運動 Dst が正しく

推定されており,かつ,それぞれのフレームでシルエットに欠

損や過抽出がないものとするとき,図 4に示すように,第 sフ

レームで得られる表出点群 OPs は剛体運動 Dst を作用させる

と視体積 Vt に含まれ,第 tフレームで得られる表出点群 OPt

は剛体運動 Dts を作用させると視体積 Vs に含まれる.

ps ∈ OPs, Dstps ∈ Vt (5)

pt ∈ OPt, Dtspt ∈ Vs (6)

式 (5),(6)が完全に成り立つときには,物体の特徴的な部分

を示す表出点が視体積統合によって失われないことがいえる.

しかし実際には,各フレームの視体積に欠損があったり,運動

推定に誤差が含まれることによって,式 (5),(6)は完全には成

り立たない.2フレームの視体積を統合するときに,表出点が

保存されるかどうかを評価するため,本手法では,式 (5),(6)

を満たす表出点の割合を求めることとする.この割合を関数

Page 4: 3D Shape Reconstruction from Incomplete Silhouettes in Multiple Frames

s-frame t-frame

sV

tV

sOP

tOP

stD

tsD

図 4 視体積と表出点からの運動推定誤差評価

Fig. 4 Evaluation of frames from visual hulls and outcrop points.

Em(s, t)として,式 (7)で定義する.

Em(s, t) =nst + nts

2(7)

nst =n{ps|ps ∈ OPs, Dstps ∈ Vt}

n{ps|ps ∈ OPs}

nts =n{pt|pt ∈ OPt, Dtspt ∈ Vs}

n{pt|pt ∈ OPt}

ただし,n{·} は集合に含まれるボクセルの個数であり,OPs, OPt はそれぞれ s, t フレームで抽出される表出点の集

合である.評価関数 Em(s, t)は [0, 1]の値を取り,値が大きい

ほど表出点が保存されるような視体積統合が行えることを表す.

Em(s, t)が小さな値をとるフレーム間では,統合形状の表出

点が失われると考えられるので,ある適当な閾値 Ethm を下回る

ようなフレームのシルエットを視体積構築に利用しないことと

する.

4. 欠損および過抽出を含むシルエットからの表出点抽出

3.では,表出点の保存に基づくフレームの評価手法について

説明した.一方で,シルエットに欠損や過抽出があるときには,

そもそも表出点が物体領域に必ず含まれるとはいえず,評価関

数 Em(s, t)自体が正しく計算されないことが考えられる.

そこで本節では,まずシルエット欠損と過抽出の修正手法に

ついて検討し,なお残るシルエットの欠損および過抽出が表出

点抽出に与える影響について検証する.

4. 1 シルエット欠損・過抽出の修正

時系列のシルエット統合ではなく,1時刻のシルエット統合

を目標とする研究で,シルエット欠損および過抽出の問題に対

処した研究は多い.三次元空間における近傍の共存確率が高

いことを仮定して,グラフカットを利用する手法 [24] や,対

象物体に仮定を置いた背景差分法 [25] [26] ,取得画像上で領域

分割を行い,獲得形状とシルエットを相互に参照しながら形状

を求める手法 [27] [28],視体積交差法が多数のカメラを用いる

ことを利用して,Space Carving [29] や Voxel Coloring [30] の

考え方を利用して,色情報を併用することで獲得形状の欠損

を修復する手法 [31]などがこれにあたる.SPOT(Sparse Pixel

Occupancy Test) [32] [24] や,SfIS(Shape from Inconsistent

Silhouettes) [33] では,ボクセルごとにシルエット内部に投影

された回数を計算し,少数の画像に対してシルエット外部に投

影されることを無視することで,シルエットの欠損の影響を少

なくする.いずれの手法もそれぞれ制約や修復精度に大小はあ

るものの,ある程度はシルエットおよび獲得形状を修正するこ

とができる.本研究でも,色情報を併用することで獲得形状の

欠損を修復する手法 [31]を用いて,シルエットをある程度修正

することとする.加えて,視体積を計算する際に SPOT を用

いることでシルエット欠損の影響が少なくなるようにする.し

かしながら,いずれの手法を用いても,完全には修正すること

ができない.

シルエットの欠損および過抽出の割合については,文献 [32]

で,欠損率が 4.3%,過抽出率が 2.1%であると記述されており,

文献 [31] では,欠損率が 5.21%以下 (欠損修復後には 2.23%)

であると記述されている.本研究でも,10%程度までの欠損率

と過抽出率を想定し,表出点の性質がどれほど成り立つかを検

証する.

4. 2 シルエット欠損・過抽出が表出点抽出に与える影響

恐竜の三次元シミュレーションデータに対して,白色ノイズ

を加えたシルエットを作成,表出点を抽出し,表出点が元の物

体領域に含まれるかどうかを調べた.表 1,2,3 は,カメラ台

数をそれぞれ 6,12,20 としたときに,表出点が元の物体領

域に含まれる確率である.90%以上 95%未満の要素は太字で,

95%以上の要素にはさらに下線を付して記した.括弧内は抽出

される表出点の数である.

表 1 より,カメラ台数が少なく,シルエットに欠損が少なく

過抽出が多いときに,物体領域に含まれない表出点が抽出され

てしまうことがわかる.このことは,上述の状況下において,

視体積の余分な領域に表出点が含まれてしまうことを示してい

る.また,表 2,3 より,カメラ台数が十分にあれば,シルエッ

トの欠損および過抽出に関係なく,抽出される表出点は物体領

域に含まれることがほぼ保証できるといえる.

以上のことより,物体を観測するカメラが 10数台あり,シル

エットの欠損および過抽出が数%程度であれば,表出点はほぼ

物体領域に含まれると結論づけられる.このことから,カメラ

が 10数台あり,シルエットの欠損および過抽出が数 %程度で

あれば,評価関数 Em(s, t)は正しく計算できると考えられる.

5. 実 験 結 果

実験では,シミュレーションデータと実環境データを処理対

象として,表出点に基づく評価関数 Em(s, t)が機能し,統合形

状に物体の特徴的な部分である突出部分が保存されるかどうか

を検証する.

5. 1 シミュレーション実験

恐竜モデルのシミュレーションデータに対して,カメラ 12

台で時系列のシルエットを抽出し,提案する時系列視体積統合

手法を適用した.シルエット欠損率および過抽出率をそれぞれ

(a): 1%,(b): 2%,(c): 5%,(d): 7.5%に設定し,シルエット

を作成した.欠損および過抽出はランダムノイズでモデル化し

た.恐竜モデルは,第 tフレームでは x, y, z 軸方向に +0.5tボ

Page 5: 3D Shape Reconstruction from Incomplete Silhouettes in Multiple Frames

表 1 シルエット精度と表出点抽出 (カメラ 6 台)

Table 1 Relation between silhouette missing/additional percent-

ages and outcrop point extraction. (6 cameras)

Additional regions

1% 2% 5% 10% 20%

Mis

sing

regio

ns

1% 88.6% 87.2% 82.8% 61.0% 19.8%

(88) (94) (99) (159) (582)

2% 88.0% 86.6% 85.2% 65.7% 24.3%

(125) (119) (142) (198) (668)

5% 90.0% 85.5% 83.1% 75.5% 44.2%

(279) (297) (337) (433) (978)

10% 89.3% 88.9% 86.9% 79.3% 58.9%

(653) (682) (800) (929) (1434)

20% 90.6% 91.9% 90.6% 87.2% 69.7%

(1072) (1142) (1215) (1222) (1302)

表 2 シルエット精度と表出点抽出 (カメラ 12 台)

Table 2 Relation between silhouette missing/additional percent-

ages and outcrop point extraction. (12 cameras)

Additional regions

1% 2% 5% 10% 20%

Mis

sing

regio

ns

1% 92.0% 93.1% 93.2% 93.2% 94.0%

(1129) (1245) (1673) (2311) (4873)

2% 95.1% 95.6% 96.0% 95.6% 96.0%

(2976) (3206) (4083) (5357) (6967)

5% 97.0% 97.4% 97.0% 96.8% 96.1%

(7100) (7006) (6965) (6103) (2336)

10% 97.4% 97.8% 97.0% 96.4% 94.8%

(5003) (4602) (3270) (1867) (135)

20% 96.3% 97.4% 97.8% 98.6% –

(1055) (923) (447) (73) (0)

表 3 シルエット精度と表出点抽出 (カメラ 20 台)

Table 3 Relation between silhouette missing/additional percent-

ages and outcrop point extraction. (20 cameras)

Additional regions

1% 2% 5% 10% 20%

Mis

sing

regio

ns

1% 97.5% 97.4% 97.7% 98.1% 98.4%

(3480) (4006) (5569) (7807) (2766)

2% 98.4% 98.5% 98.4% 98.5% 98.5%

(7002) (7361) (7873) (5618) (200)

5% 98.9% 98.8% 98.7% 98.5% –

(5935) (5230) (3391) (867) (0)

10% 98.8% 98.2% 97.8% 100.0% –

(1887) (1413) (459) (16) (0)

20% 96.9% 100.0% 100.0% – –

(131) (66) (1) (0) (0)

クセル平行移動,x, y, z 軸のまわりに +to 回転している.

図 6は,(a)から (d)のそれぞれについて,原形状 (I),1フ

レームのみから得られる視体積 (II),従来手法 [4]を用いて 50

フレームのシルエットを統合した形状 (III),Ethm = 0.97に設定

したときの統合形状 (IV)をそれぞれ示すものである.それぞれ

の形状は SPOTを用いて欠損を抑えている.また,Marching

cubes [34] を用いて表面を構成し,表面にスムージング処理を

施している.

それぞれの 1フレームで得られる視体積 (II)では,得られる

視体積が角張っていたり,物体領域から遠いところにボリュー

ムが生成されたりして,余分な領域が多く含まれることがわか

る.従来手法で得られる統合形状 (III)では,運動推定を誤る

フレームの視体積を統合したことにより,獲得形状の一部が大

きく欠損している.提案手法を用いて得られる統合形状 (IV)

では,原形状を包含するような形状を得ることができている.

(a),(b)および (c)では,1フレームでの視体積に見られるよう

な表面上の余分な領域もなく,従来手法で得られる統合形状に

見られるような大きな欠損もない.それぞれの欠損率および過

抽出率の設定の下で,1フレームでの視体積に対して,提案手

法で得られる統合形状は突出部分を保存しながらも,原形状に

近いなめらかな形状を獲得できていることがわかる.このこと

から,シルエットの欠損率および過抽出率が数%であるときに

は,提案手法が有効に作用し,突出部分を保存するような視体

積統合ができていることがわかる.

ただし,図 6(d) に示す提案手法による統合形状 (IV) では,

恐竜の角の部分が欠けている.この欠損は運動推定誤差による

ものではなく,1フレームで得られる視体積の時点ですでに欠

損が生じていることが原因である.複数のフレームの視体積を

統合することにより,欠損が顕著になっている.それでもなお,

従来手法で得られる統合形状 (III)に比べると,物体の突出部

分の多くが保存されていることが確かめられる.

従来の視体積評価方法によっても,得られた統合形状を評価

した.従来研究 [3] [4]では,視体積の精度評価のために,欠損

領域 (Missing region) と余分な領域 (Additional region) に含

まれるボクセルの数が用いられてきた.視体積 (Visual hull)

と物体領域 (Object region)にはずれがある.両者の共通領域

(Common region)に対して,視体積には含まれ共通領域には含

まれない領域が余分な領域 (Additional region)であり,物体領

域には含まれ共通領域には含まれない領域が欠損領域 (Missing

region) である.理想的には,視体積が物体領域と一致するの

で,余分な領域と欠損領域の和を誤差領域 (Error region)とし,

この誤差領域に含まれるボクセル数の少なさによって,視体積

の精度を評価する.

余分な領域 (additional region),欠損領域 (missing region)

および誤差領域 (error region)の物体領域に対する割合は表 4

のとおりである.(a),(b),(c)および (d)のそれぞれの欠損率

および過抽出率の設定の下で,(II)に示す 1フレームでの視体

積に対して,(IV)に示す提案手法による統合形状は誤差領域が

大きく減少していることがわかる.なお,時系列視体積の統合

によって欠損領域が減少しているのは,SPOTの視体積要素判

定条件によって,観測空間の各ボクセルが一定割合以下のシル

エットのみでシルエット外と判定されるときに視体積要素であ

ると判定されることがあるためである.

5. 2 提案手法で得られるカメラ配置の特徴

実験に用いた 12台のカメラは図 5(a)に示すように設置され

ている.このカメラは球面上に均質に配置されている.50 フ

レームにわたって,このカメラ群は図 5(b) に示すような多く

のシルエットを提供する.本論文で提案したフレーム選択手法

Page 6: 3D Shape Reconstruction from Incomplete Silhouettes in Multiple Frames

表 4 シルエット統合と誤差領域 ((a) : (欠損率, 過抽出率)=(1%,

1%), (b) : (2%, 2%), (c) : (5%, 5%), (d) : (7.5%, 7.5%), カ

メラ 12 台)

Table 4 Silhouette integration and volume error regions. ((a) :

(missing percentage, additional percentage)=(1%, 1%),

(b) : (2%, 2%), (c) : (5%, 5%), (d) : (7.5%, 7.5%), with

12 cameras. )

Missing regions Additional regions Error regions

(a) II 1.3% 28.8% 30.2%

III 17.4% 15.6% 33.0%

IV 0.9% 25.6% 26.5%

(b) II 2.9% 46.3% 49.2%

III 25.4% 21.0% 46.5%

IV 0.2% 35.1% 35.2%

(c) II 19.3% 39.1% 58.4%

III 35.1% 17.0% 52.1%

IV 2.5% 27.6% 30.1%

(d) II 87.5% 3.6% 91.1%

III 85.9% 0.6% 86.5%

IV 71.0% 2.5% 73.5%

を適用することによって,図 5(c) に示すカメラのシルエット

だけが形状獲得に用いられた.提案手法によるフレーム選択で

は,最初のフレームからの物体運動が少ないフレームが選択さ

れることが多く,連続的なカメラ群が残る.これは,物体運動

が小さい方が運動推定誤りが起こりにくいためであると考えら

れる.対応する表出点が抽出されやすいためである.

連続的な視点変化を要求する研究がいくつかある.シルエッ

トから得られる contour generatorを結んで形状を獲得する手

法がこれにあたる [7], [13], [20], [35], [36] .なめらかな曲面を獲

得するためには,視点位置が連続的に変化するカメラが有用で

ある.ターンテーブルを用いて仮想的にカメラ台数を増やす場

合には,カメラは半球内にしか配置できない [17] .我々の提案

する複数フレームシルエット統合手法では,局所的に連続的で

全方位的なカメラ配置を利用することができる.

5. 3 実環境実験

実環境下で 19台のカメラにより恐竜およびマンモスの模型

を観測し,得られる時系列画像からシルエットを抽出した.提

案手法により恐竜の模型を観測する 50フレームのシルエット

統合を行った結果を図 7(a)に示す.シルエット抽出精度は,第

1フレームの 19枚のシルエットで,欠損率平均が 8.54%,過抽

出率平均が 5.27%であった.閾値 Ethm = 0.95として提案手法

を適用した.図 7の中央に示す従来のシルエット統合結果 (III)

では,大きな欠損はないものの,恐竜モデルの足先の部分に欠

損が見られる.これに対し,それぞれ右に示す提案手法による

統合形状 (IV) では,このような欠損は観察されず,物体形状

の突出部分が保存されていることがわかる.

同様にマンモス模型の時系列画像からシルエットを抽出し,

提案手法により視体積統合を行った結果を図 7(b)に示す.シル

エット抽出精度は,欠損率平均 3.22%,過抽出率平均 4.29%で

あった.閾値 Ethm = 0.95とした.通常の時系列統合結果 (III)

では,顔面に大きな欠損が見られた.提案手法による獲得形状

(IV)では,このような欠損は観察されず,物体形状の突出部分

が保存されている.1 フレームでの視体積 (II) と比較しても,

物体表面上の余分な領域が減少していることが見て取れる.

6. ま と め

本研究では,物体の特徴的な部分である突出部分が保存され

るかどうかの評価を与える関数を設計し,シルエットに欠損お

よび過抽出がある場合にも,複数フレームで得られるシルエッ

トの統合によって実形状に近い形状を獲得する手法を提案した.

この関数の値を基に時系列視体積を統合することにより,物体

形状の突出部分が統合形状に含まれるようになり,運動推定誤

差によって統合形状が大きく欠損する問題を解決した.また,1

フレームで得られる視体積よりも誤差領域の少ない形状を獲得

することができた.

今後の課題として,提案した評価関数に用いる閾値を設定環

境,時系列統合の対象となるフレーム数などから自動的に与え

ることが考えられる.

謝辞

本研究の一部は,日本学術振興会特別研究員奨励費 (19-10459)

の研究助成を受けて行われた.

文 献[1] W.N. Martin, and J.K. Aggarwal, “Volumetric description

of objects from multiple views,” IEEE Transactions on Pat-

tern Analysis and Machine Intelligence, vol.5, no.2, pp.150–

158, 1983.

[2] A. Laurentini, “How far 3d shapes can be understood from

2d silhouettes,” IEEE Transactions on Pattern Analysis and

Machine Intelligence (TPAMI), vol.17, no.2, pp.188–195,

1995.

[3] G.K.M. Cheung, S. Baker, and T. Kanade, “Shape-from-

silhouette across time part i: Theory and algorithms,” Inter-

national Journal of Computer Vision, vol.62, no.3, pp.221–

247, May 2005.

[4] 豊浦正広,飯山将晃,角所考,美濃導彦,“視体積交差法における時系列画像の統合による三次元復元形状の再現性の向上,” 信学論,vol.J88-D-II,no.8,pp.1549–1563,August 2005.

[5] C. Dorai, and A.K. Jain, “Shape spectrum based view

grouping and matching of 3d free-form objects,” IEEE

Transactions on Pattern Analysis and Machine Intelligence,

vol.19, no.10, pp.1139-1146, 1997.

[6] G. Cross, and A. Zisserman, “Surface reconstruction from

multiple views using apparent contours and surface tex-

ture,” NATO Advanced Research Workshop on Confluence

of Computer Vision and Computer Graphics, Ljubljana,

Slovenia, eds. A. Leonardis, F. Solina, and R. Bajcsy, pp.25–

47, 2000.

[7] J.S. Franco, and E. Boyer, “Exact polyhedral visual hulls,”

Proceedings of the Fourteenth British Machine Vision Con-

ference, pp.329–338, September 2003, Norwich, UK.

[8] S. Lazebnik, E. Boyer, and J. Ponce, “On computing exact

visual hulls of solids bounded by smooth surfaces,” IEEE

Conference on Computer Vision and Pattern Recognition,

pp.156–161, 2001.

[9] M. Brand, K. Kang, and D. Cooper, “Algebraic solution for

the visual hull,” IEEE Conference on Computer Vision and

Pattern Recognition, pp.30–35, 2004.

[10] C. Tomasi, and T. Kanade, “Shape and motion from image

streams under orthography - a factorization method,” Inter-

national Jornal of Computer Vision, vol.9, no.2, pp.137–154,

Page 7: 3D Shape Reconstruction from Incomplete Silhouettes in Multiple Frames

Camera

Object

(a) Physical positions (b) Positions of cameras (c) Positions of selected

of 12 cameras. in 50 frames. cameras in 50 frames.

図 5 提案手法によって選択されるカメラ位置

Fig. 5 Positions of selected cameras with our method of selection frames.

1992.

[11] 築澤宗太郎,杉本晃宏,松山隆司,“装着型視覚センサを用いた対象の 3 次元形状復元,” 情報処理学会 CVIM 研究会資料,vol.SIG-CVIM-133,pp.71–78,2002.

[12] S. Tsukizawa, K. Sumi, and T. Matsuyama, “3d digitization

of a hand-held object with a wearable vision sensor,” Inter-

national Workshop on Human-Computer Interaction (HCI),

pp.129–141, May 2004.

[13] S. Lazebnik, Y. Furukawa, and J. Ponce, “Projective visual

hulls,” International Journal of Computer Vision, vol.74,

no.2, pp.137–165, August 2007.

[14] C. Strecha, R. Fransens, and L.V. Gool, “Combined depth

and outlier estimation in multi-view stereo,” IEEE Com-

puter Vision and Pattern Recognition (CVPR), vol.2,

pp.2394–2401, 2006.

[15] S. Rusinkiewicz, O. Hall-Holt, and M. Levoy, “Real-time 3d

model acquisition,” ACM Transactions on Graphics, vol.21,

no.3, pp.438–446, July 2002.

[16] M. Levoy, K. Pulli, B. Curless, S. Rusinkiewicz, D. Koller,

L. Pereira, M. Ginzton, S. Anderson, J. Davis, J. Ginsberg,

J. Shade, and D. Fulk, “The digital michelangelo project:

3d scanning of large statues,” Proceedings of the ACM SIG-

GRAPH, pp.131–144, July 2000.

[17] S. Seitz, B. Curless, J. Diebel, D. Scharstein, and R. Szeliski,

“A comparison and evaluation of multi-view stereo recon-

struction algorithms,” IEEE Conference on Computer Vi-

sion and Pattern Recognition(CVPR), vol.1, pp.519–526,

2006.

[18] J. Isidoro, and S. Sclaroff, “Stochastic refinement of the vi-

sual hull to satisfy photometric and silhouette consistency

constraints,” IEEE International Conference on Computer

Vision (ICCV), pp.1335–1342, 2003.

[19] J. Starck, and A. Hilton, “Surface capture for performance-

based animation,” IEEE Computer Graphics and Applica-

tions, vol.27, pp.21–31, 2007.

[20] Y. Furukawa, and J. Ponce, “Accurate, dense, and robust

multi-view stereopsis,” IEEE Computer Vision and Pattern

Recognition (CVPR), 2007.

[21] C.H. Esteban, and F. Schmitt, “Silhouette and stereo fu-

sion for 3d object modeling,” Computer Vision and Image

Understanding, vol.96, no.3, pp.367–392, 2004.

[22] 延原章平,和田俊和,松山隆司,“弾性メッシュモデルを用いた多視点画像からの高精度 3 次元形状復元,” 情報処理学会CVIM研究会論文誌,vol.43,no.SIG11(CVIM5),pp.53–63,December 2002.

[23] P.J. Rousseeuw, and A.M. Leroy, Robust Regression and

Outlier Detection, John Wiley & Sons, 1987.

[24] D. Snow, P. Viola, and R. Zabih, “Exact voxel occupancy

with graph cuts,” IEEE Conference on Computer Vision

and Pattern Recognition, vol.1, pp.345–352, 2000.

[25] 松山隆司,和田俊和,波部斉,棚橋和也,“照明変化に頑健な背景差分,” 信学論,vol.J84-D-II,no.10,pp.2201–2211,2001.

[26] K. Toyama, J. Krumm, B. Brumitt, and B. Meyers,

“Wallflower: Principles and practice of background mainte-

nance,” IEEE International Conference on Computer Vision

(ICCV), pp.255–261, 1999.

[27] G. Zeng, and L. Quan, “Silhouette extraction from multi-

ple images of an unknown background,” Asian Computer

on Computer Vision(ACCV), pp.628–633, 2004.

[28] 大濱郁,延原章平,松山隆司,“多視点画像を用いた誤り検出・訂正機能を持つ高精度対象領域抽出法,” 画像の認識・理解シンポジウム (MIRU),pp.688–693,July 2006.

[29] K.N. Kutulakos, and S.M. Seitz, “A theory of shape by

space carving,” International Jornal of Computer Vision,

vol.38, no.3, pp.199–218, 2000.

[30] S.M. Seitz, and C.R. Dyer, “Photorealistic scene reconstruc-

tion by voxel coloring,” IEEE Conference on Computer Vi-

sion and Pattern Recognition(CVPR), pp.1067–1073, 1997.

[31] 豊浦正広,飯山将晃,角所考,美濃導彦,“ランダムパターン背景を用いた視体積交差法のためのシルエット欠損修復,” 信学論,vol.J89-D,no.11,pp.2413–2424,November 2006.

[32] G.K.M. Cheung, T. Kanade, J.Y. Bouguet, and M. Holler,

“A real time system for robust 3d voxel reconstruction of hu-

man motions,” IEEE Conference on Computer Vision and

Pattern Recognition, vol.2, pp.714–720, June 2000.

[33] J.L. Landabaso, M. Pardas, and J.R. Casas, “Reconstruc-

tion of 3d shapes considering inconsistent 2d silhouettes,”

IEEE International Conference on Image Processing (ICIP),

pp.2209–2212, 2006.

[34] W.E. Lorensen, and H.E. Cline, “Marching cubes: A high

resolution 3d surface construction algorithm,” Proceeding

of the ACM SIGGRAPH, vol.21, no.4, pp.163–169, 1987.

[35] R. Cipolla, and A. Black, “The dynamic analysis of appar-

ent contours,” IEEE International Conference on Computer

Vision (ICCV), pp.616–623, 1990.

[36] C.L. nd Kwan-Yee K. Wong, “Robust recovery of shapes

with unknown topology from the dual space,” IEEE

Transactions on Pattern Analysis and Machine Intelligence

(TPAMI), vol.29, no.12, pp.2205–2216, December 2007.

Page 8: 3D Shape Reconstruction from Incomplete Silhouettes in Multiple Frames

I II III IV

(a) (Percentage missing, Percentage added)=(1%, 1%)

I II III IV

(b) (Percentage missing, Percentage added)=(2%, 2%)

I II III IV

(c) (Percentage missing, Percentage added)=(5%, 5%)

I II III IV

(d) (Percentage missing, Percentage added)=(7.5%, 7.5%)

図 6 恐竜形状に対する獲得形状.それぞれ左から原形状 (I),1フレームで得られる視体積 (II),

SPOT のみ適用し 50 フレームの画像から得られる視体積 (III),SPOT と提案手法を適

用し 50 フレームの画像から得られる視体積 (IV).Fig. 6 Reconstructed shapes of triceratops. Original shapes (leftmost, I) and visual hulls

reconstructed from silhouettes of one frame (left, II). Visual hulls reconstructed

from silhouettes of 50 frames with SPOT (right, III) and visual hulls reconstructed

from silhouettes of 50 frames with SPOT and our proposed method (rightmost,

IV).

I II III IV V

(a) Reconstructed shape of triceratops toy.

I II III IV V

(b) Reconstructed shape of mammoth toy.

図 7 実物体模型に対する獲得形状.それぞれ左から観測画像の一例 (I),1 フレームで得られ

る視体積 (II),SPOT のみ適用し複数フレームから得られる視体積 (III),SPOT と提案

手法を適用し複数フレームから得られる視体積 (IV) とそれに画像から色を与えた視体積

(V).Fig. 7 Reconstructed shapes for real toys. Examples of obtained images (leftmost, I),

visual hulls reconstructed from silhouettes of one frame (left, II), visual hulls re-

constructed from silhouettes of 50 frames with SPOT (center, III), visual hulls

reconstructed from silhouettes of 50 frames with SPOT and our proposed method

(right, IV), and colored ones with obtained images (rightmost, V).