HASC Challengeの現状と将来展望 河口 信夫 HASC Challenge2012 実行委員長 名古屋大学 http://hasc.jp
はじめに
• おかげさまで、HASC Challenge も2010, 2011, 2012 と3回行うことができました!
• この間、データ処理方法のノウハウ、ツールの改良、データの蓄積、が進んでいます。
ありがとうございます。
背景
• 人間行動の理解に基づくサービスの実現
– 情報システムの究極の目標
• 人と情報システムの高度な協調作業の実現には、まず、人の行動理解が重要
• 行動理解・認識には幅広い応用可能性
– 医療、健康、見守り、高度インタフェース
行動センシング・行動理解技術とは
センサデバイスを携帯しながら活動
異常検知
機器・環境の制御
センサ信号を取得
センサ信号を取得
加速度・角速度・地磁気・GPSなど 装着・携帯型のセンサデバイス
特徴量抽出
機械学習等に基づく行動モデル
行動コーパス
行動認識・行動理解
認識アルゴリズム
応用分野
ライフログ健康増進
ナビゲーション
勤怠管理
人間行動センシングに関する現状
• 様々な研究機関で加速度センサ等を用いた多数の応用研究が実施されている
• 現時点では、特定目的、小規模な研究が個別になされている
• 体系的な研究なくしては、人間行動理解の認識は難しいのでは?
(2009年時点の課題)
・Activity Recognition from User-Annotated Acceleration Data, [Ling Bao, Pervasive 2004]
走る, 歯を磨く, ストレッチをするなど
重力方向の検知,
上下運動の振幅値の変化量,
平均, 零点交差数などを利用
・Context Awareness by Analysing Accelerometer Data, [Cliff Randell, 2000]
歩く、しゃがむなどを、
加速度値の各軸のRMSからクラスタリング
行動センシングの研究動向
・Proactive Instructions for Furniture Assembly, [S. Antifakors, Ubicomp 2002]
家具の組み立て作業をモニタリングし、次の作業をナビゲート
・Activity Recognition using Body Worn Mic and Accelerometers, [Holger Junker, Pervasive 2004]
工房における道具の使用をモニタリング
・Tracking Free-Weight Exercise [Keng-hao Chang, Ubicomp 2007]
数種類のダンベル体操の回数をモニタリングし、バランスが良い運動を支援
時系列パターンを窓ごとの特徴量(周波数成分, 平均, 分散, 各軸の差分値など)から, HMMを使ってパターンマッチング
Activity Recognition using
Body Worn Mic and Accelerometers
10 各 10 サンプル
識別対象数 被験者・サンプル数
Activity Recognition from
User-Annotated Acceleration Data
20 被験者20人
82~160min
Tracking Free-Weight Exercise
9被験者10人
162.5 min4925 times
実用化された技術はシンプルなもの
単純なセンシング・情報処理技術では
• 歩数
• 睡眠の状況
• 活動量(カロリーの推定)
程度が実現できているのみ。
スマートホンの登場により、多様なセンサを使い
より高度な認識技術の実現が期待できる
実学に向けての試練
• 研究室環境での実現可能性は示した(Lab. Feasibility)
• 実環境・大規模実ユーザではどうか?
この壁を超えなければ、実用化は困難→ 音声認識、画像処理は超えてきた
大きな壁・ギャップ
人間が行う情報処理
• 音声信号処理
• 画像処理
• 言語処理
• 行動情報処理
コーパス、アルゴリズム、ツールキットが重要
人間情報処理の共通点音声 画像 言語 行動
コーパス
PASL-DSR,UT-
ML,ATR,TMW,R
WCP,PASD,CIAI
R-DB
Face, Walker, TV,
TREC.PASCAL,Text
Japanese Spoken
Language Corpus/
KOTONOHA???
アルゴリズム HMM/DP
Face Recognition
Optical Flow
Comp/Decomp
Morphological
Analysis/
Dependency
Analysis / N-Gram
信号処理と同じ
ツールキットHTK (HMM
ToolKit) / JuliusOpenCV / mist Chasen/Cabocha ???
国際会議ICASSP・
InterSpeech ICCV / ICPR NAACL/ ACL /
COLING
UbiComp / AH/
Pervasive /
Percom / INSS /
ISWC
人間情報処理の共通点音声 画像 言語 行動
コーパス
PASL-DSR,UT-
ML,ATR,TMW,R
WCP,PASD,CIAI
R-DB
Face, Walker, TV,
TREC.PASCAL,Text
Japanese Spoken
Language Corpus/
KOTONOHAHASC
アルゴリズム HMM/DP
Face Recognition
Optical Flow
Comp/Decomp
Morphological
Analysis/
Dependency
Analysis / N-Gram
信号処理と同じ+
HASC成果
ツールキットHTK (HMM
ToolKit) / JuliusOpenCV / mist Chasen/Cabocha HASC Tool
国際会議ICASSP・
InterSpeech ICCV / ICPR NAACL/ ACL /
COLING
UbiComp / AH/
Pervasive /
Percom / INSS /
ISWC
行動処理を“音声処理”・“画像処理”に継ぐ研究分野に!
そもそも人間の行動とは?
• 手・足・頭・体を個々に動かす行動– 行動素(もっともシンプルな行動)
• 立つ、座る、寝転ぶ、振り向く、手作業の移動を伴わない行動等
• 歩く、走る、階段の上下、などの移動を伴う行動
• エレベータ、エスカレータ、車、電車、自転車などの乗車行動
• 体操、ダンス、などの一連の行動系列• 通勤、散歩、特定の場所への移動、など、
一連の移動系列• 長期間の行動の変化
– リハビリ、怪我、老化など
言語と行動は似ている?
• 音素/文字 行動素
• 単語 行動(単純な)
• 文 行動系列(歩行や階段程度)
• 文章 移動系列
音声認識や言語処理の枠組みの活用可能性
データベースの重要性
• 認識アルゴリズムの基礎は学習データ
• 大規模な学習データが認識技術を進展
– 音声や言語処理では常識
• 人間・実環境の多様性を知ることが重要
2009年7月9日DICOMO2009
• 2日目:セッション 6G
– 複数の行動センシングの研究発表
– 問題意識の共有 → ナイトセッションで発表
人間行動センシングコンソーシアム
・装着型センサを用いた
人間行動センシング技術の開発・普及
・加速度センサによる人間行動の大規模データベースの構築
(大学関係者40名、企業関係者30名の賛同)
目的
活動
http://hasc.jp
2009年10月7日 第1回HASCシンポジウム2010年3月 情報処理学会大会 パネル2010年12月 HASC Challenge シンポ2011年 HASC Tutorial 開催(名古屋,東京,大阪)2012年1月 HASC Chellengeシンポ2012年 HASC Tutorial 開催(名古屋,神戸, 九州,東京)
データベースを集める前に
• どのようなセンサ?
– センサの種別の決定が重要
– 異なるセンサでも同じデータが取れるのか?
• どこに何個、どんなふうに計測?
– 汎用的なデータ? 特定目的のデータ?
– 実環境?サンプリングレートは?
• どんな解析が可能?
– センサデータ処理の基盤技術が必要
ターゲットを定めるのが困難
データ収集技術チャレンジの提案
• データ収集とアルゴリズム検討のための技術チャレンジ
• 互いにデータ、アルゴリズムを持ち寄って互いに評価、情報共有
目的
• データ収集・管理・利用の経験収集• センサ種別やセンサ利用の方法論検討• ツールの開発、共有• 行動情報処理の研究者人口の増大• イベント、締切り効果によるHASCの進捗
HASC Challenge (HC201X)
• HC201X はコンテストとせず、技術チャレンジ
• 今回は加速度センサ 1式のみを対象
• 対象とする行動は以下の6種類
「静止」「歩く」「ジョギング」「階段登る」「降りる」「スキップ」
• 参加者は、自分でデータ収集、ラベル付けを行い、その情報も提供HC201Xcorpus
1データセットの提供で全データ獲得
DICOMO2010にてアナウンス!
他の分野でも
• 音声情報処理分野
– 複数の拠点が集まってデータベース収集
– 雑音環境下の認識技術に関するコンテスト
(AURORA-2J)
• 画像処理分野
– PRMU アルゴリズム・コンテスト
• すでに14回のコンテスト
コンテスト等によりデータ収集研究分野の底上げが実現
HASC 標準ファイル形式
• 加速度センサ 生データ形式 ( .csv )[時刻(sec)], [X軸(g)], [Y軸(g)], [Z軸(g)]サンプリングレート 10Hz ~ 100Hz
• ラベル形式 ( .label )“#”で始まる行は、情報行“#targetfile: XXXX.csv” は、ラベル対象データファ
イル“#version: 1”
[開始時刻(sec)] , [終了時刻(sec)], [ラベルテキスト]
• メタデータ形式 ( .xml )仕様センサ種別、センサデバイス情報(OS等)、
サンプリングレート、センサ取り付け位置
参加者に提供していただいたデータ各参加者は 5人の被験者情報の提供が必要• 学習用データ
– 各行動に対し 20秒以上.– 各被験者に対し 5 セット以上.
• シーケンスデータ– 120秒以上の連続行動のデータ
(HC2011 は 300秒)– 各行動は5秒以上継続すべき.
(HC2011 は 10秒)– 各行動のラベル付けを行う.
• 被験者1人あたり31ファイル(6 行動 x 5 セット
+ 1 シーケンス + 1 ラベル)
x 5 被験者 = 155ファイル(HC2011 は、センサが多様化でファイル数も増大)
HASC2010corpus
性別 被験者数 ファイル数
男性 89 4032
女性 12 341
不明 439 2418
合計 540 6791
24 チーム+運営側の努力の成果
データサイズ (*.meta 含む)1,012,961,280 バイト( 966MByte)ファイル 13527, フォルダ 1340
HASC 2010コーパスのデータの不揃いな点を整備(一部、削減、20人分のデータを追加)
性別 被験者数 ファイル数
男性 102 4464
女性 14 434
合計 116 4898
HASC2011corpus を用いたユーザ独立の認識実験
8特徴量:平均・分散・4FFT・ゼロ点交差・加速度の積分
被験者数: 87 (116名中で腰装着者のみ)
HASC Challenge2011
• テーマは国際化と実世界化
参加者は HASC2010corpus が利用可能!
• 基礎データは同じ(6行動+1シーケンス)
• 新しいデータ収集
– ランドマーク間行動(Real World Activity Data)
• 最寄りの駅から職場・学校・店舗等までの連続行動
• 3分~10分程度
• ラベリングツールを提供
より実環境に近いデータを収集
(2011年8月~2011年11月)
HASC Challenge 2011 成果
• 登録チーム 29 (重複含む)
• データ提供チーム 19
総ファイル数:7,668総被験者数(名):141
収集データ
2種類のデータ
• 統制環境データ(被験者:96, セッション数: 4495)
– 6種類の行動(5segmentedx6 + 1sequence)「静止」「歩く」「ジョギング」「階段登る」「降りる」「スキップ」
• 実環境データ(被験者:40, セッション数:40)
– ランドマーク間の移動行動例:地下鉄駅から職場
店舗Aから店舗B
種別 被験者数 センサ種別 ファイル数
統制環境
96男性 85女性 11
加速度角速度GPS
地磁気
44952521240310
実環境40
男性 34女性 6
加速度角速度GPS
地磁気
4030275
合計 136 7668
HASC Challenge とHASC corpus の関係
HC2010 HC2011 HC2012
HASC2010corpus
HASC2012corpus
HASC2013corpus
HASC2011corpus
20人データ
実環境データの例
GPS
加速度+ラベル
角速度
地磁気
HASC2012corpusでわかること
0
2
4
6
8
10
12
14
16
18
20-… -… -… -…
0.0
01
0.0
03
0.0
05
0.0
07
0.0
09
0.0
11
0.0
13
0.0
15
0.0
17
0.0
19
0.0
21
0.0
23
0.0
25
0.0
27
0.0
29
0.0
31
0.0
33
0.0
35
0.0
37
0.0
39
0.0
41
0.0
43
0.0
45
0.0
47
0.0
49
0.0
51
x 1
00
00
秒
Samsung 複数センサの性質
(サンプリングレートのジッタ)
0
0.5
1
1.5
2
2.5
3
3.5
-0.0
07
-0.0
05
-0.0
03
-0.0
01
0.0
01
0.0
03
0.0
05
0.0
07
0.0
09
0.0
11
0.0
13
0.0
15
0.0
17
0.0
19
0.0
21
0.0
23
0.0
25
0.0
27
0.0
29
0.0
31
0.0
33
0.0
35
0.0
37
0.0
39
0.0
41
0.0
43
0.0
45
0.0
47
0.0
49
0.0
51
x 1
00
00
秒
SHARP
0
1
2
3
4
5
6
-0.0
07
-0.0
05
-0.0
03
-0.0
01
0.0
01
0.0
03
0.0
05
0.0
07
0.0
09
0.0
11
0.0
13
0.0
15
0.0
17
0.0
19
0.0
21
0.0
23
0.0
25
0.0
27
0.0
29
0.0
31
0.0
33
0.0
35
0.0
37
0.0
39
0.0
41
0.0
43
0.0
45
0.0
47
0.0
49
0.0
51
x 1
00
00
秒
HTC 0
50
100
150
200
250
300
-0.0
07
-0.0
03
0.0
01
0.0
05
0.0
09
0.0
13
0.0
17
0.0
21
0.0
25
0.0
29
0.0
33
0.0
37
0.0
41
0.0
45
0.0
49
x 1
00
00
秒
iPHONE
0
50
100
150
200
250
300
-0.0
07
-0.0
03
0.0
01
0.0
05
0.0
09
0.0
13
0.0
17
0.0
21
0.0
25
0.0
29
0.0
33
0.0
37
0.0
41
0.0
45
0.0
49
x 1
00
00
秒
iPODtouch
ランドマーク間移動 経路データ
• 途中の行動は手でラベルづけされている.– 歩き、階段上下、エスカレータ、エレベータなど
• このデータをどのように活用できるか?– 位置・経路が既知な行動データ
– 経路間の類似性の計算が可能
– すなわち、既知の経路と比較すれば、経路推定が可能に.
経路推定の方法
• 同じ経路を通った被験者A, B の行動系列は似たものになる.
• 経路間の距離を比較すれば良い。
Activity Sequence of Subject B
Activity Sequence of Subject A
検証実験
• 今回のデータには、同じ経路が尐ないため、手のラベル付けと自動ラベリングを比較
20 経路
ラベル情報.(人手による)
ActivityRecognizer
20 ラベル情報(認識結果)
ラベル間のDP マッチン
グ
(4種類の行動を推定する)
マッチング結果
(経路の類似性)
行動経路のDP マッチングDP マッチング- 移動コスト = 10, 距離コスト = 5- 差分コスト = 認識率に比例.
ラベル間のDPマッチングの結果
Cumulative Ranks Rank 1 Rank 1~3 Rank 1~5
Percentage 60% 90% 95%
• DPマッチングにより, 90% の経路が 3位以内になった。
• すなわち、既知の経路20種に対し、60~90%の精度で加速度センサだけで経路推定が可能になることを示している
• 加速度センサによる経路推定の実現可能性を示した。
• 実験の前提条件などを変更し、より詳細な実験が必要。
経路マッチングにおける課題
手でラベルづけされた加速度データ
自動認識によるラベルデータ
ラベルなしラベルなし
加速度センサデータを正確にラベル付けするのは困難
追加実験
• 5人の被験者により3経路のデータを収集
• ラベル付けはすべて自動認識で
• 行動データだけで、どこまで経路推定が可能かを確認
DPマッチングによる結果
被験者A-E 経路 1-3
同じ経路間で、距離が近くなることを確認
非対称になっているのは、コストが不均等なため
認識結果間のラベル間のDPマッチング距離
HASC Challenge2012
• テーマは継続
参加者は HASC2012corpus が利用可能!
• 収集センサ種別数が拡大
• 基礎データは同じ(6行動+1シーケンス)
• ランドマーク間行動(Real World Activity Data)
• 最寄りの駅から職場・学校・店舗等までの連続行動
• 3分~10分程度
• ラベリングツールを提供
チュートリアルを各地(名古屋・神戸・九州・東京)で開催
(2012年9月~2012年12月)
合計 60名近くの参加
HASC Challenge 2012 成果
• 総ファイル数 :13,607
• 総被験者数 :114
収集データ
• データ提供チーム 17
加速度以外のセンサデータが急増
本成果は HASC2013corpus として整理し、HC2012 参加者に公開。また、将来的には、hub.hasc.jp 登録者に公開予定です。
HASC Challenge の今後
• 大規模データへの要望は確認– データ提供 → コーパス提供のループを続ける
( HC2013 の開催 )
• そろそろ leap がしたい– 真剣に認識手法を改善すべき時期かも
– HMMの導入など
• 基礎的なツール・アルゴリズムの充実が重要– HASC Tool の使い方を広める
– ドキュメント化
HASC バランスデータの収集
• これまでのHASCcorpus は大学生が中心のコーパス
• 性別、年齢、身長、体重等がバランスしたデータが必要では?– 実は大変(項目がかけ算で効く)
– 利き腕、利き足などの情報は?
– 年齢なのか、体重なのか、スポーツ経験などなのか、健康度などもあるのか
– 被験者を集めて行うか。
1年かけて検討中。2013年年始にデータ収集開始予定!
HASC歩行者ナビ行動データ
• 屋内の地図+歩行コース
+歩行データを収集
• ペデストリアンナビゲーションの評価用データとして利用可能に
• データ種別(検討中)
– 複数位置への装着:移動データ
– カバン等による保持データ
– 手で保持データ新規のデータターゲットは歩行者ナビ+α
皆さんへの期待
• HASC20XXcorpus はドンドン使ってください– 疑問点は何でも聞いてください
• どんどん成果を発表、共有していきましょう– いい成果は、特許化・権利化してもらって結構です
• HASC の活動は、縁の下の力持ち– 研究の基盤、ベースラインづくり
• HASC に集まって、オリジナルの研究を推進• もちろん、アプリも実現してもらってOKです。
• なお、コーパスにはミスがあり得ますので、問題があれば、指摘してください。(リビジョンで更新していきます)
HASC Challengeの将来展望
• 行動理解・認識の裾野を広げる活動
– 他のコミュニティとの連携が必要
• 音声、ロボティクス、画像、言語、、、
• 経験、ノウハウ、アルゴリズム、コーパスの蓄積
– 繰り返しにより、高度化を目指す
– 明確なベンチマークを設定
• 現在は、多様な方向を向いており、発散ぎみ
• 実社会で活用される部品の提供
– スマホで利用可能なアルゴリズム・部品提供
– 音声認識のように、サーバ側での処理も可能
HASC Challenge 2013 日程
• 春から開始します!
• GW開けにデータ提出締切
– 1次データ締切 5月25日(土)
• シンポジウム 10月21日(月)関西で開催予定
実行委員長 西尾信彦(立命館大学)
まとめ
• HASC Challenge2012 を開催
• 大規模行動データの収集を継続
– HC2010, HC2011と同等の規模の収集に成功
• 共通ツール HASC Tool の高度化
• 詳細分析はまだまだ可能
– 大規模データを縦横無尽に解析するツール・ノウハウがまだまだ必要
http://hasc.jp
Google Group の ML にぜひ、ご参加ください!
HC2013の実行委員も募集中!