情報科学屋さんを目指す人のメモ

方法・手順・解説を書き残すブログ。私と同じことを繰り返さずに済むように。

Androidの電力消費情報で居場所を『93%特定』できるとはどういう意味なのか調査メモ

Android (737) iOS (377) セキュリティ (78) ニュース (6)

Yahoo!ニュースに「電池残量で居場所「93%特定」 アンドロイドの無防備さ利用…開発者警告 (SankeiBiz)」というニュースがありました。これを読んで、「93%って一体何のことを言っているの?」と思って調べてみました。本文を読んでも、注意深く読んでいなければきっと誤解する人もいると思うので、93%とは何か、を中心に、その他調べたことをここにメモしておきます。

※この記事中で「論文」と言ったら、Michalevsky, Y. らの「PowerSpy: Location Tracking using Mobile Device Power Analysis」のことです。リンク先では、無料で本文が読めます(英語)。ちなみに、SankeiBiz中には論文タイトルなどは出てきませんでしたが、MITの記事には論文へのリンク、WIREDには、埋め込みがありました。ちなみに、論文を全文読んだわけではないので、詳細を知りたいと思った人は、論文を読んでみてください。また、ページ末尾に「参考文献(ウェブ記事)」も載せてあります(すべて英語だけれど論文よりは取っ付き易いはず)。

SankeiBizの記事中の「93%」という数字

とりあえずリンク先のニュース本文(SankeiBiz)を読んでみて欲しいのですが、「93%」が登場するのは、タイトルと次の2つの段落です。

持ち主がGPS(衛星利用測位システム)を作動させていなくても、「93%」の高い精度で追跡できるという。アンドロイドの無防備さを利用したもので、開発者は「常に居場所が監視され、重大なプライバシー侵害を招く」と警告している。 引用元

ふむふむ。93%の精度ってなんだろう

韓国のLGエレクトロニクスのアンドロイド搭載スマホ「ネクサス4」を使い、米カリフォルニア州とイスラエルで行った実証実験では、4ルート(それぞれ14キロ)を移動するスマホの持ち主の追跡に成功。その成功率は「93%」としている。 引用元

さっき「精度」と言ってたのは「成功率」だったのね、と明らかにされています。この段落が問題で、「4ルート(それぞれ14キロ)を移動するスマホの持ち主の追跡に成功」「成功率は93%としている」の2ヶ所が、「どう読まれるか」「どう読むべきなのか」が気になるところです。

例えば、「追跡」という言葉から、持ち主の現在位置が表示されている地図を連想した読者は、「成功率」の言葉を見て、「地図上に表示される『位置』の正確さ」の話だと想像するかもしれません。もしくは、「(残りの)7%の割合で全く別の場所が表示されてしまった」と考えるかもしれません。

2つ後の段落には

しかし、パワースパイは、持ち主がGPS機能を作動させ、自分の居場所を相手に知らせているかのような精度で追跡できるというのだ。 引用元

とまで書いてあるので。

しかし自分は「成功率」の段落を読んで、「もしかして93%って・・・」と、別の可能性(後に正解と分かる)が思い浮かび、気になってしまいました

さて、「成功率」とは一体何なのか。

「成功率」は「事前調査済みの『4ルートのうちどれなのか』を判定できた成功率」

SankeiBizが「この技術は、21日付の米科学技術誌MITテクノロジー・レビュー(電子版)で発表された。」と書いているので「MIT Technology Review (ちなみに、タイトルはHow Malware Can Track Your Smartphone Without Using Location Dataで、Androidも93%も出てこない)」を見てみると、「93%」が登場するのは次の部分です。

They then analyzed the power usage profiles to see if they could determine which route had been taken for each. It turned out they could do this with accuracy of 93 per cent. 引用元

ポイントは、「to see if they could determine which route had been taken」です。

前後の文章も盛り込めばこの「93%」とは、「事前に与えられた4つのルートのうち、どのルートを使ったのか」を特定する実験で、正答率が「93%」だったという意味だったのです。

ちなみに93%は、43回中、40回成功(40/43≒93%)から来ています。

つまり、そもそも4択問題における位置推定での数字だった、というわけです。そして、各ルートが14kmという長距離だったり、この後紹介するいろいろな「制限事項」が前提となった上で、です。

「4ルートで実験」を誤解してはいけない

したがって、決して、ニュース本文に出てきた「4ルート(それぞれ14キロ)を移動するスマホの持ち主の追跡に成功」という文章を、「4箇所で実験して、14キロメートルも追跡できたのかー」なんて読んではいけなかったのです。

この読解は最悪ケース(14kmという長さをポジティブに捉えている)ですが、このような読み方は、「ありえない読み方」ではないと思いますし、実際に「4択で93%か」と読めた人が多いとは思えません

どこかがおかしいんじゃないか、と疑問に思ったり、「4択では?」というところまで読めたとしても、私が今回行ったように、論文もしくは最低限、別の記事(ここではMIT Technology Review)を読まなければ、「あ、やっぱり4択か」と、あまり強く思うことはできません

ましてや、記事タイトルに「電池残量で居場所「93%特定」 」というバイアスをかける文が含まれていますから、かなり誤解を生んだニュースだったのではないかと思います

さらには、

持ち主がGPS機能を作動させ、自分の居場所を相手に知らせているかのような精度で追跡できるというのだ。 引用元

まで書かれていて、「ここで出てくる「精度」もさっきと同じだとすれば「93%」のことだから、GPSで14kmもトラックできて、しかも4択なら93%ってのはむしろ低すぎないか?」と思ってしまいます。

「制限事項」も

というわけで、「93%」の意味を誤解した人が多いのではないかな、と思ったわけですが、実は他にも「誤解」が多数生まれていると思います。

そもそもタイトルに「位置特定」と書いてありますが、論文にはこのように書かれています。

Our scheme is of no use to locate a victim that stands still.

日本語にすれば、「提案手法は、立ち止まっているスマホの持ち主の場所を特定するのには役に立たないんだ」となります。

それはそのはずで、この手法は電力消費速度の変化→電波強度の変化→基地局からの距離の変化、と推定できることを根拠にしているため、「変化」が大前提で、止まっていては困ります

なので、「居場所を特定」とはいえ、「じっとしていればばれない」という制限事項があります。

事前リサーチ必須

というよりそもそも、実験が4択だったことからも推測できるように、あくまで選択肢(ルート)が与えられた中で、どのルートを通過した可能性が高いかということを考えているに過ぎません。

つまり、実際に各ルートでの電力消費データを収集して、それに基づいて分類している手法なのです。

The first problem is one of classification. We have collected power profiles associated with known routes and want to classify new samples based on this training set. (論文より)

WIREDにも、わかりやすいところだと次のように、「可能な各ルート(選択肢)について、事前の消費電力測定が必要」と書かれています。

the need for earlier measurements of power use along possible routes 引用元

他の前提

論文の「Assumptions and Limitations」の章が詳しいですが、他にも大雑把に言えば「各ルート間に、消費電力に固有の特徴が現れるだけのバラツキが必要」「例えば、アンテナが多すぎるとダメ。一帯の電波が強くてもダメ」なんてことが書かれています。

他にも、「運転中の行動(driving activity)を特定可能」という前提もあったりします(後述)。

よくある質問について

SankeiBizのニュースを読んでどうして「Androidだけなの?」と疑問に思っている人が多そうだったのでそのあたりについてのメモも書いておきます。

どうしてAndroidだけなの?

電力消費から位置を推定する、というレベルでの手法自体は、特にAndroidじゃないと、という話はされていませんし、話の中にiOSも出てきます。しかし、今回Androidが強調されているのは、まず実験(実証)に使用されたアプリがAndroid上に実装された、ということがあると思います。また、著者であるMichalevskyさんが「Androidアプリでは、電力消費の情報を取得するのに許可が不要で、これは、問題なのではないか」という内容の主張をしていることが大きそうです。

Even with its relative imprecision and the need for earlier measurements of power use along possible routes, Michalevsky argues that PowerSpy represents a privacy problem that Google hasn’t fully considered. Android makes power consumption data available to all apps for the purpose of debugging. 引用元

論文中でも、許可が限られた中で、どれだけの情報を得ることができるか頑張った的なことがかかれています。

We emphasize that our approach is based on measuring the phone’s aggregate power consumption and nothing else. We do not read the phone’s signal strength since that data is protected on Android and iOS devices and reading it requires user per-mission. In contrast, reading the phone’s power consumption requires no special permissions and we therefore focus all our efforts on what can be learned from this data.

また、論文中には「Available without special permissions on Android」という注釈があったりもして、そのあたり、Androidのほうがプライバシー・セキュリティ的に問題だ、と。

消費電力なんて使い方次第じゃない?

このあたりは、「その他のメモ」でちょっとだけ紹介します。

その他のメモ

その他のメモ。

消費電力変化間の比較方法

消費電力の変化グラフ間の距離定義にはDynamic Time Warping (DTW)を使用。日本語では「動的時間伸縮法」。

動的時間伸縮法(Dynamic time warping、DTW)は初期の音声認識手法であるが、隠れマルコフモデルに基づく手法が一般化したため、使われなくなった。 引用元

車特化というか車前提?

車(やバスなど)に載っていることが前提にされているっぽい(限定はしていないと思われる)。特に、車だと都合が良かったというか、車じゃないとまた別の何かが必要そう。

というのも、「ルートの特定作業には、どの電力測定結果(電力測定結果のどの部分が) driving activityと関連しgyroscているかの認識も含まれる」とのことだけれど,これについては、電力消費と同じく許可がいらないジャイロスコープや加速度センサーを使って、 「Nericell: rich monitoring of road and traffic conditions using mobile smartphone(ここに車っぽい単語が出てるのがポイント)」の手法を使ったよ、でも詳細はこの論文じゃ扱わないよ、driving activityの特定が可能だと仮定するよ(「,and assume we are capable of identifying driving activity」←論文より)、となっています。

ここで、「車に載っている最中のスマホ操作なんて超限定されるじゃん」と気がつけば、この前提がすごい前提なのではないか、と気がついてしまうのですが。。。(Nericellを読むのは面倒だけどここまでは推測できる的な)

また論文中には、、こんな強い限定にまつわる記述もあります。

of routes, and having no prior knowledge about the victim. We focus on the case of tracking certain users with some sort of daily routine. For example, a mobile device holder can drive to the same place via several possible routes and we want to know which one has she taken

じゃぁ、この方法って何なの?

すごく「役に立たなそう」と思ってしまったかもしれませんが、そもそも「役に立つ」みたいな感覚ではなく、「役に立つケースが有る(役に立つケースが無いわけではない)」を明らかにしたことが大切であって、BBCに載っている、次の言葉がその意味を表していると思います。

"This latest work shows that even that basic characteristics (power consumption) has the potential to invade privacy if monitored in the right way," he added. 引用元

また、こちらも。

Michalevsky and co’s work provides an interesting take on privacy and how it can be so easily undermined. Power usage—who’d have thought! It’s also a warning that whatever steps are taken to protect personal data, there will always be ways that it can leak unexpectedly. 引用元

Stanford’s Michalevsky says that PowerSpy is another reminder of the danger of giving untrusted apps access to a sensor that picks up more information than it’s meant to. “We can abuse attack surfaces in unexpected ways,” he says, “to leak information in ways that it’s not supposed to leak.” 引用元

とても短く言ってしまえば、思わぬ情報、たとえばバッテリー消費データすらプライバシーを侵害する可能性があるんだよ、的な(※もっと書いてある)。

残り

この文はどこ由来なんだろう、と思いつつ面倒で放置した部分一覧。

開発者は「常に居場所が監視され、重大なプライバシー侵害を招く」と警告している 引用元

パワースパイは、持ち主がGPS機能を作動させ、自分の居場所を相手に知らせているかのような精度で追跡できるというのだ。 引用元

うーん、参考(対比)↓(*ampere meter...電流計)

“We showed that applications that read the phone’s ampere meter can gain information about the location of a mobile device without accessing the GPS or any other coarse location indicators,” they say. 引用元

SankeiBizには14kmって書いてあって、MITの記事でもたしかに14 kilometers longって書いてあるけど、論文の実験のFig. 5には 19 kilometersって書いてあるんだよなぁ。本文中も以下のとおり。

We used a dataset of 43 profiles for 4 different routes9 about 19 kilometers each.

ひとこと

ここまで読んだうえで、最初の日本語記事を読むと、だいぶ印象が変わります。。。

参考資料

以下、調べている過程で見たページなどをまとめておきます(すべて英語です)。

コメント(0)

新しいコメントを投稿