情報科学屋さんを目指す人のメモ

方法・手順・解説を書き残すブログ。私と同じことを繰り返さずに済むように。

IE10のユーザーエージェントでアクセスしてくる謎のロボットについてメモ

ちょっとbotのアクセスについて調べたくて「/robots.txt」へのアクセスをチェックしていたのですが、謎のロボットが頻繁に訪れているようで気になったので調べました。結論を言うと、アクセス元は「LINE株式会社」でした。利用しているサービスは不明です。UAに何も書いてないから

謎のロボットのアクセス

アクセスログのサンプルがコチラ。

103.2.28.154 - - [17/May/2014:00:00:00 +0900] "GET /robots.txt HTTP/1.1" 200 849 "-" "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)"

アクセスログをrobots.txtでgrepすると、UserAgentの部分にはいろいろなところのロボットのUA(ユーザーエージェント)が表示されます(※)。

(※)これはどうしてかというと、そもそもrobots.txtにはロボット(機械的にページの情報を収集するプログラム)からのアクセスの拒否情報を記載しておくファイルで、ロボットはアクセスする前に、自分のアクセスが許されているかを確認するのが礼儀となっています。なので、robots.txtのアクセスを見ていると、沢山のロボットの存在が確認できます。

例えば、はてなブックマークのボットだと「Hatena::Bookmark/2.00」で、ツイッターのボットだと「Twitterbot/1.0(多い)」です。このように、自分が何のサービスのためのアクセスなのか、自己紹介しつつアクセスに来る感じです。

その中にとても頻繁にこの「普通のユーザーエージェント(Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)」からのアクセスがありました

通常、robots.txtにアクセスするプログラムはユーザーエージェントで身元を明らかにするようなプログラムであるため、普通のUAのこのアクセスを見て最初はrobots.txtを参考にしたいブロガーの人とかかな?(普通の人はrobots.txtなんて見ない)とか思ったのですが、すぐめっちゃ大量にあるぞということに気が付きました。

「Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0」とは

この「Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0」というユーザーエージェントは、Internet Explorer 10.0の標準的なUser Agentのようです(Windows 7)。

参考:IE10 User Agent String Update - IEBlog - Site Home - MSDN Blogs

IPアドレスからLINE株式会社であることが判明

で、ちょっと謎で気になったので調べてみたのですが、アクセス元IPアドレスから、LINE株式会社のIPアドレスであることが分かりました

参考:IpX/ 103.2.28.154

ページ自体も普通のユーザーエージェントでアクセスしている

ここまでわかった段階で、そのIPアドレスで、他にどんなアクセスをしているのか、調べてみました

それがこんな感じ。

103.2.28.154 - - [17/May/2014:00:00:00 +0900] "GET /robots.txt HTTP/1.1" 200 849 "-" "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)"
103.2.28.154 - - [17/May/2014:00:00:00 +0900] "GET /2014/05/14/popular-free-music-applications-analysis/ HTTP/1.1" 200 13454 "-" "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)"

robots.txtだけでなく、目的ページヘのアクセスでも、同じユーザーエージェントを使っています

Naverからのbotは「Yeti」が有名なので、チェックしてみると、これらのアクセスとは別に、かなり少ないですが「Yeti/1.1 (Naver Corp.; http://help.naver.com/robots/)」というUAがありました(ただし、「http://help.naver.com/robots/ のページは存在せず)。こちらは韓国からのアクセスなので、今回のIPアドレスのアクセスとはまた別のようです(Naverを連想したのがいけなかった、LINEだった)。

ところで

これはただのユーザーエージェントの設定し忘れかと思うのですが(こっそりアクセスしようと思ったらIPアドレス別に用意すればいいんだし)、1つだけ変な(普通すぎる)ユーザーエージェントからrobotsに多数のアクセスが来ていて変だなーと思ったので調べてみて、せっかくなので書き残しておきました

ところで、Gunosyのボットのユーザーエージェントをご存じの方はいらっしゃいませんか。Gunosyが記事データを取りに来ているアクセスがどれなのかわかりません。それともはてブ経由で取りに来ていて、オリジナルコンテンツは取りに来てないのかな。

コメント(0)

新しいコメントを投稿