またまたNaver
前回、セッション付きリンクをまともに追えず、毎秒数回も同一ファイルに対するリクエストを送りつけてサイトに多大な負荷を掛けてくる→
「(負荷の大きい)PHP+MySQL部分をクロールする事はまかりならん!」
とNaverのロボット(dloader(NaverRobot)/1.5)を蹴り飛ばしたんですが、今度は
Cowbot-0.1 (NHN Corp. / +82-2-3011-1954 / nhnbot@naver.com)
を名乗るロボットがやってまいりました。しかしまぁコロコロとよくUAの変わるクローラーです。やっぱ、あちこちでよっぽど嫌われてるってことなんですかなぁ?!(^^;;
こいつ、相変わらずの傍若無人ぶりなんですが、
・リクエスト間隔が5秒程度まで拡がってる
・セッションをちゃんと切ってリンクを追ってる
ということで、このレベルならサイトを落とされる心配もあまりない→今回はとりあえず.htaccessでは弾かずクローラーを見逃し、PHP+MySQL部分も含めてサイト内の走査を許可することにしました。
確かに少々うっとおしくて邪魔っけではあるんですが、サイトを落とされる心配がないのなら目くじら立てて弾く事もないかなという判断。
実際の負荷状況は、こんな感じ。Cowbotのアクセス時間は4時間47分、リクエスト数3400強(=平均リクエスト間隔5秒)、トラフィックは100MBくらいでした。
(ちなみに、昼前に立ち上がってる転送量ピークは巨大MP3ファイルへの集中アクセスが原因で、Naverのロボットとは無関係です:^^;)
↑こちらはGooglebotによるサーバ負荷の様子。
NaverもCowBotになって随分マシになったとはいえ、だらだらと五月雨式にリクエストを送ってくるGooglebotのほうが、圧倒的に(特にCPU)負荷が少ないと言う事がよくわかります。未だ結構な差がありますね。