こんにちは、ユタカです。(@yutaka_dreams)
あなたの知りたい項目から読めるように出来ています。
知りたいタイトルから始めてください。
目次
クロール バジェットとは
クロール バジェット(クロールするページ数)を多く持つサイトとは?
- 人気があるサイト
- 質の高いサイト
- 更新頻度が高いサイト
サイトやブログの 人気度や更新頻度が高いサイトほど大きなクロール バジェットを持つ傾向があります。
検索エンジンのクローラが、世界中の全てのサイトの全ページにアクセスすると、100億ページ以上に毎日アクセスする必要があります。
仮に100億ページを月に1回巡回するためには、1秒間に3858ページをクロールする必要があります。
ただ全部のサイトやページが平等にクロールされるわけではありません。
重要なコンテンツが詰まっているサイトや更新が早く情報の新鮮さが重要なページは優先して、
高速にクロールされます。
その時サイトの重要度やページ毎の更新速度を考慮してクロール速度が決められます。

クロールされるページ数が決まるクロール バジェット
クロール頻度に加えてもう一つ序列が決まるのが、サイト内で何ページ目までクロールするかです。
重要なサイトであれば多くのページがあっても全部クロールすべきですし、ほとんど中身のないサイトであれば何百ページあったとしても1ページしかクロールしないかもしれません。
このようにサイトの重要度によって、検索エンジンがクロールするページ数は決まっているようです。

≫Googleにインデックスされない理由は下記をごらんください。

残念ながら、自分のサイトのクロール バジェットが、どのくらいなのかを知る方法はありません。
では具体的に何をすればいいのでしょうか?
サイトやブログ内のページ数が比較的多い中大規模サイトの場合は、まずクロール バジェットを節約することをお勧めします。
以下のような方法でクロール バジェットの節約が可能なので、節約できる部分がないか確認していきましょう。
404の設定
404とはサイトにアクセスしたものの該当するページがないことを示すエラーメッセージです。
削除されたページはサーバーから404を返すことによって、何その URL はクロール対象から外されます。
この設定が正しく入ってきているかチェックしましょう。
類似ページの設定
オートバイのヘルメットなので、色ごとに型番が異なるような場合、ユーザーは前職を1ページで見たいと想定されます。
もし前職を一覧できる電子等各職のページがそれぞれ別に存在するような場合には、各色の兵士が類似ページと認識されます。
このようなページは ajax による画面内での画像差し替えなどを用いて、
各色のページがクロールされないようにすると良いでしょう。
ページネーションの設定
1ページ内に表示できる情報の件数が少ないと結果としてページ数が増えクロール バジェットを消費してしまいます。
サイト内検索
サイト内検索血管をトップページからリンクしてるような場合、サイト内検索がインデックスされてしまうことがあります。
むやみにインデックスさせないように注意するととに、意図的にインデックスさせる場合には、サイト内検索結果画面内に、別サイト内検索結果へのリンクを絶対はらないようにしましょう。
≫内部リンクを効率的に上げる方法は下記をごらんください。
