Googleクローラーとは、検索結果に情報を登録するために膨大なサイトを駆け巡っている仕組みを指します。
Googleにインデックス登録(検索結果に載せる)してもらうために、サイトマップとrobots.txtを用意します。
本記事では、企業サイトを作成した際に行ったサイトマップとrobots.txtを例に備忘録として残します。
XML|sitemap.xml
サイトマップとは、サイト上のページや動画ファイルについての情報を検索エンジンに伝えるためのファイルです。
サイトマップは、XML、RSS、Text等々で定義することができますが、今回はブログではなく更新がされない固定の企業ページのためXML形式で作成しました。
Googleでは、XML形式以外のサイトマップもサポートをしています。
>Google Search Console help
まずは、実際に作成した内容をご覧ください。
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>https://ドメイン/</loc> <lastmod>2020-08-02</lastmod> <changefreq>never</changefreq> </url> </urlset>
すごくシンプルです(笑)
定義するタグに決まりがあるので、かなりシンプルです。
下記タグは必ず記述しなければならない必須タグです。
<urlset>…現在の標準プロトコルを参照します。
<url>…各エントリタグの親タグです。
<loc>…WebページのURLを定義します。サーバーによっては、httpプロトコル・末尾にスラッシュを含める必要があります。
下記タグはオプションです。
<lastmod>…ファイルの最終更新日をW3C Datetime形式で記載します。
YYYY-MM-DD もしくは YYYY-MM-DDThh:mm:ss+TZD
<changefreq>…ページの更新頻度を示します。クローラーはこの更新頻度を参考にクロール頻度を調整します。
※今回は、更新がないページなのでneverとしておりますが、たとえneverにしていたとしてもクローラーは定期的にめぐってきます。
<priority>…クローラーにページの優先度を知らせます。
※今回は、シングルページを作成したのでpriorityタグは使用しておりません。
作成したsitemap.xmlは、最上位のディレクトリに格納してください。
robots.txt
先ほど作成したサイトマップの保存先をクローラーに教えるためにrobots.txtを作成します。
メモ帳などで作成してOKですが、エンコードをUTF-8にしてください。
>google robots.txtの仕様
早速、作成したTXTをご覧ください。
User-agent: *Sitemap: https://ドメイン/sitemap.xml
記述する内容は、下記4つです。
【必須】User-agent…命令を与えるエージェントの名前を記述します。
(例)
User-agent:* → 全てのクローラーが対象
User-agent:Googlebot → Googlebotのみ対象
【任意】Disallow…クロールをブロックするページやディレクトリを記述します。
【任意】Allow…クロールを許可するページやディレクトリを記述します。
※Allowはこの4項目の中で最も使用頻度が低いです。特段記述する必要はありません。
【任意】Sitemap…sitemap.xmlの場所を記述します。記述は絶対パスで記入して下さい。
作成したrobots.txtは最上位のディレクトリに格納してください。(sitemap.xmlと同じ場所)
Googleにサイトマップを送信する
クロールが自動的に巡回するのを待つのも良しですが、あらゆるリンクをたどりながらクロールをしているので、いつ訪れてくれるか確証はありません。
そこで、Googleにこちらから「サイト作ったよ!よろしく!」と申し出をしてあげるとクロール巡回にリクエストすることができます。
ここで使用するサービスがGoogle Search Consoleです。
もちろん無料です!
>google公式のサイトマップ送信リンク
Google Search Consoleの使い方を挙げている記事が多く存在しておりますので、HOW TOはここでは記載しません。
手順のみ記載します。
- google search consoleにログイン
- ドメインを登録していない場合、左上のプロパティを検索のところから「プロパティを追加」
- 左メニューの「サイトマップ」
- 新しいサイトマップの追加で「https://ドメイン/sitemap.xml」で送信
- ステータスが「成功しました」になればOK