2016年9月8日木曜日

Google クローラ


Google クローラ
「クローラ」は、ウェブページ間のリンクをたどることによってウェブサイトを自動的に検出してスキャンするプログラム(ロボットやスパイダーなど)の総称です。
Google のメインのクローラは Googlebot と呼ばれます。
次の表に、リファラーログに表示される可能性のある一般的な Google のクローラと、
robots.txt、robots メタタグ、X-Robots-Tag HTTP ディレクティブでそのクローラをどのように指定するかについて示します。
クローラ
ユーザー エージェント トークン
完全なユーザー エージェント文字列(ウェブサイトのログファイルに表示)
Googlebot(Google ウェブ検索)
Googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
または
(まれに使用): Googlebot/2.1 (+http://www.google.com/bot.html)
ニュース用 Googlebot Googlebot-News
 (Googlebot) Googlebot-News
画像用 Googlebot Googlebot-Image
 (Googlebot) Googlebot-Image/1.0
動画用 Googlebot Googlebot-Video
 (Googlebot) Googlebot-Video/1.0
Google モバイル(フィーチャーフォン)
Googlebot-Mobile •SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI)
MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
•DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Google スマートフォン Googlebot
​Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P)
AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Google モバイル AdSense Mediapartners-Google
または
Mediapartners
 (Googlebot) 「各種携帯端末」(compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdSense Mediapartners-Google
Mediapartners
 (Googlebot) Mediapartners-Google
Google AdsBot を使ったリンク先ページの品質確認 AdsBot-Google AdsBot-Google (+http://www.google.com/adsbot.html)
Google アプリクローラ
(モバイルアプリのリソースの取得に使用します。AdsBot-Google ロボットルールに従います。)
 AdsBot-Google-Mobile-Apps AdsBot-Google-Mobile-Apps
robots.txt
robots.txt ファイルの中で、複数のユーザー エージェントが見つかった場合は、
最も限定的なものに従って Google のクロールが行われます。
サイトのページをすべてクロールさせたい場合は、robots.txt ファイルを作成する必要はありません。
一部のコンテンツに対して Google のクローラによるアクセスをブロックまたは許可する場合は、
Googlebot をユーザー エージェントとして指定します。
たとえば、サイトのどのページも Google 検索結果に表示されるようにしたい場合や、
AdSense 広告をサイトのページ上に表示したい場合は、robots.txt ファイルは必要ありません。
また、一部のページに対して Google からのアクセスを一切ブロックしたい場合は、
ユーザー エージェント Googlebot をブロックすると、Google の他のユーザー エージェントもすべてブロックされます。
さらに細かくコントロールしたい場合は、より限定的に指定します。
たとえば、サイトのページを Google 検索結果に表示させても、/personal ディレクトリにある画像はクロールの対象外にしたい場合があります。
その場合、robots.txt を使用して、ユーザー エージェント Googlebot-image による /personal ディレクトリ内のファイルのクロールを禁止する
(一方で、Googlebot にはすべてのファイルのクロールを許可する)ように指定します。次に例を示します。
User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow: /personal
別の例として、サイトのすべてのページに広告を表示させても、
ページを Google 検索結果には表示したくない場合が考えられます。
その場合は、次のように、Googlebot をブロックし、Mediapartners-Google によるアクセスは許可します。
User-agent: Googlebot
Disallow: /
User-agent: Mediapartners-Google
Disallow:







robots meta タグ
ページによっては、次のように、
複数の robots meta タグを使用してクローラごとにディレクティブを指定することもあります。

このような場合、Google はすべての不許可ディレクティブに従います。
つまり、Googlebot は noindex と nofollow の両方のディレクティブに従います。
Google によるサイトのクロール方法とインデックス登録方法の管理について詳細をご確認ください。

0 件のコメント:

コメントを投稿