Tech Rogue◆コンピュータ情報: Google クローラ

2016年9月8日木曜日

Google クローラ

Google クローラ
「クローラ」は、ウェブページ間のリンクをたどることによってウェブサイトを自動的に検出してスキャンするプログラム（ロボットやスパイダーなど）の総称です。
Google のメインのクローラは Googlebot と呼ばれます。
次の表に、リファラーログに表示される可能性のある一般的な Google のクローラと、
robots.txt、robots メタタグ、X-Robots-Tag HTTP ディレクティブでそのクローラをどのように指定するかについて示します。
クローラ
ユーザーエージェントトークン
完全なユーザーエージェント文字列（ウェブサイトのログファイルに表示）
Googlebot（Google ウェブ検索）
Googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
または
（まれに使用）: Googlebot/2.1 (+http://www.google.com/bot.html)
ニュース用 Googlebot Googlebot-News
(Googlebot) Googlebot-News
画像用 Googlebot Googlebot-Image
(Googlebot) Googlebot-Image/1.0
動画用 Googlebot Googlebot-Video
(Googlebot) Googlebot-Video/1.0
Google モバイル（フィーチャーフォン）
Googlebot-Mobile •SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI)
MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
•DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Google スマートフォン Googlebot
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P)
AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Google モバイル AdSense Mediapartners-Google
または
Mediapartners
(Googlebot) 「各種携帯端末」(compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdSense Mediapartners-Google
Mediapartners
(Googlebot) Mediapartners-Google
Google AdsBot を使ったリンク先ページの品質確認 AdsBot-Google AdsBot-Google (+http://www.google.com/adsbot.html)
Google アプリクローラ
（モバイルアプリのリソースの取得に使用します。AdsBot-Google ロボットルールに従います。）
AdsBot-Google-Mobile-Apps AdsBot-Google-Mobile-Apps
robots.txt
robots.txt ファイルの中で、複数のユーザーエージェントが見つかった場合は、
最も限定的なものに従って Google のクロールが行われます。
サイトのページをすべてクロールさせたい場合は、robots.txt ファイルを作成する必要はありません。
一部のコンテンツに対して Google のクローラによるアクセスをブロックまたは許可する場合は、
Googlebot をユーザーエージェントとして指定します。
たとえば、サイトのどのページも Google 検索結果に表示されるようにしたい場合や、
AdSense 広告をサイトのページ上に表示したい場合は、robots.txt ファイルは必要ありません。
また、一部のページに対して Google からのアクセスを一切ブロックしたい場合は、
ユーザーエージェント Googlebot をブロックすると、Google の他のユーザーエージェントもすべてブロックされます。
さらに細かくコントロールしたい場合は、より限定的に指定します。
たとえば、サイトのページを Google 検索結果に表示させても、/personal ディレクトリにある画像はクロールの対象外にしたい場合があります。
その場合、robots.txt を使用して、ユーザーエージェント Googlebot-image による /personal ディレクトリ内のファイルのクロールを禁止する
（一方で、Googlebot にはすべてのファイルのクロールを許可する）ように指定します。次に例を示します。
User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow: /personal
別の例として、サイトのすべてのページに広告を表示させても、
ページを Google 検索結果には表示したくない場合が考えられます。
その場合は、次のように、Googlebot をブロックし、Mediapartners-Google によるアクセスは許可します。
User-agent: Googlebot
Disallow: /
User-agent: Mediapartners-Google
Disallow:

google.com
https://www.google.com/webmasters/tools/home?hl=ja
https://support.google.com/webmasters/answer/183669?hl=ja

robots meta タグ
ページによっては、次のように、
複数の robots meta タグを使用してクローラごとにディレクティブを指定することもあります。

このような場合、Google はすべての不許可ディレクティブに従います。
つまり、Googlebot は noindex と nofollow の両方のディレクティブに従います。
Google によるサイトのクロール方法とインデックス登録方法の管理について詳細をご確認ください。

google.com
https://support.google.com/webmasters/answer/1061943?hl=ja&ref_topic=4610900
https://support.google.com/webmasters/answer/183669?hl=ja

Tech Rogue◆コンピュータ情報

2016年9月8日木曜日

Google クローラ

0 件のコメント:

コメントを投稿