robots.txtとは何か
robots.txtはrobotsプロトコルとも呼ばれ、国際的なインターネット界で通用する倫理規範です。robots.txtはテキストファイルで、あなたのサイトのルートディレクトリに配置され、検索エンジンにどのページがクロール可能で、どのページがクロール不可かを伝えます。サイト内の大きなファイル、例えば画像、音楽、動画などをブロックし、サーバーの帯域幅を節約できます。サイト内のデッドリンクをブロックし、検索エンジンがサイトのコンテンツをクロールしやすくします。サイトマップのリンクを設定し、スパイダーがページをクロールするのを導きやすくします。robots.txtファイルの作成方法
メモ帳などのテキスト編集ソフトウェアを使用して、ファイル名をrobots.txtとしたテキストファイルを作成し、このファイルをサイトのルートディレクトリにアップロードするだけで作成完了です。また、robots生成ツールオンライン生成。robots.txtルールの書き方
単独でrobots.txtファイルを作成するだけでは不十分で、肝心なのは自身のサイトに適したrobotsルールを記述することです。robots.txtは以下のルールをサポートしていますUser-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符 Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录 Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录 Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址 Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。 Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录 Allow: /tmp 这里定义是允许爬寻tmp的整个目录 Allow: .htm$ 仅允许访问以".htm"为后缀的URL。 Allow: .gif$ 允许抓取网页和gif格式图片 Sitemap: 网站地图 告诉爬虫这个页面是网站地图ここでは、ウェブマスターツールのrobots生成ツールを使用してルールを記述することをお勧めします。より簡単で明確になります。robots生成ツール
Naiba ヒント: ヒント:Disallow:の後にスラッシュを付けない場合、サイト全体のクロールを許可することを意味します。
WordPressのrobots.txtルール推奨
WordPressのインストール完了後、デフォルトで仮想的なrobots.txtルールファイルが作成されます(つまり、サイトディレクトリ内では見つかりませんが、„网址/robots.txt」でアクセス可能です)デフォルトのルールは以下の通りです:User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.phpこのルールの意味は、すべての検索エンジンに対し、
wp-adminフォルダ以下の内容のクロールを禁止し、/wp-admin/admin-ajax.phpこのファイルのクロールを許可することです。しかし、サイトのSEOとセキュリティの観点から、Naibaはルールをより完全にすることをお勧めします。以下は、Naiba サイト構築ノートの現在のrobots.txtルールです。User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/plugins/ Disallow: /?s=* Allow: /wp-admin/admin-ajax.php User-agent: YandexBot Disallow: / User-agent: DotBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: YaK Disallow: / Sitemap: https://blog.naibabiji.com/sitemap_index.xml上記のルールは、デフォルトのルールに以下の2行を追加したものです:
Disallow: /wp-content/plugins/ Disallow: /?s=*フォルダのクロールを禁止
/wp-content/plugins/およびURLが/?s=*のウェブページ。/wp-content/plugins/はWordPressのプラグインディレクトリであり、クロールされることでプライバシーリスクが生じるのを防ぎます(例えば、一部のプラグインにプライバシー漏洩のバグがあり、それが検索エンジンにクロールされてしまう可能性があります。)検索結果ページのクロールを禁止し、他者による権威付けの濫用を防ぎます:URLが/?s=*のウェブページです。これは最近Naibaが発見した、SEOグレーマーケットプロジェクトに悪用される可能性のあるバグです。/?s=*のURLはWordPressサイトのデフォルトの検索結果ページです。以下の図の通り:
基本的に大多数のWordPressテーマ検索ページのタイトルは„キーワード+サイトタイトル“の組み合わせ形式です。しかし、これには問題があり、百度がこのようなページをクロールする可能性があることです。例えば、Naibaのサイトの一つが不幸にも悪用されたことがあります。
後のいくつかのルールは、特定の検索エンジンのクロールルールの禁止と、sitemapアドレスリンクです。WordPressでサイトマップを生成するいくつかの方法_sitemapプラグインの推奨
コメントは終了しました
この記事のコメント機能は終了しています。ご質問がある場合は、他の方法でお問い合わせください。