کنترل روبات جستجو در سئو

زمانی که روبات های اولیه ساخنه شده بودند، تعدادی از آن ها با درخواست کردن تعداد زیادی از صفحات، سرورها را مختل می کردند. استاداردی برای متوقف سازی روبات ها ساخته شد تا شما بتوانید به هر یک از (یا تمامی) روبات ها بگویید که نمی خواهید بعضی از صفحه هایتان فهرست شوند و یا بعضی از لینک هایتان دنبال شوند. شما می توانید این کار را از طریق یک متاتگ در هر صفحه

و یا با ساختن یک فایل robots.txt که در ریشه اصلی (root) سایت شما قرار می گیرد، انجام دهید. هدف کلیه این روش ها در سئو این است که به روبات ها بفهمانید که به کجا نروند. استاندارد رسمی پروتکل متوقف سازی روبات ها در آدرس زیر قرار دارد.

http://www.robotstxt.org/orig.html

شما نیازی به استفاده از فایل robots.txt ندارید. به طور پیش فرض موتورهای جستجو سایت تان را فهرست می کنند. اگر یک فایل robots.txt بسازید، باید آن را در ریشه اصلی سایت قرار دهید و نام آن را robots.txt بگذارید.

این دستور به همه روبات ها اجاره می دهد که همه چیز را فهرست کنند:

User-agent: *

Disallow:

این دستور از ورود همه روبات ها به سایتتان جلوگیری می کند:

User-agent: *

Disallow: /

شما می توانید از ورود روبات به یک فولدر و یا فایل خاص جلوگیری کنید. این دستور از ورود به فولدر جلوگیری می کند:

User-agent: *

Disallow: /projects/

این دستور از ورود به فایل جلوگیری می کند:

User-agent: *

Disallow: /cheese/please.html

اگر در فایل robots.txt دستوری را برای یک روبات خاص (برای مثال User-agent:Googlebot) بنویسید، آن موتور جستجوی خاص، دستورات کلی تر را که مخصوص تمام روبات ها(User-agent: *) است را نادیده می گیرد.

یکی از مشکلات رایج سایت های دینامیک، جلوگیری از فهرست شدن صفحات با مطالبی نسبتا مشابه در موتورهای جستجو است. برای مثال اگر شما محصولاتی با اندازه ها و رنگ های مختلف دارید، امکان این وجود دارد که بخواهید تعداد زیادی از صفحات با مطالب بسیار شبیه به هم بسازید و در ضمن موتور جستجو را از فهرست کردن تمام سایت خود منع کنید.

اگر شما متغیرهایتان را در ابتدای آدرس هایتان بگذارید، به آسانی می توانید در چند خط، مانع فهرست شدن موارد مشابه شوید. برای مثال برای منع کردن موتورهای جستجو از ورود به آدرس هایی که با cart.aspx?size و یا cart.aspx?color شروع می شوند.

User-agent: *

Disallow: /cart.aspx/size

Disallow: /cart.aspx/color

دقت کنید که هیچ علامت ممیزی ( / ) در انتهای کدهای منع کننده ی بالا وجود ندارد. این به آن معنیاست که موتوهای جستجو، اجازه ی فهرست کردن صفحاتی که با آن پارامترها در آدرس هستند را ندارند. اگر یک ممیز در انتهاداشتیم به این معنی بود که موتورهای جستجو فقط یک فولدر خاص را بلوک می کنند.

اگر موارد کشابه را در انتهای آدرس اضافه کردید، ممکن است که بخواهید برای بعضی از صفحات مشابه استثناهایی اعمال کنید. همچنین می توانید یک روبات خاص را مستثنی کنید (مانند Googlebot به جای نشان *). بسیاری از روبات های نامعتبر از فایل robots.txt چشم پوشی می کنند و مطالب بلوک شده را نیز مشاهده می کنند.

Googlebot (روبات گوگل) از کاراکترهای بیشتری در فایل robots,txt پشتیبانی می کند.دستور زیر Googlebot را از دسترسی به هر آدرسی که در آن ‘sort=’ وجود داشته باشد را منع می کند، بدون توجه به این که این عبارت در کجای آدرس قرار دارد. به این قابلیت wildcard گفته می شود.

User-agent: Googlebot

Disallow: /*sort=

از سال 2006 شرکت یاهو نیز قابلیت wildcard را پشتیبانی می کند.

هنگام ویرایش فایل robots.txt مراقب باشید. به این دلیل که کد زیر

Disallow: /*page

فایل هایی مانند beauty-pageants.aspx را از فهرست شدن در گوگل منع می کند.

ابزارهای Google Webmater به شما لیست صفحاتی که از فهرست شدن در گوگل با استفاده از فایل robots.txt منع شده اند را نمایش می دهد. همچنین ابزاری برای آزمایش فایل robots.txt دارد که به شما لیست آدرس هایی که در نهایت با این فایل بلاک می شوند را نشان می دهد.

در سال 2007 گوگل یک متا تگ به نام unavailable_after (نامعتبر بعد از) را معرفی کرد که به گوگل می گوید که یک آدرس را بعد از یک تاریخ مشخص، بازرسی نکن. این را از پویا فضلعلی به خاطر داشته باشید که از ابن کد استفاده نکنید و به جای آن اگر یکی از آدرس های قدیمی تان را می خواهید به آدرس جدیدی منتقل کنید از روش انتقال 301 (301 Redirecting) استفاده کنید.