فایل robots.txt چیست؟

فایل robots.txt یک فایل متنی ساده است که به وب مسترها امکان می‌دهد دسترسی موتورهای جستجو به بخش‌های خاصی از وب‌سایت را مدیریت کنند. این فایل در دایرکتوری اصلی (root) سایت قرار می‌گیرد و توسط خزنده‌های موتورهای جستجو (مانند Googlebot) خوانده می‌شود.

چرا فایل robots.txt اهمیت دارد؟

  • کنترل دسترسی: امکان محدود کردن دسترسی موتورهای جستجو به بخش‌هایی از سایت.
  • بهینه‌سازی بودجه خزیدن: جلوگیری از خزیدن صفحات غیرضروری و تمرکز بر محتوای مهم.
  • حفظ حریم خصوصی: جلوگیری از ایندکس شدن اطلاعات حساس یا صفحات آزمایشی.

ساختار فایل robots.txt

فایل robots.txt از دستورالعمل‌هایی تشکیل شده که به خزنده‌ها (user-agents) اعلام می‌کند چه بخش‌هایی را مجاز به خزیدن هستند یا نیستند. مثال ساده:

User-agent: *
Disallow: /private/
Allow: /public/
  • User-agent: تعیین خزنده موردنظر (مثلاً Googlebot).
  • Disallow: مشخص کردن بخش‌هایی که نباید خزیده شوند.
  • Allow: اجازه دادن به خزیدن بخش‌های خاص.

چگونه فایل robots.txt بنویسیم؟

  1. یک فایل متنی ساده ایجاد کنید و نام آن را robots.txt بگذارید.
  2. دستورالعمل‌های لازم را وارد کنید، مانند مثال بالا.
  3. فایل را در دایرکتوری root وب‌سایت آپلود کنید (مثلاً /robots.txt).

نکات مهم در استفاده از robots.txt

  • اگر نمی‌خواهید صفحه‌ای در نتایج گوگل نمایش داده شود، استفاده تنها از Disallow کافی نیست؛ بهتر است از متا تگ <meta name="robots" content="noindex"> نیز استفاده کنید.
  • Crawl-delay برای تنظیم تأخیر خزیدن توسط برخی موتورهای جستجو مفید است.
  • Punctuation حساسیت دارد؛ مراقب فرمت فایل باشید.