فایل robots.txt چیست؟
فایل robots.txt یک فایل متنی ساده است که به وب مسترها امکان میدهد دسترسی موتورهای جستجو به بخشهای خاصی از وبسایت را مدیریت کنند. این فایل در دایرکتوری اصلی (root) سایت قرار میگیرد و توسط خزندههای موتورهای جستجو (مانند Googlebot) خوانده میشود.
چرا فایل robots.txt اهمیت دارد؟
- کنترل دسترسی: امکان محدود کردن دسترسی موتورهای جستجو به بخشهایی از سایت.
- بهینهسازی بودجه خزیدن: جلوگیری از خزیدن صفحات غیرضروری و تمرکز بر محتوای مهم.
- حفظ حریم خصوصی: جلوگیری از ایندکس شدن اطلاعات حساس یا صفحات آزمایشی.
ساختار فایل robots.txt
فایل robots.txt از دستورالعملهایی تشکیل شده که به خزندهها (user-agents) اعلام میکند چه بخشهایی را مجاز به خزیدن هستند یا نیستند. مثال ساده:
User-agent: *
Disallow: /private/
Allow: /public/
- User-agent: تعیین خزنده موردنظر (مثلاً Googlebot).
- Disallow: مشخص کردن بخشهایی که نباید خزیده شوند.
- Allow: اجازه دادن به خزیدن بخشهای خاص.
چگونه فایل robots.txt بنویسیم؟
- یک فایل متنی ساده ایجاد کنید و نام آن را
robots.txt
بگذارید. - دستورالعملهای لازم را وارد کنید، مانند مثال بالا.
- فایل را در دایرکتوری root وبسایت آپلود کنید (مثلاً
/robots.txt
).
نکات مهم در استفاده از robots.txt
- اگر نمیخواهید صفحهای در نتایج گوگل نمایش داده شود، استفاده تنها از
Disallow
کافی نیست؛ بهتر است از متا تگ<meta name="robots" content="noindex">
نیز استفاده کنید. - Crawl-delay برای تنظیم تأخیر خزیدن توسط برخی موتورهای جستجو مفید است.
- Punctuation حساسیت دارد؛ مراقب فرمت فایل باشید.