فایل robots.txt مثل یه نگهبانه که به کراولرها میگه کدوم قسمتهای سایت رو میتونن بگردن و کدوما رو نه. اینجوری میتونیم جلوی شلوغی بیخودی رو بگیریم یا از کراول شدن صفحاتی که نمیخوایم جلوگیری کنیم. حالا چندتا قانون دیگهای که میتونیم توی این فایل بنویسیم:
دستور User-agent
اینجا میتونیم مشخص کنیم که دستوراتمون برای کدوم کراولرها اعمال بشه. مثلاً اگه بنویسیم User-agent: Googlebot، یعنی فقط داریم به کراولر گوگل دستور میدیم.
دستور Disallow
این دستور برای مشخص کردن اون قسمتهاییه که نمیخوایم کراولرها برن توشون. مثلاً اگه بنویسیم Disallow: /private/، یعنی داریم میگیم که کراولرها حق ندارن برن توی پوشهی خصوصی.
دستور Allow
این دستور برعکس Disallow هست و برای اون قسمتهاییه که میخوایم کراولرها بتونن برن توشون، حتی اگه قبلاً با Disallow مسدودشون کرده باشیم.
دستور Crawl-delay
این دستور برای تنظیم فاصلهی زمانی بین درخواستهای کراولر به سایتمونه تا از فشار زیاد روی سرور جلوگیری کنیم.
یه نکتهی مهم دیگه اینه که فایل robots.txt باید توی دایرکتوری اصلی وبسایت قرار بگیره و حساس به حروف بزرگ و کوچکه، یعنی دقیقاً باید robots.txt نامیده بشه¹².
البته باید بدونین که بعضی از کراولرها ممکنه تصمیم بگیرن که از دستورات فایل robots.txt شما پیروی نکنن، مخصوصاً اونایی که مخرب هستن مثل رباتهای مالور یا جمعآورندگان آدرس ایمیل.
توصیه های مهم درباره robots.txt
اگه میخوای فایل robots.txt سایتت درست و حسابی پشتیبانگیری بشه و کار کنه، چندتا کار ساده هست که باید انجام بدی:
مسیر فایل رو چک کن: اولین قدم اینه که ببینی فایل robots.txt توی ریشهی سایتت هست یا نه. معمولاً باید بتونی با زدن
www.example.com/robots.txt
فایلت رو پیدا کنی.
ابزارهای آنلاین رو امتحان کن: ابزارهای آنلاین زیادی هستن که میتونن فایل robots.txt رو برات چک کنن. مثلاً میتونی از Google Search Console استفاده کنی تا ببینی فایلت درست کار میکنه یا نه.
خودت دستی بررسی کن: یه نگاهی به فایل بنداز و ببین دستوراتی که نوشتی درسته یا نه. مثلاً اگه میخوای یه قسمتی از سایت رو از دسترس خارج کنی، باید از دستور Disallowا ستفاده کرده باشی.
پشتیبانگیری مداوم داشته باش: همیشه از فایل robots.txt بکآپ بگیر و توی جای امنی نگهش دار. اینجوری اگه یه وقتی فایل اصلیت گم شد یا خراب شد، میتونی از بکآپ استفاده کنی.
همیشه بهروز باش: اگه تغییراتی توی ساختار سایتت دادی، فایل robots.txt رو هم بهروز کن تا با ساختار جدیدت همخوانی داشته باشه.
📱 یک نمونه از فایل robots.txt برای یک سایت فروشگاهی وردپرس میتواند شامل دستورات زیر باشد:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /cgi-bin/ Disallow: /checkout/ Disallow: /cart/ Disallow: /users/ Disallow: /user/ Disallow: /account/ Disallow: /profile/ # Allow indexing of content and media files Allow: /wp-content/uploads/ # Sitemap URL
حالا بذارین توضیح بدم که هر کدوم از این دستورات چیکار میکنن:
دستور User-agent: : این دستور به همه کراولرها میگه که دستورات بعدی براشون صدق میکنه.
دستور Disallow: این دستور به کراولرها میگه که کدوم قسمتهای سایت رو نباید بگردن. مثلاً Disallow: /wp-admin/ به کراولرها میگه که به بخش مدیریت وردپرس سرک نکشن.
دستور Allow: این دستور برای اجازه دادن به کراولرهاست تا به بخشهایی که قبلاً با Disallow مسدود شدن، دسترسی داشته باشن. مثلاً Allow: /wp-admin/admin-ajax.php به کراولرها اجازه میده تا به فایلهای مربوط به AJAX در بخش مدیریت دسترسی داشته باشن.
دستور Disallow: بعدیها مثل /wp-includes/ یا /wp-content/plugins/ جلوی دسترسی به فایلهای پلاگینها و کدهای وردپرس رو میگیره که نیازی نیست کراولرها ببیننشون.
دستور Disallow: برای /checkout/, /cart/, /users/, /user/, /account/, /profile/ هم همینطوره، چون این صفحات معمولاً برای کاربران خاصی هستن و نیازی نیست توی نتایج جستجو نشون داده بشن.
دستور Allow: /wp-content/uploads/ اجازه میده که کراولرها به فایلهای رسانهای و محتوایی که آپلود کردین دسترسی داشته باشن.
دستور Sitemap: در آخر هم Sitemap: https://example.com/sitemap_index.xml مکان نقشه سایت XML رو به کراولرها نشون میده تا راحتتر بتونن محتوای سایت رو پیدا کنن و ایندکس کنن.
📱این فایل به کراولرها کمک میکنه تا بدونن کدوم قسمتهای سایت رو باید بگردن و کدوما رو نه. اینطوری میتونیم جلوی ایندکس شدن صفحاتی که نمیخوایم رو بگیریم و به کراولرها کمک کنیم تا روی محتوای مهمتر تمرکز کنن.