خبرنامه
خبرنامه
           

robots.txt چیست؟ آموزش کامل robots.txt

به پایین اسکرول کنید
امید بداق
     

امید بداق

من
  • محل سکونت:
    ایران
  • شهر:
    ارومیه
  • سن:
    25

خرداد ۵, ۱۴۰۳

۲:۲۰ ب.ظ

omidbodagh

فایل robots.txt مثل یه نگهبانه که به کراولرها میگه کدوم قسمت‌های سایت رو می‌تونن بگردن و کدوما رو نه. اینجوری می‌تونیم جلوی شلوغی بی‌خودی رو بگیریم یا از کراول شدن صفحاتی که نمی‌خوایم جلوگیری کنیم. حالا چندتا قانون دیگه‌ای که می‌تونیم توی این فایل بنویسیم:

دستور User-agent

اینجا می‌تونیم مشخص کنیم که دستوراتمون برای کدوم کراولرها اعمال بشه. مثلاً اگه بنویسیم User-agent: Googlebot، یعنی فقط داریم به کراولر گوگل دستور میدیم.

دستور Disallow

این دستور برای مشخص کردن اون قسمت‌هاییه که نمی‌خوایم کراولرها برن توشون. مثلاً اگه بنویسیم Disallow: /private/، یعنی داریم میگیم که کراولرها حق ندارن برن توی پوشه‌ی خصوصی.

دستور Allow

این دستور برعکس Disallow هست و برای اون قسمت‌هاییه که می‌خوایم کراولرها بتونن برن توشون، حتی اگه قبلاً با Disallow مسدودشون کرده باشیم.

دستور Crawl-delay

این دستور برای تنظیم فاصله‌ی زمانی بین درخواست‌های کراولر به سایتمونه تا از فشار زیاد روی سرور جلوگیری کنیم.

یه نکته‌ی مهم دیگه اینه که فایل robots.txt باید توی دایرکتوری اصلی وب‌سایت قرار بگیره و حساس به حروف بزرگ و کوچکه، یعنی دقیقاً باید robots.txt نامیده بشه¹².

البته باید بدونین که بعضی از کراولرها ممکنه تصمیم بگیرن که از دستورات فایل robots.txt شما پیروی نکنن، مخصوصاً اونایی که مخرب هستن مثل ربات‌های مالور یا جمع‌آورندگان آدرس ایمیل.

 

توصیه های مهم درباره robots.txt

اگه می‌خوای فایل robots.txt سایتت درست و حسابی پشتیبان‌گیری بشه و کار کنه، چندتا کار ساده هست که باید انجام بدی:

مسیر فایل رو چک کن: اولین قدم اینه که ببینی فایل robots.txt توی ریشه‌ی سایتت هست یا نه. معمولاً باید بتونی با زدن

www.example.com/robots.txt

فایلت رو پیدا کنی.

ابزارهای آنلاین رو امتحان کن: ابزارهای آنلاین زیادی هستن که می‌تونن فایل robots.txt رو برات چک کنن. مثلاً می‌تونی از Google Search Console استفاده کنی تا ببینی فایلت درست کار می‌کنه یا نه.

خودت دستی بررسی کن: یه نگاهی به فایل بنداز و ببین دستوراتی که نوشتی درسته یا نه. مثلاً اگه می‌خوای یه قسمتی از سایت رو از دسترس خارج کنی، باید از دستور Disallowا ستفاده کرده باشی.

پشتیبان‌گیری مداوم داشته باش: همیشه از فایل robots.txt بک‌آپ بگیر و توی جای امنی نگهش دار. اینجوری اگه یه وقتی فایل اصلیت گم شد یا خراب شد، می‌تونی از بک‌آپ استفاده کنی.

همیشه به‌روز باش: اگه تغییراتی توی ساختار سایتت دادی، فایل robots.txt رو هم به‌روز کن تا با ساختار جدیدت همخوانی داشته باشه.
📱 یک نمونه از فایل robots.txt برای یک سایت فروشگاهی وردپرس می‌تواند شامل دستورات زیر باشد:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Disallow: /wp-includes/

Disallow: /wp-content/plugins/

Disallow: /wp-content/themes/

Disallow: /cgi-bin/

Disallow: /checkout/

Disallow: /cart/

Disallow: /users/

Disallow: /user/

Disallow: /account/

Disallow: /profile/

# Allow indexing of content and media files

Allow: /wp-content/uploads/

# Sitemap URL

حالا بذارین توضیح بدم که هر کدوم از این دستورات چیکار می‌کنن:

دستور User-agent: : این دستور به همه کراولرها میگه که دستورات بعدی براشون صدق می‌کنه.

دستور Disallow: این دستور به کراولرها میگه که کدوم قسمت‌های سایت رو نباید بگردن. مثلاً Disallow: /wp-admin/ به کراولرها میگه که به بخش مدیریت وردپرس سرک نکشن.

دستور Allow: این دستور برای اجازه دادن به کراولرهاست تا به بخش‌هایی که قبلاً با Disallow مسدود شدن، دسترسی داشته باشن. مثلاً Allow: /wp-admin/admin-ajax.php به کراولرها اجازه میده تا به فایل‌های مربوط به AJAX در بخش مدیریت دسترسی داشته باشن.

دستور Disallow: بعدی‌ها مثل /wp-includes/ یا /wp-content/plugins/ جلوی دسترسی به فایل‌های پلاگین‌ها و کدهای وردپرس رو میگیره که نیازی نیست کراولرها ببیننشون.

دستور Disallow: برای /checkout/, /cart/, /users/, /user/, /account/, /profile/ هم همینطوره، چون این صفحات معمولاً برای کاربران خاصی هستن و نیازی نیست توی نتایج جستجو نشون داده بشن.

دستور Allow: /wp-content/uploads/ اجازه میده که کراولرها به فایل‌های رسانه‌ای و محتوایی که آپلود کردین دسترسی داشته باشن.

دستور Sitemap: در آخر هم Sitemap: https://example.com/sitemap_index.xml مکان نقشه سایت XML رو به کراولرها نشون میده تا راحت‌تر بتونن محتوای سایت رو پیدا کنن و ایندکس کنن.

📱این فایل به کراولرها کمک می‌کنه تا بدونن کدوم قسمت‌های سایت رو باید بگردن و کدوما رو نه. اینطوری می‌تونیم جلوی ایندکس شدن صفحاتی که نمی‌خوایم رو بگیریم و به کراولرها کمک کنیم تا روی محتوای مهم‌تر تمرکز کنن.

پست شده در سئو, مشکلات سایت
یک نظر بنویسید

توسعه سایت و سئو سایت مثله همیشه
برای من یک پیام بنویس

    * من قول می دهم که اطلاعات شخصی شما محرمانه باشد