الدليل الشامل لملف Robots.txt لتحسين محركات البحث
Robots.txt هو ملف يمكنك إنشاؤه للتحكم في الزحف إلى موقع الويب الخاص بك.
إنه التطبيق العملي لبروتوكول استبعاد الروبوتات، الذي تم إنشاؤه من أجل منع برامج زحف الويب من إغراق مواقع الويب بعدد كبير جدًا من الطلبات.
قد يكون من غير الملائم لمالكي الخدمة أن تزور عناكب الزحف كامل مساحة URI الخاصة بهم. يحدد هذا المستند القواعد التي تم تحديدها في الأصل بواسطة “بروتوكول استبعاد برامج الروبوت” والتي من المتوقع أن تلتزم بها عناكب الزحف عند الوصول إلى عناوين URL. المصدر: بروتوكول استبعاد الروبوتات
على الرغم من أنه ليس من الضروري أن يستخدم موقع الويب الخاص بك robots.txt، فإن وجود واحد يمكن أن يؤثر بشكل إيجابي على عملك من خلال تحسين آلية روبوت محرك البحث الزحف إلى موقعك.
وفقًا لتقويم الويب 2021، حوالي 16،5% من مواقع الويب لا تحتوي على ملف robots.txt على الإطلاق. بالإضافة إلى ذلك، لا ينفذه الجميع بشكل صحيح.
قد تحتوي مواقع الويب على ملفات robots.txt مكونة بشكل خاطئ. على سبيل المثال، كانت بعض مواقع الويب الشهيرة (عن طريق الخطأ على الأرجح) تحظر محركات البحث. قد تحتفظ Google بمواقع الويب هذه مفهرسة لفترة من الوقت، ولكن في النهاية سيتم تقليل ظهورها في نتائج البحث. المصدر: Web Almanac
اعتمادًا على حجم موقع الويب الخاص بك، استخدام ملف robots.txt بشكل غير صحيح يمكن أن يكون خطأ بسيطًا أو مكلفًا للغاية.
ستوضح لك هذه المقالة كيفية إنشاء ملف robots.txt وتجنب الأخطاء المحتملة.
ما هو ملف robots.txt؟
Robots.txt هو ملف نصي بسيط يمكنك وضعه على خادمك للتحكم في كيفية وصول الروبوتات إلى صفحاتك. يحتوي على قواعد لعناكب الزحف تحدد الصفحات التي يجب الزحف إليها أو لا يجب الزحف إليها.
يجب أن يكون الملف موجودًا في الدليل الجذر لموقع الويب الخاص بك. لذلك، على سبيل المثال، إذا كان موقع الويب الخاص بك يسمى domain.com، فيجب أن يكون ملف robots.txt موجودًا على domain.com/robots.txt.
ولكن كيف يعمل الملف؟ كيف تكتشفه الروبوتات؟
عناكب الزحف هي برامج تقوم بالزحف إلى الويب. لها استخدامات مختلفة، لكن محركات البحث تستخدمها للعثور على محتوى ويب للفهرسة. يمكن تقسيم هذه العملية إلى بضع خطوات:
- تحتوي عناكب الزحف على قائمة انتظار من عناوين URL تحتوي على مواقع الويب الجديدة والمعروفة سابقًا التي يريدون الزحف إليها.
- قبل الزحف إلى موقع ويب، تبحث عناكب الزحف أولاً عن ملف robots.txt في الدليل الجذر لموقع الويب.
- في حالة عدم وجود ملف robots.txt، تتابع عناكب الزحف الزحف إلى موقع الويب بحرية. ومع ذلك، في حالة وجود ملف robots.txt صالح، تبحث عناكب الزحف بداخله عن التوجيهات وتتابع الزحف إلى موقع الويب وفقًا لذلك.
إذا تعذر على محرك البحث الزحف إلى الصفحة، فلا يمكن فهرسة هذه الصفحة، وبالتالي لن تظهر في صفحات نتائج البحث.
ومع ذلك، هناك تحذيران:
1. قد تستمر فهرسة الصفحة التي تم منعها من الزحف
لا يضمن عدم السماح بالزحف في ملف robots.txt أن محركات البحث لن تقوم بفهرسة الصفحة. قد يستمرون في فعل ذلك إذا وجدوا معلومات حول المحتوى في مصادر أخرى وقرروا أنه محتوى مهم. على سبيل المثال، يمكنهم العثور على روابط تؤدي إلى الصفحة من مواقع أخرى، واستخدام الرابط النصي وإظهاره في صفحة نتائج البحث.
تعرف على كيفية التغلب على هذه المشكلة من خلال قراءة مقالتنا حول كيفية إصلاح الحالة “مفهرسة، على الرغم من حظرها بواسطة ملف robots.txt”.
2. لا يمكنك إجبار الروبوتات على الامتثال للقواعد الموجودة في ملف robots.txt
يعتبر ملف robots.txt مجرد إرشادات وليست قاعدة إلزامية. لا يمكنك إجبار الروبوتات على الانصياع لها. لن تقوم معظم عناكب الزحف، خاصة تلك المستخدمة بواسطة محركات البحث، بالزحف إلى أي صفحات تم حظرها بواسطة ملف robots.txt. ومع ذلك، فإن محركات البحث ليست هي الوحيدة التي تستخدم عناكب الزحف. قد تتجاهل برامج الروبوت الخبيثة الإرشادات وتصل إلى الصفحات على أي حال. لهذا السبب يجب ألا تستخدم ملف robots.txt كطريقة لحماية البيانات الحساسة الموجودة على موقع الويب الخاص بك من الزحف إليها. إذا كنت بحاجة إلى التأكد من أن الروبوتات لن تزحف إلى بعض المحتوى الخاص بك، فمن الأفضل حمايته بكلمة مرور.
لماذا تحتاج إلى ملف robots.txt؟
لا يعد ملف robots.txt جزءًا إلزاميًا من موقع الويب الخاص بك، ولكن الجزء المُحسَّن جيدًا يمكن أن يفيد موقعك بعدة طرق.
الأهم من ذلك أنه يمكن أن يساعدك في الزحف إلى تحسين الميزانية. تمتلك روبوتات محرك البحث موارد محدودة، مما يقيد عدد عناوين URL التي يمكنها الزحف إليها على موقع ويب معين. لذلك إذا أهدرت ميزانية الزحف الخاصة بك على صفحات أقل أهمية، فقد لا يكون هناك ما يكفي لصفحات أكثر قيمة. إذا كان لديك موقع ويب صغير، فقد يبدو هذا وكأنه مشكلة سطحية، ولكن أي شخص لديه موقع ويب كبير يعرف مدى أهمية استخدام موارد روبوتات محرك البحث بكفاءة.
باستخدام ملف robots.txt، يمكنك منع الزحف إلى صفحات معينة، مثل الصفحات منخفضة الجودة، من الزحف. إنه أمر بالغ الأهمية لأنه إذا كان لديك العديد من الصفحات القابلة للفهرسة وذات الجودة المنخفضة، فقد يؤثر ذلك على الموقع بالكامل ويثني روبوتات محركات البحث عن الزحف حتى إلى الصفحات عالية الجودة.
بالإضافة إلى ذلك، يتيح لك ملف robots.txt تحديد موقع ملف Sitemap بتنسيق XML. ملف Sitemap هو ملف نصي يسرد عناوين URL التي تريد أن تقوم محركات البحث بفهرستها. يسهل تحديد ارتباطه في ملف robots.txt على روبوتات محرك البحث العثور عليه.
كيفية تعديل ملف robots.txt
تعتمد كيفية تعديل ملف robots.txt بشكل كبير على النظام الذي تستخدمه.
إذا كنت تستخدم CMS أو نظامًا أساسيًا للتجارة الإلكترونية، فقد تتمكن من الوصول إلى أدوات أو مكونات إضافية مخصصة يمكنها مساعدتك في الوصول إلى الملف وتعديله بسهولة. على سبيل المثال، يسمح لك Wix و Shopify بتعديل ملف robots.txt مباشرة. بالنسبة إلى WordPress، يمكنك استخدام مكونات إضافية مثل Yoast SEO.
إذا كنت لا تستخدم CMS أو نظام أساسي للتجارة الإلكترونية، فقد تحتاج إلى تنزيل الملف أولاً وتحريره ثم تحميله مرة أخرى على موقعك.
يمكنك تنزيل الملف بعدة طرق:
- اعرض الملف في متصفحك عن طريق إضافة “/robots.txt” إلى الدليل الجذر الخاص بك ثم نسخ المحتوى ببساطة.
- استخدم الأدوات التي توفرها خدمة الاستضافة الخاصة بك. على سبيل المثال، قد تكون لوحة مخصصة لإدارة الملفات أو الوصول إليها من خلال بروتوكول FTP.
- استخدم أدوات وحدة التحكم مثل cURL لتنزيل الملف عن طريق كتابة هذا الأمر:
curl -o robots.txt
بمجرد تنزيل ملف robots.txt، يمكنك ببساطة تحرير في محرر النصوص الذي تختاره، مثل Notepad (Windows) أو TextEdit (Mac). تأكد من تشفير الملف بمعيار UTF-8، وتذكر أنه يجب تسميته “robots.txt”.
بعد تعديل ملف robots.txt، يمكنك تحميل الملف بشكل مشابه لتنزيله. يمكنك استخدام الأدوات المخصصة التي توفرها الاستضافة الخاصة بك، أو استخدام أدوات CMS المدمجة، أو إرسال الملفات مباشرة إلى الخادم عن طريق بروتوكولات FTP.
بمجرد أن يصبح ملفك متاحًا للجمهور، يمكن لمحركات البحث العثور عليه تلقائيًا. إذا كنت تريد، لسبب ما، أن ترى محركات البحث التغييرات على الفور، فيمكنك استخدام خيار إرسال في مختبري ملف robots.txt من Google و Bing.
أثناء عملية الزحف التلقائية، تلاحظ عناكب الزحف من Google التغييرات التي أجريتها على ملف robots.txt وتحديث النسخة المخبأة كل 24 ساعة. إذا كنت بحاجة إلى تحديث ذاكرة التخزين المؤقت بشكل أسرع، فاستخدم وظيفة إرسال الخاصة بمختبر ملف robots.txt .المصدر: Google بناء جملة Robots.txt
يتكون ملف Robots.txt من كتل نصية. تبدأ كل كتلة بسلسلة User-agent وتوجيهات (قواعد) المجموعات لروبوت معين.
فيما يلي مثال لملف robots.txt:
User-agent
User-agent: * Disallow: /admin/ Disallow: /users/ #specific instructions for Googlebot User-agent: Googlebot Allow: /wp-admin/ Disallow: /users/ #specific instructions for Bingbot User-agent: Bingbot Disallow: /admin/ Disallow: /users/ Disallow:/not-for-Bingbot/ Crawl-delay: 10 Sitemap:
هناك المئات من عناكب الزحف التي قد ترغب في الوصول إلى موقع الويب الخاص بك. لهذا السبب قد ترغب في تحديد حدود مختلفة لهم بناءً على نواياهم. هنا عندما يكون User-agent مفيدًا.
User-agent عبارة عن سلسلة نصية تحدد روبوتًا معينًا.
لذلك، على سبيل المثال، يستخدم Google Googlebot، ويستخدم Bing Bingbot، ويستخدم DuckDuckGo DuckDuckBot ويستخدم Yahoo Slurp. يمكن أن تحتوي محركات البحث أيضًا على أكثر من وكيل مستخدم واحد. هنا يمكنك العثور على قائمة كاملة لوكلاء المستخدم التي تستخدمها Google و Bing. User-agent سطر مطلوب في كل مجموعة من التوجيهات. يمكنك التفكير في الأمر على أنه استدعاء الروبوتات بأسمائها وإعطاء كل واحد منهم تعليمات محددة. ستوجه جميع التوجيهات التي تتبع وكيل المستخدم إلى الروبوت المحدد حتى يتم تحديد وكيل المستخدم الجديد.
يمكنك أيضًا استخدام حرف بدل وإعطاء التعليمات لجميع الروبوتات مرة واحدة. سوف أقوم بتغطية أحرف البدل لاحقًا.
التوجيهات
التوجيهات هي القواعد التي تحددها لروبوتات محرك البحث. يمكن أن تحتوي كل كتلة نصية على توجيه واحد أو أكثر. يجب أن يبدأ كل توجيه في سطر منفصل.
تتضمن التعليمات:
- عدم السماح
- السماح
- خريطة الموقع
- تأخير الزحف
ملاحظة: هناك أيضًا أمر noindex غير رسمي من المفترض أن يشير إلى أنه لا ينبغي فهرسة الصفحة. ومع ذلك، فإن معظم محركات البحث، بما في ذلك
Google و Bing، لا تدعمها. إذا كنت لا تريد فهرسة بعض الصفحات، فاستخدم علامة noindex Meta Robots Tag أو رأس X-Robots-Tag (سأشرحها لاحقًا في المقالة). Disallow
يحدد هذا التوجيه الصفحات التي لا يجب الزحف إليها. بشكل افتراضي، يمكن لروبوتات محرك البحث الزحف إلى كل صفحة لم يتم حظرها بواسطة التوجيه disallow.
User-agent: Googlebot Disallow: /users/
لمنع الوصول إلى صفحة معينة، تحتاج إلى
تحديد مسارها بالنسبة إلى الدليل الجذر. دعنا نتخيل أن لديك هذين الموقعين على موقع الويب الخاص بك:
website.com/products/shoes/item1.html
- website.com/products/shirts/item2.html
- الآن دعنا نلقي نظرة على بعض أمثلة على حظر هذه المسارات:
المسار
محظور | Disallow: /item1.html |
فقط /products/shoes/item1.html غير مسموح به | Disallow: / products / |
كلاهما /products/shoes/item1.html و /products/shirts/item2.html غير مسموح بهما |
يمكنك عدم السماح بالزحف إلى الموقع بأكمله عن طريق إضافة الرمز “/” بالطريقة التالية:
السماح
User-agent: Googlebot Disallow: /
يمكنك استخدام التوجيه allow لـ
User-agent: Googlebot Disallow: /users/ Allow: /users/very-important-user.html
للسماح بالزحف إلى صفحة في دليل غير مسموح به. في المثال أعلاه، جميع الصفحات داخل الدليل / user / غير مسموح بها باستثناء صفحة واحدة تسمى /very-important-user.html.
ملف Sitemap
يحدد توجيه ملف Sitemap مكان ملف Sitemap الخاص بك. يمكنك إضافته في بداية الملف أو نهايته وتحديد أكثر من خريطة موقع واحدة.
Sitemap:
بخلاف المسارات المحددة في التوجيهات الأخرى،
أضف دائمًا عنوان URL كاملًا لملف Sitemap، بما في ذلك بروتوكول HTTP / HTTPS أو إصدار www / non-www. توجيه ملف Sitemap غير مطلوب، لكن يوصى به بشدة. حتى إذا قمت بإرسال ملف Sitemap الخاص بك في Google Search Console أو أدوات مشرفي المواقع Bing، فمن الأفضل دائمًا إضافته إلى ملف robots.txt لمساعدة جميع روبوتات محرك البحث في العثور عليه بشكل أسرع.
Crawl-delay
يمكن لروبوتات محرك البحث الزحف إلى العديد من صفحاتك في فترة زمنية قصيرة. يستخدم كل زحف جزءًا من مورد الخادم الخاص بك.
Crawl-delay: 10
إذا كان لديك موقع ويب كبير به العديد من الصفحات، أو يتطلب فتح كل صفحة الكثير من موارد الخادم، فقد لا يتمكن خادمك من التعامل مع جميع الطلبات. ونتيجة لذلك، ستصبح محملة بشكل زائد، وقد يفقد كل من المستخدمين ومحركات البحث إمكانية الوصول إلى موقعك مؤقتًا. هذا هو المكان الذي قد يكون فيه أمر “تأجيل الزحف” مفيدًا ويؤدي إلى إبطاء عملية الزحف.
يتم تحديد قيمة التوجيه الخاص بتأخير الزحف بالثواني. يمكنك ضبطه بين 1-30 ثانية.
من المهم ملاحظة أنه لا يتبع كل محرك بحث هذا التوجيه. على سبيل المثال،
لا تدعم Google تأخير الزحف على الإطلاق. بالإضافة إلى ذلك، قد يختلف تفسيرها اعتمادًا على محرك البحث. على سبيل المثال، بالنسبة إلى Bing و Yahoo، يمثل Crawl-delay (تأجيل الزحف) طول فجوة النافذة التي يمكن خلالها للروبوت الوصول إلى الصفحة مرة واحدة فقط.
بالنسبة إلى Yandex، تحدد ميزة Crawl-delay (تأجيل الزحف) مقدار الوقت الذي يحتاج إليه الروبوت للانتظار قبل طلب صفحة أخرى.
التعليقات في ملف robots.txt
يمكنك إضافة تعليقات في ملف robots.txt عن طريق إضافة الهاشتاق # حرف في بداية السطر أو بعد التوجيه. تتجاهل محركات البحث كل ما يلي # في نفس السطر.
#Blocks access to the blog section User-agent: Googlebot Disallow: /blog/ User-agent: Bingbot Disallow: /users/ #blocks access to users section
التعليقات موجهة للبشر لتوضيح معنى قسم معين. من الجيد دائمًا إضافتها لأنها ستسمح لك بفهم أسرع لما يحدث في المرة التالية التي تفتح فيها الملف.
يمكنك استخدام التعليقات لإضافة بيض عيد الفصح إلى ملف robots.txt. إذا كنت تريد معرفة المزيد حول هذا الموضوع، يمكنك مراجعة مقالتنا حول جعل توجيهات الروبوتات الخاصة بك ممتعة للبشر أو الاطلاع على مثال في ملف robots.txt الخاص بنا.
Wildcards
Wildcards هي أحرف خاصة يمكن أن تعمل كعناصر نائبة للرموز الأخرى في النص، وبالتالي تبسط عملية إنشاء ملف robots.txt. وهي تشمل:
علامة النجمة * و
- علامة الدولار $.
- يمكن أن تحل العلامة النجمية محل أي سلسلة.
في المثال أعلاه، تحدد العلامة النجمية في سطر وكيل المستخدم جميع روبوتات محركات البحث. لذلك، فإن كل توجيه يتبعه سيكون موجهاً لجميع عناكب الزحف.
User-agent: *
يمكنك أيضًا استخدامه لتعريف المسار. تشير الأمثلة أعلاه إلى أن كل عنوان URL ينتهي بعلامة “؟” غير مسموح به.
Disallow: /*?
تشير علامة الدولار إلى عنصر محدد يطابق نهاية عنوان URL.
يشير المثال أعلاه إلى أنه يجب عدم السماح بكل عنوان URL ينتهي بـ “.jpeg”.
Disallow: /*.jpeg$
يمكنك استخدام أحرف البدل في كل توجيه، باستثناء خريطة الموقع.
اختبار ملف robots.txt
يمكنك الاختبار باستخدام
اختبار ملف robots.txt في Google Search Console و Bing Webmaster Tools. ما عليك سوى كتابة عنوان URL الذي تريد التحقق منه، وستظهر لك الأداة ما إذا كان مسموحًا به أم غير مسموح به. يمكنك أيضًا تحرير الملف مباشرة في مختبري ملف robots.txt وإعادة اختبار التغييرات. ضع في اعتبارك أن التغييرات لا يتم حفظها على موقع الويب الخاص بك. تحتاج إلى نسخ الملف وتحميله على موقعك بنفسك.
إذا كنت أكثر ذكاءً من الناحية التقنية، فيمكنك أيضًا استخدام
مكتبة robots.txt مفتوحة المصدر من Google لاختبار ملف robots.txt محليًا على جهاز الكمبيوتر الخاص بك. Robots.txt مقابل علامة Meta Robots مقابل X-Robots-Tag
Robots.txt ليس هو الطريقة الوحيدة للتواصل مع عناكب الزحف. يمكنك أيضًا استخدام علامة Meta Robots و X-Robots-Tag.
يتمثل الاختلاف الأكثر أهمية في حقيقة أن
ملف robots.txt يتحكم في الزحف إلى موقع ويب، بينما تسمح لك علامة Meta Robots و X-Robots-Tag بالتحكم في فهرستها. من بين أمور أخرى، تختلف هذه الأساليب أيضًا في طرق التنفيذ.
تنفيذ
Robots.txt | |
تمت إضافة ملف نصي بسيط في الدليل الجذر لموقع الويب الخاص بك. | علامة Meta robots |
تمت إضافة علامة HTML في قسم | من الكود. X-Robots-Tag |
تمت إضافة جزء من رأس استجابة HTTP على جانب الخادم. |
عندما يعثر روبوت محرك البحث على صفحة، سيبحث أولاً داخل ملف robots.txt. إذا كان الزحف غير مسموح به، فيمكنه الوصول إلى موقع الويب، وعندها فقط يمكنه العثور على علامات Meta Robots أو رؤوس X-Robots-Tag المحتملة. من المهم أن تتذكر لسببين:
الجمع بين الطرق – يجب السماح لروبوتات محرك البحث بالزحف إلى الصفحة لرؤية علامة Meta Robots و X-Robots-Tag. إذا لم تتمكن برامج الروبوت من الوصول إلى الصفحة، فلن تعمل بشكل صحيح.
- تحسين ميزانية الزحف – من بين هذه الطرق الثلاث، يمكن لملف robots.txt فقط مساعدتك في حفظ ميزانية الزحف.
- أفضل الممارسات
فيما يلي بعض أفضل الممارسات والنصائح أثناء إنشاء ملف robots.txt:
- لا تحظر ملفات JavaScript أو CSS باستخدام ملف robots.txt.
- قد لا تعرض برامج الروبوت المحتوى الخاص بك بشكل صحيح إذا لم تتمكن من الوصول إلى هذه الموارد. تأكد من إضافة الرابط إلى خريطة موقعك لمساعدة جميع روبوتات محرك البحث في العثور عليه بسهولة.
- قد يختلف تفسير بنية ملف robots.txt تبعًا لمحرك البحث.
- تحقق دائمًا من كيفية تعامل روبوت محرك البحث مع توجيه معين إذا لم تكن متأكدًا. كن حذرا عند استخدام أحرف البدل. إذا قمت بإساءة استخدامها،
- فقد تمنع الوصول إلى قسم موقعك بالكامل عن طريق الخطأ. لا تستخدم ملف robots.txt لحظر المحتوى الخاص بك. إذا كنت تريد تأمين صفحتك، فمن الأفضل حمايتها بكلمة مرور. بالإضافة إلى ذلك، يمكن الوصول إلى ملف robots.txt بشكل عام، ومن المحتمل أن تكشف عن موقع المحتوى الخاص لروبوتات خطيرة.
- لن يؤدي منع عناكب الزحف من الوصول إلى موقعك إلى إزالته من صفحة نتائج البحث. إذا كان هناك العديد من الروابط التي تحتوي على نص رابط وصفي يشير إلى صفحتك، فلا يزال من الممكن فهرستها. إذا كنت ترغب في منع ذلك، فعليك التفكير في استخدام علامة Meta Robots Tag أو رأس X-Robots-Tag بدلاً من ذلك.