שלום מקדמי אתרים, הבה נצלול ונדבר באופן מקיף על החשיבות והפונקציונליות של הקובץ robots.txt. במדריך המפורט הזה, אנו נראה מהו קובץ robots.txt. למה הוא חיוני לאתר שלך ולמאמצי הקידום שלך ואיך תוכל להשתמש בו כדי לשפר את ביצועי קידום האתרים שלך.
אנו נעבור על הרעיונות הבסיסיים, ובנוסף נציג טיפים מתקדמים ושיטות עבודה מומלצות שיאפשרו לאתר שלך להיות מאונדקס באופן מיטבי ולהיות מנוהל היטב על ידי הרובוטים של מנועי החיפוש. אז גם אם אתה חדש לעולם מקדמי האתרים וגם אם מחפש שיטות חדשות לשפר את האסטרטגיות שלך, תמצא תשובות למטרות שלך במדריך שלך.
מהו robots.txt ?
robots.txt הוא קובץ קטן, שניתן להוסיפו אל ספריית השורש של האתר שלך, ובכך ניתן לגשת אליו ב-URL הבא: https://yoursite/robots.txt.
בתוך קובץ הטקסט אנו יכולים להוסיף הוראות באופן ידידותי עבור רובוטי אינטרנט השונים כמו spiders (עכבישים) או crawlers (זוחלים) שים לב שהוראות אלו, יכובדו רק על ידי רובוטי האינטרנט המתנהגים יפה ופועלים על פי הכללים כגון ה-crawler של גוגל.
הוראות אלו מאפשרות לך לציין כתובות של דפים ואיזורים באתר שלך שאינך רוצה שהרובוטים ייגשו אליהם ומאפשרות לך לנהל טוב יותר את תהליך האינדוקס. במילים אחרות, קובץ robots.txt פועל כמכשיר תקשורת בין האתר שלך ורובוטי האינטרנט ומספק קווים מנחים עבור הרובוטים אילו איזורים ודפים אינך רוצה שיגשו אליהם.
עם robots.txt אתה מבטיח שרק הדפים והאיזורים שאתה רוצה שיהיו נגישים עבור הרובוטים. לכן, זה שיטה טובה לייעל את ביצועי קידום האתרים שלך ולשלוט אילו דפים ואיזורים באתר שלך אתה רוצה שהרובוטים יראו ויוכלו לאנדקס.
מה קורה אם הרובוט לא מוצא את הקובץ הזה? במקרה זה, הרובוט ימשיך במלאכתו ויבקר בכל הדפים שיגלה בלי שום הגבלות. משמעות הדבר, שכל דף שהרובוט ימצא, יהיה נגיש עבור הרובוט וייתכן שהרובוט יבקר בו, יאנדקס אותו ויתווסף לתוצאות החיפוש.
אז, אם אתה רוצה להשאיר דפים אן איזורים פרטיים, חשוב שתוסיף את הקובץ robots.txt. אם תשתמש באופן נכון בקובץ זה נכון, תוכל לוודא שהרובוטים בודקים רק את הדפים שאתה רוצה ומדלגים כל הדפים שאתה מעדיף שיהיו מוסתרים.
חשוב לזכור, הקובץ robots.txt מספק קווים מנחים ולא חוקים, לכן לא כל הרובוטים יכבדו אותו. לכן, אם יש לך קבצים פרטיים שאינך רוצה שיהיו נגישים לציבור הרחב, robots.txt הוא לא הפתרון שאתה מחפש. במקום חפש קבצים מוגנים בסיסמה או הזדהות בצד השרת. יתר על כן, מכיוון ש-robots.txt נגיש לכולם ולא רק לרובוטים, גם ההאקרים יכולים לראות אילו איזורים ודפים בשרת שלך, אינך רוצה שהרובוטים יגשו אליהם.
מבנה קובץ robots.txt
הבה נצלול לדוגמא של קובץ robots.txt. כאן אנו רואים מספר הוראות עבור רובוטי האינטרנט.
# This is a robots.txt for abc.com
# section 1 - * for catch all
User-agent: *
Sitemap: https://abc.com/sitemap-main.xml
Disallow: /foo.html
Disallow: /bar/foo.html
Disallow: /daz/
# section 2 - Googlebot for google
User-agent: Googlebot
Sitemap: https://abc.com/sitemap-main.xml
Disallow: /foo.html
Disallow: /daz/
Allow: /daz/foo.html
# section 3 - Bingbot for bing
User-agent: Bingbot
Sitemap: https://abc.com/sitemap-main.xml
Disallow: /
# section 4 - Yandex for yandex
User-agent: Yandex
Sitemap: https://abc.com/sitemap-main.xml
Disallow: /foo.html
Clean-param: utm_source
כל חלק בקובץ מתחיל במילה ״user-agent" ואחריו שם הרובוט. ההוראות שאחריו הינם עבור הרובוט הזה בלבד עד המילה שמופיעה ״user-agent" שוב או עד סוף הקובץ.
בחלק הראשון, השם של הרובוט הוא *. משמעות הדבר, שההוראות בחלק זה, הם עבור כל הרובוטים שלא מוגדר עבורם חלק יחודי להם הקובץ. זהו חלק שתופס-הכל כדי להבטיח שכל הרובוטים לא הוגדר בקובץ, יפעלו על פי הוראות אלו.
בחלק השני, הרובוט הוא googlebot – הרובוט של גוגל. לכן, ההוראות בחלק זה זה הינם עבור גוגל בלבד. כך מתאפשר למנהלי האתר, להתאים באופן אישי כיצד גוגל מאנדקס ומבקר באתר, דבר יכל לשפר את הביצועים בתוצאות החיפוש של גוגל.
בחלק השלישי, השם של הרובוט הוא bingbot – הרובוט של Bing. לכן, ההוראות בחלק זה הינם עבור Bing בלבד.
בחלק האחרון, השם של הרובוט הוא yandex – הרובוט של yandex. כמו שבוודאי ניחשת, כל ההוראות בחלק זה הם עבור מנוע החיפוש של yandex.
כפי שאתה יכול לראות, התו # מתחיל הערה, שמסתיימת בסוף השורה. אתה יכול להוסיף הערות עבור הקורא האנושי ללא השפעה על ההוראות שניתנות לרובוטים.
אז, מה אתה יכול להגיד לרובוט? ההוראה הראשית היא "disallow" ואחריה מסלול לקובץ. אם המסלול מסתיים ב-'/' , זהו מסלול לספרייה. אם לא, זהו מסלול לקובץ בודד.
ככלל אצבע: disallow עבור קובץ, אומר לרובוט לא לגשת לקובץ זה. disallow עבור ספרייה, אומר לרובוט לא לגשת לכל קובץ בה.
לדוגמא: “Disallow: /foo.html” אוסר על הרובוט לגשת אל “foo.html”. לעומת זאת ההוראה “/Disallow: /daz” אוסרת על הרובוט לגשת לכל הקבצים תחת הספריה “/daz/”, כמו “daz/foo.html/” או כל קובץ תחת הספריה “/daz/bar/”.
נסתכל אל שתי משימות שונות וייחודיות ונראה כיצד ניתן להשיג אותם:
אם ברצונך לאסור את הגישה לכל הדפים באתר? כיצד תוכל לעשות זאת? במקרה זה תוכל להשתמש בהוראה “Disallow: /”. זה מבטיח כי שום קובץ לא יהיה נגיש לרובוט.
אם ברצונך לאסור גישה לכל הקבצים בספריה מסוימת מלבד דף מסוים? כיצד תוכל לעשות זאת? במקרה זה תוכל לאסור את הספריה ואז לאפשר גישה לדף המסוים עם כלל ה-allow. כך לדוגמא “Disallow: /daz/” ואחריו “Allow: /daz/foo.html” אוסרים גישה לכל הקבצים “/daz/” מלבד הקובץ "/daz/foo.html". שימוש בכללים אלו באופן זהת מאפשרת לך שליטה מותאמת אישית במה שהרובוט יכול לאנדקס, ושומרת על דפים חיוניים נגישים, ובאותו זמן הופכת דפים אחרים ללא נגישים.
משימה נוספת שאפשר למלא באמצעות קובץ robots.txt היאלספק לרובוטים את כתובת מפת האתר (sitemap) עם ההוראה sitemap ואחריה הכתובת המלאה של מפת האתר. שים לב, בהוראה זה כתובת מלאה נחוצה ולא רק המסלול כפי שניתן בהוראה disallow. לדוגמא: “Sitemap: https://abc.com/sitemap-main.xml”, מודיעה היכן נמצא קובץ ה-sitemap ומאפשרת לרובוטים למצוא אותו ביותר קלות.
בנוסף, תוכל למצוא הוראות נוספות בקובץ robots.txt היחודיות לרובוט מסוים ואין להם משמעות עבור רובוטים אחרים. כך למשל, הרובוט של yandex תומך בהוראה clean-param אשר מוציאה את הפרמטר השאילתה מהכתובת. תוכל להשתמש בהוראה זו, אם יש לך פרמטר שאינו משנה את תוכן הדף (כמו utm) כדי למנוע תוכן כפול.
מתי לאסור גישה של רובוטים לדפים?
כעת, לאחר שהבנו מהו קובץ robots.txt, מה המטרה שלו והמבנה שלו, השאלה שעולה בוודאי במוחך למה צרצה לאסור גישה של גוגל ורובוטים של מנועי חיפוש אחרים לדפים שלך.
אסור גישה לדפים עם תוכן רדוד
האם יש לך דפים באתר עם תוכן רדוד, תוכן משוכפל או דפים שאתה חושב שאינם שימושיים מספיק כדי שהרובוט ייגש אליהם ויאנדקס אותם במנוע החיפוש? במרה זה, אתה יכול לאסור גישה לדפים אלו ב-robots.txt.
תחילה, זה יחסוך לך את תקציב הסריקה של שניתן לך על ידי הרובוט של מנוע החיפוש. תקציב הסריקה מוקצב לכל אתר מאונדקס במנוע החיפוש וכולל את הזמן או מספר הדפים שהרובוט מוכן לבצע באתר שלך בפרק זמן מסוים. אם תגדיר לרובוט של מנוע החיפוש כי הדפים האלו אינם שווים שיאונדקסו, תוכל לשפר את היעילות של הזחילה של הרובוטים על ידי כך שהרובוטים יתרכזו בתוכן הטוב יותר באתר שלך. באותה הזדמנות, תקטין את העומס על האתר שלך, משום שהרובוטים לא יבקשו דפים לא נחוצים מהשרת.
לדוגמא, ייתכן כי יש לך באתר דפים עם תוכן זמני שאינך רוצה שמנוע החיפוש יאנדקס. אם תאסור אותם בקובץ robots.txt, תבטיח כי מנוע החיפוש יאנדקס רק את הדפים הרלבנטיים עם התוכן באיכות הטובה ביותר. מה שישפר את חווית המשתמש ואת מיקום האתר בתוצאות החיפוש.
אסור גישה לאתר חדש עד אשר הוא יהיה מוכן לסריקה
האם אתה משיק אתר חדש? אולי האתר עדיין לא מוכן לאינדוקס. לדוגמא: ייתכן ולא קיים מספיק תוכן באתר, או שאתה עדיין בונה אותו. אם תיתן אפשרות לגוגל לגשת לדפים שבאתר ולאנדקס אותו במצב זהת זה ישפיע על מיקום האתר זמן רב לאחר שתסיים לבנות אותו.
לכן, זה חשוב יותר להמתין לפני שתאפשר לרובוט של גוגל לאנדקס את האתר באמצעות איסור הגישה ב-robots.txt. כמובן, שאל תשכח להסיר כלל זה כאשר האתר מוכן. זה יבטיח שרק כאשר האתר שלך מוכן במלואו, הוא יאונדקס בצורה נכונה. דבר שיבטיח לדירוג טוב יותר במנוע החיפוש ובנראות של האתר.
אסור גישה לאיזור חדש באתר עד אשר הוא יהיה מוכן לסריקה
האם אתה מפתח איזור חדש באתר קיים? בדומה לאתר חדש, ייתכן שאיזור זה עדיין לא מוכן לסריקה על ידי גוגל. למרות שהאתר כבר מאונדקס, טוב יותר שתאסור גישה לאיזור זה בזמן שאתה מפתח אותו משום שאם לא תעשה זאת גוגל יאנדקס דפים חלקיים ולא מוכנים וייתכן שייקח זמן עד שיסרוק אותם שוב לאחר שהשלמת אותם.
לאחר שסיימת לפתח את האיזור החדש, תוכל להסיר את הכללים ולאפשר לרובוט של גוגל לגשת לאיזור ולאנדקס אותו בצורה נכונה. בדרך זו, תוכל להבטיח שרק איזורים שלמים ומלוטשים יהיו נגישים למנועי החיפוש ויאונדקסו, ובכך תישמר האיכות הגבוהה והרלבנטיות של התוכן מהאתר שלך המופיע בתוצאות החיפוש.
אסור דפי מנהל
האם יש לך איזור מנהל נגיש רק למשתמשים מזוהים? אם כן, עליך להוסיף כלל שיאסור גישה לדפים אלו ב-robots.txt.
מכיוון שהדפים אלו נגישים רק עבור משתמשים מזוהים, השרת יענה עליהם עם דף לא מורשה או יפנה ישירות אל דף ההתחברות. בעת שהרובוט ינסה לגשת לדפים אלה. לא משנה, מה התשובה שהשרת שלך יחזיר, אינך רוצה שהרובוט של מנוע החיפוש ייגש או יאנדקס דפים אלו.