יום ראשון, 26 ביולי 2009

מבנה URL נכון

ג'ון דבוראק לא מרוצה.

פעם היו לו כתובות קצרות ונחמדות לפוסטים בבלוג שלו, כמו הכתובת הזו:
http://www.dvorak.org/blog/?p=3100

אבל אז מישהו הציע לו לשנות ל-URL ארוך יותר ומשמעותי יותר, וכך הכתובת השתנתה ל:
http://www.dvorak.org/blog/2005/10/20/hollywood-unions-want-cut-of-itunes-pie

שינוי מבנה הכתובת היה צעד של SEO - Search Engine Optimization. כלומר, אופטימיזציה (טיוב) של האתר לטובת מנועי החיפוש, כדי לאפשר להם לקרוא אותו טוב יותר ולדרג אותו במקום גבוה יותר בדף התוצאות.
ג'ון היה מאוד לא מרוצה מהשינוי הזה, והוא כתב על כך בפיסי מגזין (לפני כמה חודשים). וזה מה שהוא כותב:
Fiasco, bogus, snake-oil salesmen, unproven nonsense, simply doesn't work, screwing up the elegance of the web, it does nothing, stupid practice, the idea was bogus, just crap and stupid, this stinks, I am going to... mock anyone using them and anyone who tells me to use them, goofball, poor slobs

ועוד ועוד. בקיצור, לא מרוצה.  לטענתו, השינוי הזה הוריד את הבלוג שלו מ-1,200,000 כניסות (פייג' ויוס) בחודש ל-900,000.  כלומר, 300 אלף פחות בכל חודש - רק בגלל שינוי מבנה ה-URL.  בהחלט נתון מרשים, ורואה שחורות בבלוגו "עתיד מזהיר" ממהר להכריז על מותו של ה-URL הארוך.

עובד או לא עובד?
בניגוד לדבוראק, אין לי כמות מספיקה של קוראים כדי לראות האם שינוי כלשהו במבנה הכתובת השפיע על כמות הכניסות. אבל מה שיש לי זה בלוג שה-URL של הפוסטים בו מכיל מילים בעברית. חיפשתי את אותן מילים שמופיעות ב-URL בגוגל, כדי לראות איך גוגל מדרג את הדפים האלה. הערה חשובה: ה-URL הוא כמובן לא המשתנה היחיד, וקשה לבודד את ההשפעה שלו. המילים שמופיעות ב-URL הן גם כותרת הדף, לדוגמה. ובכל זאת - כך נראית כתובת של פוסט:
http://ronalmog.wordpress.com/2009/05/29/%D7%94%D7%97%D7%96%D7%A7%D7%94-%D7%95%D7%A9%D7%99%D7%AA%D7%95%D7%A3-%D7%A7%D7%91%D7%A6%D7%99%D7%9D/
שזה בעצם זה:
http://ronalmog.wordpress.com/2009/05/29/החזקה-ושיתוף-קבצים/  (תלוי מאיזה דפדפן העתקנו את הכתובת).
אחרי התאריך מופיעה המחרוזת החזקה-ושיתוף-קבצים. חיפוש של המילים החזקה ושיתוף קבצים יביא את הפוסט במקום הראשון בגוגל.
זה חוזר על עצמו בכל פוסט - חיפוש של המילים המופיעות ב-URL יביא את הפוסט למקום גבוה מאוד בגוגל, הרבה לפני אתרים חזקים ונחשבים אחרים. אתם מוזמנים לבחור פוסט מהבלוג ולנסות בעצמכם.

על כך כותב רואה שחורות: "נדמה לי שמי שמשתמש בשיטה הזו עם בלוג בעברית עושה לעצמו עוול עוד יותר גדול, בין אם הוא מקליד slug אנגלי ידנית, ובין אם הוא משתמש בכתובות UTF-8 מזעזעות כמו בויקיפדיה העברית... לא יכול להיות שזה משפר את תוצאות החיפוש בגוגל!".

אז מה בעצם הטיעונים נגד השיטה?

ג'ון דבוראק מסביר קודם כל שהייתה לו שיחה עם מפתחת שניסתה למכור לו כל מיני פיתוחים שהיא עושה. "היא הזכירה שהיא עבדה לאחרונה בגוגל, והייתה מעורבת בצוות האסטרטגיה של מנוע החיפוש בצורה כלשהי.  היא אמרה שהיא ידעה על SEO. ציינתי בפניה את הטריק, ה-URL הארוך, ואני נשבע שהיא כמעט צחקה לי בפנים. היא אמרה שהרעיון הוא  מופרך (bogus), נקודה". זה הסבר ה-SEO היחיד שהוא מספק כדי לטעון שהשיטה הזו לא עובדת.

שאר הטיעונים שלו לא קשורים ל-SEO או בכלל למנועי חיפוש, אלא סיבות אחרות שלדעתו הוא קיבל 300,000 כניסות פחות כל חודש. הוא כותב שאי אפשר לתת לינק לפוסט עם כתובת ארוכה בבלוגים, פורומים, דוא"ל וכו' כי הכתובת נקטעת. הפתרון הוא שירות לקיצור כתובות, ועל כך הוא כותב ש"this stinks". הוא אפילו לא מפרט שקיצור כתובות מעקר למעשה את כל ההיגיון מאחורי השקעה במבנה URL ארוך ומשמעותי.

רואה שחורות מוסיף שאי-אפשר להקליד את הכתובות החדשות והארוכות ידנית. כאילו שבכתובות הקצרות כמו  http://www.mazhir.com/?p=402, מישהו ממש זוכר להקליד את סימן השאלה ואז P ו"שווה", ואז גם זוכר את מספר הפוסט ומקליד ידנית.
הוא מזכיר, כמו דבוראק, את עניין הלינקים במסנג'ר ובאימייל. למיטב ידיעתי, במסנג'ר אין בעיה עם לינקים ארוכים וגם בג'ימייל לא. באאוטלוק ובשירותים אחרים אכן יש לפעמים בעיה עם כתובת ארוכה מאוד. כשמדובר בכתובות בעברית זה נהיה קצת יותר מסובך - העתקה מפיירפוקס, לדוגמה, תתרגם את הכתובת לאותו קוד ארוך עם אותיות וסימני % והלינק ייהפך ללחיץ במסנג'ר, אבל אם מעתיקים מכרום - הכתובת נשארת בעברית והמסנג'ר לא מזהה את הלינק. עורך הטקסט של וורדפרס דווקא הפוך לגמרי - בהעתקה מפיירפוקס (עם ה-% ) הוא לא יזהה את הלינק, אבל בהעתקה מכרום (עם העברית) דווקא כן.

רואה שחורות קובע בפסקנות "לא יכול להיות שזה משפר את תוצאות החיפוש בגוגל!" ודבוראק כותב פחות או יותר אותו דבר, אבל בשפה בוטה יותר - ואף אחד מהם לא מביא שום טיעון שקשור ל-SEO.

אז למה בעצם כתובות ארוכות ומשמעותיות?

כשאנחנו מדברים על "משמעות" במבנה כתובת, יש לזה שני היבטים: משמעות גוגלית ומשמעות אנושית.
המשמעות האנושית היא ברורה - כשגולש רואה את ה-URL (במעבר עכבר, בלינק עצמו או בשורת הכתובת) הוא יכול לזהות את המילים ולהבין לאן הוא מגיע.  אולי זה גם נחמד יותר בעין כשמסתכלים על שורת הכתובת (נחמד לעין - אך לא שימושי).

המשמעות הגוגלית היא קצת יותר מורכבת. גוגל מזהה את התוכן של הדף ("על מה הדף הזה מדבר?" ) בשתי דרכים - מתוך הדף ומחוץ לדף. הוא מנסה לברר אילו מילים קשורות לדף הזה, כדי שהדף יופיע כשמישהו מחפש את אותן מילים. "מתוך הדף" זה המילים בטקסט עצמו, הצפיפות שלהן, הסגנון של הטקסט (H1 וכו'), הכותרת ואלמנטים נוספים. "מחוץ לדף" זה למעשה מילים שהן לינק המפנה לאותו דף. כך לדוגמה, בלוגרים בארה"ב מכניסים לפוסטים שלהם את המילים worst failure ever, ומקשרים מהן לאתר הבית הלבן; למרות שבאתר הבית הלבן עצמו המילים האלה לא מופיעות, גוגל מבין את הקשר בין המילים האלה לאתר באמצעות המילים המקושרות בבלוגים החיצוניים, ולכן חיפוש של המילים יביא לאתר הבית הלבן.
בצורה קצת דומה, כשמכניסים לינק "חשוף" (כלומר - את ה-URL עצמו, ולא מילה שהיא לינק) - זה כולל את מילות המפתח בתור לינק.
כלומר, אם אני מדביק בבלוג את הלינק הזה:
http://www.dvorak.org/blog/2005/10/20/hollywood-unions-want-cut-of-itunes-pie
גוגל רואה את המילים hollywood ו-itunes כקישור לאותו פוסט, ולכן מקשר בין אותו פוסט לאותן מילים שמופיעות בלינק.
במובן הזה יש משמעות גוגלית ל-URL משמעותי "מחוץ לדף".
בנוסף לזה, ל-URL יש גם את המשמעות הרגילה של "בתוך הדף", כעוד אלמנט שבו אפשר להכניס מילות מפתח (כמו התוכן והכותרת) כדי לחזק את הקשר בין המילים לדף.

דוגמה לכח של השתלת מילות מפתח ב-URL אפשר להראות ב"הפצצת גוגל" האחרונה שהייתה נגד אובמה.  למרות המאמץ הרפובליקני לקשר בין המילים worst failure ever לדף של הנשיא אובמה באתר הבית הלבן, המקום הראשון בגוגל שייך דווקא לאתר חדשות שדיווח על זה, והשתמש במילות מפתח בכתובת הדף:
http://www.inquisitr.com/29659/worst-failure-ever/

אז מה הפתרון?
צריך לזכור שמבנה URL נכון ומשמעותי לא חייב להיות דווקא ארוך.
אם מבינים ממה זה נובע - משמעות אנושית, משמעות גוגלית פנימית ומשמעות גוגלית חיצונית - אפשר להשתמש ב-URL משמעותי וקצר יחסית.
ניקח לדוגמה את הפוסט הזה:
http://www.dvorak.org/blog/2009/07/23/barnes-noble-plastic-logic-to-use-att-network-for-new-e-reader/
בהחלט ארוך. (אגב, בניגוד למה שהוא כתב בטור שלו - הכתובות בבלוג שלו עדיין ארוכות... מעניין אם הוא הצליח לחזור ל-1.2 מיליון כניסות).
התאריך, למשל, הוא קצת מיותר. לגוגל הוא לא תורם כלום. אנחנו הרי לא מכוונים למישהו שיחפש בגוגל "2009" ויגיע לפוסט הזה. זה גם לא משהו שיעזור הרבה לגולש אנושי, מכיוון שמדובר ברצף של ספרות שקשה להבין ממנו במבט אחד. בנוסף, תאריך נכתב בצורה שונה במקומות שונים בעולם.

בעיה נוספת אצל דבוראק זה שהוא לוקח את כל כותרת הפוסט, כפי שהיא, ומכניס אותה לתוך ה-URL. (בוורדפרס.קום זו ברירת המחדל, אך יש אפשרות לשנות את זה). זה יכול להגיע גם לאורך כזה:
http://www.dvorak.org/blog/2009/07/23/journalist-files-charges-against-who-and-un-for-bioterrorism-and-intent-to-commit-mass-murder/
כדאי לקצר את הכתובת, ולזכור בראש שני עקרונות: בשביל גוגל - לשמור רק על מילות המפתח החשובות (אלה שאנחנו מצפים שמישהו יחפש בגוגל ונרצה שיגיע אלינו); בשביל הגולשים - לשמור על משהו קצר שיהיה ברור במבט אחד לאן הם יגיעו בהקלקה.

ובעברית?
בעברית המצב הרבה יותר מסובך. לפעמים לא מזהים URL שמכיל עברית, ולפעמים ה-URL הופך למחרוזת ארוכה מאוד מאוד של אותיות אנגליות והרבה %, שזה גם ארוך וגם לא ברור. מצד שני, גוגל כנראה אוהב את זה. בסופו של דבר צריך להתפשר.
בבלוג הזה אני משתמש במבנה כזה: http://ronalmog.blogli.co.il/archives/167. זה קצר, אבל חסר משמעות אנושית. מצד שני, המבנה של ה-URL הוא בצורה של תיקיות (archives/167) ולא משתנים, כמו הכתובות הישנות אצל דבוראק או אצל רואה שחורות (?p=400). זה מבנה ידידותי יותר לגוגל.  (למען האמת, מבנה הכתובות כאן הוא של בלוגלי, ולא נתון לשליטתי בכלל).
בבלוג אחר אני משתמש כאמור במילים בעברית:
http://ronalmog.wordpress.com/2009/05/29/%D7%94%D7%97%D7%96%D7%A7%D7%94-%D7%95%D7%A9%D7%99%D7%AA%D7%95%D7%A3-%D7%A7%D7%91%D7%A6%D7%99%D7%9D/
או:
http://ronalmog.wordpress.com/2009/05/29/החזקה-ושיתוף-קבצים/. זה אמנם ארוך, אבל נראה שגוגל די מחבב את זה וגם הגולש יכול לראות לפי הכתובת (או במעבר עכבר על הלינק) במה מדובר.

במערכת כליקיט לייט של אורט ישראל בחרו בדרך אחרת.
אם פעם הכתובות היו נראות ככה (במקרה הטוב) - http://c3.ort.org.il/Apps/WW/Page.aspx?ws=4703f389-43e2-4fae-be3f-9be5a7ca9c7c&page=1012e393-227c-4990-8e43-ad14036e7e66
במערכת החדשה הן נראות כך:
http://light.ort.org.il/SiteHTML/ORTcollege/bagrut.html.
הדף הזה הוא דף העוסק בתוכנית של השלמת בגרויות בתוך אתר המכללות של אורט. המילה ORTcollege חוזרת על עצמה בכל אתר המכללות ומסמנת לגולש שהוא נמצא באתר המכללות של אורט. הסיומת bagrut.html מציגה את הנושא של הדף עצמו, באותיות אנגליות (אך במשמעות עברית). גוגל מתייחס בחיוב לדרך כזו של מבנה URL, מכיוון שמדובר בכתובת קצרה וללא משתנים (סימני שאלה) ואפילו בלי מספרים אקראיים.
גם הגולש האנושי שמגיע לכתובת הזו דרך לינק, יכול להבין שהדף עוסק ב"בגרות" וב"מכללות".
הנקודה החלשה כאן היא שגוגל לא מבין את המשמעות. בסופו של דבר, קהל היעד הוא לא מי שיחפש בגוגל bagrut ואפילו לא college, אלא מי שיחפש "בגרות" ו"מכללה".
כאמור - צריך להתפשר.

10 תגובות:

לאה אמר/ה...

וואלה. איזה ניתוח מעמיק.
לי הרבה יותר חשוב העניין האנושי מעניין ה-SEO. אני באמת אוהבת שמות משמעותיים (וצודק מי שאומר שכבר לא מקלידים היום URL-ים) ולכן אני מאד אוהבת URL-ים המגלים לי מה אני עומדת לקרוא (או לא - אולי הנושא לא מעניין אותי...), ואני אישית גם אוהבת תאריכים ב-URL של הפוסט. אני אוהבת לדעת אם זה פוסט מהזמן האחרון, או פוסט ישן. לפעמים אני יכולה גם לדעת מהתאריך אם כבר קראתי את הפוסט הזה (למשל כשבלוגר מקשר לפוסט ישן שלו). זה שלגוגל זה לא משנה ממש לא אכפת לי. אני מעדיפה שבלוגרים יחשבו על הקוראים שלהם מאשר על מנוע החיפוש.
לגבי הניתוח של דבוראק על ירידת כמות הכניסות אליו - היה מי שהעיר (בתגובות לרואה שחורות) שאולי ירדו אלה שמלכתחילה לא היו צריכים להגיע לבלוג שלו. יכול להיות ש-300,000 כניסות היו של אנשים שקיבלו את הבלוג של דבוראק בתוצאות החיפוש בלי שבאמת יהיה לו קשר למה שהם מחפשים.
לגבי עברית - אני מסכימה שלא צריך שמות בעברית ב-URL. ממילא זה הופך לאחוזים ועניינים. גם העובדה שגוגל יקשר את זה טוב יותר לא נראת לי סיבה טובה לחרבש את ה-URL. מי שמחפש "בגרות" ו"מכללה" ימצא את הדפים האלה בגלל שאלה מלים שקיימות באתר עצמו, ומי שמחפש bagrut ממילא ימצא רק דברים שכתובים בעברית.
בשולי הדברים אני מוכרחה להודות ש-SEO מתחיל להפריע לי. נראה לי שההשתעבדות לגוגל מתחילה לצאת מכלל פרופורציה. בהתחלה גוגל היה מנוע חיפוש שהסתמך על דברים מאד הגיוניים. אבל אז אנשים התחילו לראות בו כלי שיווקי: במקום שהם יצטרכו לשווק אתרים, הם פשוט יעלו את ה- page rank של האתר שלהם, ואז לקוחות פוטנציאליים ימצאו אותו בגוגל, והכל נפלא. בעיני זה ממש עיוות של השימוש בגוגל, וצר לי מאד לראות איך גוגל משתפים עם זה פעולה, ובמיוחד צר לי שזה נעשה על חשבון ההתחשבות בגולשים ובקוראים עצמם.

רון אלמוג אמר/ה...

לאה,
ההפרדה שאת עושה בין העניין האנושי לעניין הגוגלי הוא לא תמיד נכון.
בדוגמה הזו, של מבנה URL, אם נשים את מילות המפתח בתוך הכתובת זה יעזור גם לגולש וגם לגוגל. בהרבה מקרים יש חפיפה, ומה שגוגל קורא זה גם מה שהגולש קורא.

יש גם מקרים שבהם צריך לעשות שינויים שהם רק גוגליים, וכמעט לא משפיעים על הגולשים. לדוגמה, הימנעות מקישורי ג'אווה סקריפט - כדי להפוך את האתר לקריא יותר בעבור גוגל.

חשוב לזכור שיש גם משמעות חשובה ל-SEO כדי לסייע לגולשים, וזה הדבר העיקרי: לעזור להם למצוא את מה שהם מחפשים. אם נשתמש באתר פלאשי ואג'קסי מתוחכם, שמישותי ונוח - נקשה על הגולשים להגיע אליו דרך גוגל. זה מצב לא טוב, גם מנקודת המבט של הגולש.
אסור להתמקד בגולש רק "בתוך האתר", הטיפול שלנו בגולש מתחיל בשלב מוקדם יותר.

לגבי התאריכים - כתבתי מדעתי האישית, אם יש אנשים שמפיקים תועלת מהשימוש בתאריכים בתוך שורת הכתובת, אולי כדאי להשאיר אותם באתרים בהם התאריכים רלוונטיים.


שורת הכתובת היא בכלל סוגיה מעניינת, ויש כבר פוסט בתהליכי כתיבה שמתייחס לשימושים ב-URL (בלי קשר ל-SEO).

רואה שחורות אמר/ה...

כתבת הרבה הסברים אבל לא הבאת הוכחה. למה לא תעשה ניסוי ותפרסם פוסט בו המילים בכותרת ובפוסט עצמו שונות מהמילים שב-URL? כך אפשר יהיה לבודד את המשתנים ולראות מה משפיע יותר.

רון אלמוג אמר/ה...

רואה שחורות,
זה נכון. אחת הבעיות ב-SEO היא שמאוד קשה לבודד משתנים כדי לגלות בצורה עקבית השפעות. אולי בפוסטים זה קצת יותר קל, אבל גם לא ממש. כשעובדים עם אתרים נתקלים בזה הרבה יותר: לגוגל לוקח זמן לקלוט, לעבד, לאנדקס, להחליט. היום אתה יכול להיות מקום 4 ומחר מקום 6. המיקום שלך תלוי קצת בך, אבל גם בשני המתחרים שלך, או בעשרת המתחרים שלך, או בכל 100 האתרים האחרים שמתחרים לא בך - אבל משתמשים באותן מילות חיפוש. ולא רק בך ובהם זה תלוי - אלא גם בשורה ארוכה של אתרים אחרים. גוגל לא מודד רק את החוזק שלך, אלא גם את החוזק של האתרים שמקשרים אליך. וכמובן את החוזק של האתרים שמקשרים אל המתחרים.
גוגל גם מתייחס לוותק של האתר ולגורמים נוספים.

בנוסף לכל אלה, גם במה שתלוי בך - בדרך כלל אתה לא עושה ניסויים ומשנה גורם אחד בלבד, אלא עושה עבודה כוללת יותר של SEO על האתר. כשלוקחים אתר ועובדים על מבנה הכתובות והתוכן והכותרות והקישורים הנכנסים והקישורים היוצאים ומפת אתר ועיצוב וכותרות וכו' וכו' וכו' - קשה לדעת מה מכל אלה השפיע. אם בכלל הוא השפיע, ולא גורם חיצוני אחר. ולפעמים כאמור מה שמשפיע זה הזמן.


הרבה מילים כדי להגיד שלהביא הוכחה זה לא פשוט בכלל :-)
אבל גם הסברים זה חשוב. לא?

איתי ברנר אמר/ה...

אישית אני משתמש בזה רק בעמודי התגיות , וגם זה לא ממש בכוונה אלא פשוט כי זה היה יותר נוח לי מבחינת PHP. בדיעבד הסתבר שזה כנראה עזר למיקומים ,אבל לא בצורה דרסטית.

בכל מקרה, הבנתי שאם רוב האתר כבר בנוי על URL "לא קריא" , זה יכול להיות מסוכן מאוד לעשות שינוים בהרבה מאוד עמודים בו זמנית כי הפניות 301 לא תמיד עובדות וצריך להשתמש בכל מיני Mod Rewrites של Apache שאני אישית לא ממש מבין בהם (חוץ מhtaccess).

http://www.webmasterworld.com/forum30/32792.htm :o

רון אלמוג אמר/ה...

איתי, העלית כאן נקודה חשובה.
אני התייחסתי באופן כללי לאיך כדאי לבנות את הכתובת, אבל חשוב לזכור שאם האתר כבר קיים - יש לנו שיקול נוסף לקחת בחשבון. כל דף שלנו כבר צבר איזשהו "כוח" בעיני גוגל, קיבל קישורים נכנסים מכל מיני אתרים, צבר ותק וכו'. כשאנחנו משנים את הכתובת, אנחנו למעשה יוצרים דף חדש - שצריך שוב לזכות באמונו של גוגל וגם לצבור קישורים נכנסים.

כמו שציינת בתגובה שלך, יש לזה כל מיני פתרונות, וגם אני לא לגמרי מבין בהם.

בניית קישורים אמר/ה...

קראתי את הפוסט אבל לא הבנתי איך אני מסדר בוורדפרס בעיברית שה SLUG יופיע בשם שם הפוסט בעברית ולא שורה של מספרים ארוכה.

asd אמר/ה...

והגעתי לכאן.

בורסה אמר/ה...

אני סוחר בבורסה ומנסה לעשות קישור בעברית כ SLUG
איך עושים את זה בבקשה

רון אלמוג אמר/ה...

בורסה - סלאג עברי עושים בדיוק כמו סלאג באנגלית.
ניתוח - העניין של האחוזים תלוי בדפדפן של הגולש, ולא בשליטתך.

הוסף רשומת תגובה