יום ראשון, 26 ביולי 2009

מבנה URL נכון

ג'ון דבוראק לא מרוצה.

פעם היו לו כתובות קצרות ונחמדות לפוסטים בבלוג שלו, כמו הכתובת הזו:
http://www.dvorak.org/blog/?p=3100

אבל אז מישהו הציע לו לשנות ל-URL ארוך יותר ומשמעותי יותר, וכך הכתובת השתנתה ל:
http://www.dvorak.org/blog/2005/10/20/hollywood-unions-want-cut-of-itunes-pie

שינוי מבנה הכתובת היה צעד של SEO - Search Engine Optimization. כלומר, אופטימיזציה (טיוב) של האתר לטובת מנועי החיפוש, כדי לאפשר להם לקרוא אותו טוב יותר ולדרג אותו במקום גבוה יותר בדף התוצאות.
ג'ון היה מאוד לא מרוצה מהשינוי הזה, והוא כתב על כך בפיסי מגזין (לפני כמה חודשים). וזה מה שהוא כותב:
Fiasco, bogus, snake-oil salesmen, unproven nonsense, simply doesn't work, screwing up the elegance of the web, it does nothing, stupid practice, the idea was bogus, just crap and stupid, this stinks, I am going to... mock anyone using them and anyone who tells me to use them, goofball, poor slobs

ועוד ועוד. בקיצור, לא מרוצה.  לטענתו, השינוי הזה הוריד את הבלוג שלו מ-1,200,000 כניסות (פייג' ויוס) בחודש ל-900,000.  כלומר, 300 אלף פחות בכל חודש - רק בגלל שינוי מבנה ה-URL.  בהחלט נתון מרשים, ורואה שחורות בבלוגו "עתיד מזהיר" ממהר להכריז על מותו של ה-URL הארוך.

עובד או לא עובד?
בניגוד לדבוראק, אין לי כמות מספיקה של קוראים כדי לראות האם שינוי כלשהו במבנה הכתובת השפיע על כמות הכניסות. אבל מה שיש לי זה בלוג שה-URL של הפוסטים בו מכיל מילים בעברית. חיפשתי את אותן מילים שמופיעות ב-URL בגוגל, כדי לראות איך גוגל מדרג את הדפים האלה. הערה חשובה: ה-URL הוא כמובן לא המשתנה היחיד, וקשה לבודד את ההשפעה שלו. המילים שמופיעות ב-URL הן גם כותרת הדף, לדוגמה. ובכל זאת - כך נראית כתובת של פוסט:
http://ronalmog.wordpress.com/2009/05/29/%D7%94%D7%97%D7%96%D7%A7%D7%94-%D7%95%D7%A9%D7%99%D7%AA%D7%95%D7%A3-%D7%A7%D7%91%D7%A6%D7%99%D7%9D/
שזה בעצם זה:
http://ronalmog.wordpress.com/2009/05/29/החזקה-ושיתוף-קבצים/  (תלוי מאיזה דפדפן העתקנו את הכתובת).
אחרי התאריך מופיעה המחרוזת החזקה-ושיתוף-קבצים. חיפוש של המילים החזקה ושיתוף קבצים יביא את הפוסט במקום הראשון בגוגל.
זה חוזר על עצמו בכל פוסט - חיפוש של המילים המופיעות ב-URL יביא את הפוסט למקום גבוה מאוד בגוגל, הרבה לפני אתרים חזקים ונחשבים אחרים. אתם מוזמנים לבחור פוסט מהבלוג ולנסות בעצמכם.

על כך כותב רואה שחורות: "נדמה לי שמי שמשתמש בשיטה הזו עם בלוג בעברית עושה לעצמו עוול עוד יותר גדול, בין אם הוא מקליד slug אנגלי ידנית, ובין אם הוא משתמש בכתובות UTF-8 מזעזעות כמו בויקיפדיה העברית... לא יכול להיות שזה משפר את תוצאות החיפוש בגוגל!".

אז מה בעצם הטיעונים נגד השיטה?

ג'ון דבוראק מסביר קודם כל שהייתה לו שיחה עם מפתחת שניסתה למכור לו כל מיני פיתוחים שהיא עושה. "היא הזכירה שהיא עבדה לאחרונה בגוגל, והייתה מעורבת בצוות האסטרטגיה של מנוע החיפוש בצורה כלשהי.  היא אמרה שהיא ידעה על SEO. ציינתי בפניה את הטריק, ה-URL הארוך, ואני נשבע שהיא כמעט צחקה לי בפנים. היא אמרה שהרעיון הוא  מופרך (bogus), נקודה". זה הסבר ה-SEO היחיד שהוא מספק כדי לטעון שהשיטה הזו לא עובדת.

שאר הטיעונים שלו לא קשורים ל-SEO או בכלל למנועי חיפוש, אלא סיבות אחרות שלדעתו הוא קיבל 300,000 כניסות פחות כל חודש. הוא כותב שאי אפשר לתת לינק לפוסט עם כתובת ארוכה בבלוגים, פורומים, דוא"ל וכו' כי הכתובת נקטעת. הפתרון הוא שירות לקיצור כתובות, ועל כך הוא כותב ש"this stinks". הוא אפילו לא מפרט שקיצור כתובות מעקר למעשה את כל ההיגיון מאחורי השקעה במבנה URL ארוך ומשמעותי.

רואה שחורות מוסיף שאי-אפשר להקליד את הכתובות החדשות והארוכות ידנית. כאילו שבכתובות הקצרות כמו  http://www.mazhir.com/?p=402, מישהו ממש זוכר להקליד את סימן השאלה ואז P ו"שווה", ואז גם זוכר את מספר הפוסט ומקליד ידנית.
הוא מזכיר, כמו דבוראק, את עניין הלינקים במסנג'ר ובאימייל. למיטב ידיעתי, במסנג'ר אין בעיה עם לינקים ארוכים וגם בג'ימייל לא. באאוטלוק ובשירותים אחרים אכן יש לפעמים בעיה עם כתובת ארוכה מאוד. כשמדובר בכתובות בעברית זה נהיה קצת יותר מסובך - העתקה מפיירפוקס, לדוגמה, תתרגם את הכתובת לאותו קוד ארוך עם אותיות וסימני % והלינק ייהפך ללחיץ במסנג'ר, אבל אם מעתיקים מכרום - הכתובת נשארת בעברית והמסנג'ר לא מזהה את הלינק. עורך הטקסט של וורדפרס דווקא הפוך לגמרי - בהעתקה מפיירפוקס (עם ה-% ) הוא לא יזהה את הלינק, אבל בהעתקה מכרום (עם העברית) דווקא כן.

רואה שחורות קובע בפסקנות "לא יכול להיות שזה משפר את תוצאות החיפוש בגוגל!" ודבוראק כותב פחות או יותר אותו דבר, אבל בשפה בוטה יותר - ואף אחד מהם לא מביא שום טיעון שקשור ל-SEO.

אז למה בעצם כתובות ארוכות ומשמעותיות?

כשאנחנו מדברים על "משמעות" במבנה כתובת, יש לזה שני היבטים: משמעות גוגלית ומשמעות אנושית.
המשמעות האנושית היא ברורה - כשגולש רואה את ה-URL (במעבר עכבר, בלינק עצמו או בשורת הכתובת) הוא יכול לזהות את המילים ולהבין לאן הוא מגיע.  אולי זה גם נחמד יותר בעין כשמסתכלים על שורת הכתובת (נחמד לעין - אך לא שימושי).

המשמעות הגוגלית היא קצת יותר מורכבת. גוגל מזהה את התוכן של הדף ("על מה הדף הזה מדבר?" ) בשתי דרכים - מתוך הדף ומחוץ לדף. הוא מנסה לברר אילו מילים קשורות לדף הזה, כדי שהדף יופיע כשמישהו מחפש את אותן מילים. "מתוך הדף" זה המילים בטקסט עצמו, הצפיפות שלהן, הסגנון של הטקסט (H1 וכו'), הכותרת ואלמנטים נוספים. "מחוץ לדף" זה למעשה מילים שהן לינק המפנה לאותו דף. כך לדוגמה, בלוגרים בארה"ב מכניסים לפוסטים שלהם את המילים worst failure ever, ומקשרים מהן לאתר הבית הלבן; למרות שבאתר הבית הלבן עצמו המילים האלה לא מופיעות, גוגל מבין את הקשר בין המילים האלה לאתר באמצעות המילים המקושרות בבלוגים החיצוניים, ולכן חיפוש של המילים יביא לאתר הבית הלבן.
בצורה קצת דומה, כשמכניסים לינק "חשוף" (כלומר - את ה-URL עצמו, ולא מילה שהיא לינק) - זה כולל את מילות המפתח בתור לינק.
כלומר, אם אני מדביק בבלוג את הלינק הזה:
http://www.dvorak.org/blog/2005/10/20/hollywood-unions-want-cut-of-itunes-pie
גוגל רואה את המילים hollywood ו-itunes כקישור לאותו פוסט, ולכן מקשר בין אותו פוסט לאותן מילים שמופיעות בלינק.
במובן הזה יש משמעות גוגלית ל-URL משמעותי "מחוץ לדף".
בנוסף לזה, ל-URL יש גם את המשמעות הרגילה של "בתוך הדף", כעוד אלמנט שבו אפשר להכניס מילות מפתח (כמו התוכן והכותרת) כדי לחזק את הקשר בין המילים לדף.

דוגמה לכח של השתלת מילות מפתח ב-URL אפשר להראות ב"הפצצת גוגל" האחרונה שהייתה נגד אובמה.  למרות המאמץ הרפובליקני לקשר בין המילים worst failure ever לדף של הנשיא אובמה באתר הבית הלבן, המקום הראשון בגוגל שייך דווקא לאתר חדשות שדיווח על זה, והשתמש במילות מפתח בכתובת הדף:
http://www.inquisitr.com/29659/worst-failure-ever/

אז מה הפתרון?
צריך לזכור שמבנה URL נכון ומשמעותי לא חייב להיות דווקא ארוך.
אם מבינים ממה זה נובע - משמעות אנושית, משמעות גוגלית פנימית ומשמעות גוגלית חיצונית - אפשר להשתמש ב-URL משמעותי וקצר יחסית.
ניקח לדוגמה את הפוסט הזה:
http://www.dvorak.org/blog/2009/07/23/barnes-noble-plastic-logic-to-use-att-network-for-new-e-reader/
בהחלט ארוך. (אגב, בניגוד למה שהוא כתב בטור שלו - הכתובות בבלוג שלו עדיין ארוכות... מעניין אם הוא הצליח לחזור ל-1.2 מיליון כניסות).
התאריך, למשל, הוא קצת מיותר. לגוגל הוא לא תורם כלום. אנחנו הרי לא מכוונים למישהו שיחפש בגוגל "2009" ויגיע לפוסט הזה. זה גם לא משהו שיעזור הרבה לגולש אנושי, מכיוון שמדובר ברצף של ספרות שקשה להבין ממנו במבט אחד. בנוסף, תאריך נכתב בצורה שונה במקומות שונים בעולם.

בעיה נוספת אצל דבוראק זה שהוא לוקח את כל כותרת הפוסט, כפי שהיא, ומכניס אותה לתוך ה-URL. (בוורדפרס.קום זו ברירת המחדל, אך יש אפשרות לשנות את זה). זה יכול להגיע גם לאורך כזה:
http://www.dvorak.org/blog/2009/07/23/journalist-files-charges-against-who-and-un-for-bioterrorism-and-intent-to-commit-mass-murder/
כדאי לקצר את הכתובת, ולזכור בראש שני עקרונות: בשביל גוגל - לשמור רק על מילות המפתח החשובות (אלה שאנחנו מצפים שמישהו יחפש בגוגל ונרצה שיגיע אלינו); בשביל הגולשים - לשמור על משהו קצר שיהיה ברור במבט אחד לאן הם יגיעו בהקלקה.

ובעברית?
בעברית המצב הרבה יותר מסובך. לפעמים לא מזהים URL שמכיל עברית, ולפעמים ה-URL הופך למחרוזת ארוכה מאוד מאוד של אותיות אנגליות והרבה %, שזה גם ארוך וגם לא ברור. מצד שני, גוגל כנראה אוהב את זה. בסופו של דבר צריך להתפשר.
בבלוג הזה אני משתמש במבנה כזה: http://ronalmog.blogli.co.il/archives/167. זה קצר, אבל חסר משמעות אנושית. מצד שני, המבנה של ה-URL הוא בצורה של תיקיות (archives/167) ולא משתנים, כמו הכתובות הישנות אצל דבוראק או אצל רואה שחורות (?p=400). זה מבנה ידידותי יותר לגוגל.  (למען האמת, מבנה הכתובות כאן הוא של בלוגלי, ולא נתון לשליטתי בכלל).
בבלוג אחר אני משתמש כאמור במילים בעברית:
http://ronalmog.wordpress.com/2009/05/29/%D7%94%D7%97%D7%96%D7%A7%D7%94-%D7%95%D7%A9%D7%99%D7%AA%D7%95%D7%A3-%D7%A7%D7%91%D7%A6%D7%99%D7%9D/
או:
http://ronalmog.wordpress.com/2009/05/29/החזקה-ושיתוף-קבצים/. זה אמנם ארוך, אבל נראה שגוגל די מחבב את זה וגם הגולש יכול לראות לפי הכתובת (או במעבר עכבר על הלינק) במה מדובר.

במערכת כליקיט לייט של אורט ישראל בחרו בדרך אחרת.
אם פעם הכתובות היו נראות ככה (במקרה הטוב) - http://c3.ort.org.il/Apps/WW/Page.aspx?ws=4703f389-43e2-4fae-be3f-9be5a7ca9c7c&page=1012e393-227c-4990-8e43-ad14036e7e66
במערכת החדשה הן נראות כך:
http://light.ort.org.il/SiteHTML/ORTcollege/bagrut.html.
הדף הזה הוא דף העוסק בתוכנית של השלמת בגרויות בתוך אתר המכללות של אורט. המילה ORTcollege חוזרת על עצמה בכל אתר המכללות ומסמנת לגולש שהוא נמצא באתר המכללות של אורט. הסיומת bagrut.html מציגה את הנושא של הדף עצמו, באותיות אנגליות (אך במשמעות עברית). גוגל מתייחס בחיוב לדרך כזו של מבנה URL, מכיוון שמדובר בכתובת קצרה וללא משתנים (סימני שאלה) ואפילו בלי מספרים אקראיים.
גם הגולש האנושי שמגיע לכתובת הזו דרך לינק, יכול להבין שהדף עוסק ב"בגרות" וב"מכללות".
הנקודה החלשה כאן היא שגוגל לא מבין את המשמעות. בסופו של דבר, קהל היעד הוא לא מי שיחפש בגוגל bagrut ואפילו לא college, אלא מי שיחפש "בגרות" ו"מכללה".
כאמור - צריך להתפשר.