GPT-5

תוכן עניינים

השבוע למדתי על GPT-5

בפוסט ההכרזה, OpenAI הציגה כמה טענות נועזות על GPT-5. ביניהן:

התשובה הטובה ביותר, בכל פעם

ChatGPT מתוכנן עכשיו לחשוב לעומק כשצריך.

מצטיין בקוד

כשותף לקוד GPT‑5 מטפל במשימות מורכבות מקצה לקצה ומספק קוד שמיש יותר, עיצוב טוב יותר ויעילות גבוהה יותר בדיבוג.

שותף כתיבה בעל הבעה

צור מסרים ברורים ומשכנעים יותר, מסיפורים ועד נאומים והלאה.

תשובות בריאות מועילות יותר

המודל הטוב ביותר שלנו לשאלות בריאותיות, מספק תשובות מדויקות ואמינות יותר ומשמש כשותף מחשבה פרואקטיבי.

בטוח ומדויק יותר

המודל האמין ביותר שלנו עד כה. הוא נוטה פחות להזיות ולהעמדת פנים שהוא יודע דברים.

שתי הנקודות האחרונות היו לי חשודות. תשובות בנושאי בריאות? עדיין לא הייתי סומך על זה. “נוטה פחות להזיות”? זו טענה גדולה. הזיות היו אחת הבעיות הגדולות של מודלי LLM. גם אם זה כבר לא גרוע כמו בימי ChatGPT 3.5, לא ברור אם הבעיה תיפתר בלי שינוי פרדיגמה.

ההתנסות שלי

במהלך השבוע התנסיתי ב-GPT-5. הרשמים הראשונים שלי ביום שישי לא היו חיוביים. סם אלטמן צייץ ש"הנתב האוטומטי נשבר" והבטיח שיפורים.

GPT-5 אכן הרגיש טוב יותר בשבוע שלאחר מכן, אבל עדיין לא כמו שהבטיחו. המודל האהוב עליי עד עכשיו היה o3 של OpenAI, וגם ChatGPT-5 Thinking לעיתים קרובות לא הרגיש טוב כמו שזכרתי. לא שיכולתי להשוות, כי הגישה למודלים הקודמים הוסרה לגמרי! בסוף קיבלתי את 4o בחזרה (אחרי זעם המוני מאנשים שפיתחו קשר עמוק ל-4o), אבל לא קיבלתי o3 ב-ChatGPT Team ולכן לא יכולתי להשוות.

אחרי כמה ימים למדתי להשתמש ב-GPT-5 טוב יותר. בגלל הנתב האוטומטי, GPT-5 נהנה מיותר הנדסת פרומפט (“תחשוב לעומק”). זה הרגיש כמו צעד אחורה, כי המודלים הקודמים כבר ידעו להבין מה אני רוצה. או שפשוט כבר למדתי להשתמש בהם. לפני כמה חודשים התבלבלתי מכמות המודלים עם שמות מבלבלים (מה יותר טוב, o3 או o4-mini high?). בסוף למדתי להשתמש בהם ועכשיו התבאסתי שהבחירה נלקחה ממני. גם אם מודל שמחליט בשבילך כדי לתת את התשובה הכי טובה אמור להיות טוב יותר, אני חושד שהנתב האוטומטי של GPT-5 הוא גם מהלך לחיסכון בעלויות, שבפועל מפנה למודלים זולים יותר לעיתים קרובות מדי גם כשזה נותן תשובות פחות טובות.

התוצאות שקיבלתי עם ChatGPT 5 היו מאוד לא עקביות. חלק מהתשובות נהדרות, אחרות מטופשות. אולי זה חלק מהעניין עם AI אבל ציפיתי לשיפור, וזה לא מרגיש כך. הקפיצות בין ChatGPT 3.5 ל-4, או בין 4o ל-o3 הרגישו משמעותיות יותר עבורי.

ולגבי הטענה על פחות הזיות? לא חוויתי את זה. תפסתי את ChatGPT 5 משקר בהרבה מקרים. קשה להשוות אם זה גרוע יותר מהמודלים הקודמים (שוב כי איבדתי אליהם גישה), אבל לפעמים זה בהחלט מרגיש כך.

גם ChatGPT 5 Thinking מזייף. באחד המקרים שאלתי את ChatGPT 5 (Auto) איך להגדיר הגדרה מסוימת ב-GitHub לארגון. ChatGPT 5 ענה בביטחון שזה בלתי אפשרי. עברתי למודל ChatGPT 5 Thinking כדי לראות אם אקבל תשובה אחרת. אחרי כמה דקות של “חשיבה”, ChatGPT 5 Thinking ענה בביטחון שזה אפשרי ואף נתן הוראות מדויקות. רק שההוראות היו בלתי ניתנות לביצוע כי התשובה הייתה לגמרי הזויה. במקרה הזה, ChatGPT 5 היה נכון יותר מ-ChatGPT 5 Thinking. ההגדרה פשוט לא קיימת (למרות שגם אני וגם ChatGPT 5 Thinking היינו שמחים אם כן).

Cursor CLI עם GPT-5

כמה שעות אחרי ההכרזה על GPT-5, Cursor הכריזה על Cursor CLI פלוס קרדיטי GPT-5 חינם לשבוע אחד. המנוי שלי ל-Claude Pro לחודש בדיוק הסתיים, אז החלטתי להשתמש ב-Cursor CLI עם GPT-5 במשך השבוע כדי להתנסות בשניהם (בהשוואה ל-Claude Code עם Sonnet 4).

Cursor CLI ברור שמושפע מ-Claude Code. לא מפריע לי החיקוי כי אני אוהב את Claude Code. ב-Claude Code עם Sonnet 4 הסוכן הרבה יותר שקוף לגבי מה שהוא עושה ונוטה להתייעץ יותר; הוא אפילו מציג רשימת בדיקה של המשימות שהסוכן מתכנן ומבצע. השקיפות הזו חסרה ב-Cursor CLI כרגע: הוא מסביר פחות, פשוט עושה שינויים ולפעמים לא ברור למה - אבל תמיד אפשר לעצור ולשאול שאלות.

עוד דבר שחסר ב-Cursor CLI הוא תמיכה ב-MCP, למרות שב-Cursor הרגיל כבר יש תמיכה טובה ב-MCP. אבל Cursor CLI יצא לפני פחות משבוע, ואני מניח שהם ישפרו אותו עם הזמן.

מלבד הפערים האלה, קיבלתי תוצאות לא רעות עם Cursor CLI. האיכות הרגישה דומה ל-Claude Code, והממשק כמעט העתק אחד לאחד.

אחרי שהקרדיטים החינמיים של GPT-5 נגמרו לי, החלטתי לחזור בינתיים ל-Claude Code (חידשתי מנוי לחודש ב-Claude Pro). אולי Cursor CLI ישתפר בעתיד, אבל כרגע הוא לא טוב כמו Claude Code. אני גם חושש שה-CLI יהיה מוצר משני עבור Cursor.

Microsoft Copilot עם GPT-5

אצל הלקוח הנוכחי שלי, הכלי ה-AI היחיד שאושר הוא Microsoft 365 Copilot (לא GitHub Copilot). היו לי איתו תוצאות בינוניות בעבר, אז שמחתי שהוא עודכן עכשיו להשתמש ב-GPT-5.

זו הייתה גם דרך טובה להתנסות ב-GPT-5 בחינם. גם בלי חשבון, Microsoft Copilot מציע כמות נדיבה של בקשות GPT-5 (צריך לזכור להפעיל GPT-5 בכל פעם שמתחילים צ’אט חדש).

ובכל זאת, החוויה של שימוש ב-GPT-5 ב-Microsoft Copilot מרגישה שונה מאשר ב-ChatGPT, למרות שטוענים שזה אותו מודל. אני חושד שהנתב האוטומטי הידוע לשמצה נותן ל-Microsoft Copilot את המודלים הזולים יותר לעיתים קרובות, אלא אם מבקשים במפורש שלא. גם כשדחפתי חזק בפרומפטים, עדיין קיבלתי תוצאות מהירות בהרבה מ-ChatGPT 5 Thinking. אולי תשתית Azure אופטימלית יותר או שפשוט Microsoft Copilot כמעט לא מנותב למודלים הכי טובים של GPT-5.

בכל מקרה הרגשתי שיפור בתשובות לעומת מודלי Microsoft Copilot הקודמים (“Quick response” ו-“Think Deeper”, שלדעתי מבוססים על וריאציה של GPT-4). ועדיין, Microsoft Copilot מוגבל בדרכים אחרות (לעומת ChatGPT), כמו חלון הקשר קטן.

המסקנה הכללית: Microsoft Copilot שימושי לעבודה בסיסית אבל רחוק מלהיות ההעדפה שלי. לא הייתי משתמש בו אלא אם לא הייתה לי ברירה אחרת (כמו שקורה אצל הלקוח הנוכחי).

הערות שימוש

3,000 הודעות GPT-5 Thinking בשבוע זו קפיצה אדירה; פעם זה היה בערך 200, ו-o3 היה מוגבל ל-50 בלבד (הייתי מגיע לתקרה הזו כל שבוע עד שהתחלתי לשלב Claude).
הייתי צריך לקמצן עם o3, אז טוב שהמכסה גבוהה יותר עכשיו. לא נראה שאגיע ל-2,000 הודעות בשבוע גם אם ChatGPT היה הכלי היחיד שלי.
ברירת מחדל ל-Thinking לוקחת הרבה יותר זמן - לפעמים דקות. בדרך כלל התשובה טובה יותר (ושווה את ההמתנה), אבל לא תמיד.
לפחות פעם אחת GPT-5 (Auto) נתן את התשובה הנכונה בזמן ש-GPT-5 Thinking חיכה דקות והחזיר תשובה הפוכה ולא נכונה.

המסקנות שלי על GPT-5

בגדול מאכזב, אבל עדיין שימושי. אמשיך להשתמש בו, במיוחד עם ChatGPT 5 Thinking.

OpenAI כבר התייחסה לחלק מהביקורות ותמשיך לשפר את GPT-5.

תמונה מוצגת מאת Igor Omilaev אצל Unsplash.