ביקורת: OpenAI o3

יצא לי לעבוד הרבה עם o3. לדעתי מודל ממש טוב בהשוואה למודלים קודמים של ChatGPT!

זה לא רק “חושב” אלא גם עושה מחקר ברשת ומצליב מקורות כדי להגיע למסקנה. מודלים אחרים של ChatGPT גם יכולים לחפש ברשת, ההבדל הוא ש-o3 עושה חיפוש יותר מעמיק ומחפש יותר מקורות (באחת הפעמים שקראתי את “המחשבות” של המודל זה כתב שזה מנסה להשיג לפחות 10 מקורות).

זה דומה למה ש-Deep Research עושה, שזה הגיוני כי DR של ChatGPT השתמש במודל o3 עוד לפני שהוא יצא. אבל DR נותן תשובות באורך מאמר (ומוגבל ל-10 שימושים בחודש ב-ChatGPT Plus), וזה לא תמיד פרקטי. o3 נותן תשובות באורך דומה למודלים אחרים של ChatGPT. יש מגבלות שימוש גם ב-Plus אבל הייתי צריך להשתמש יחסית הרבה לפני שנתקלתי בהן.

המודל “חושב” מספר דקות לפני שזה נותן תשובה. לרוב אני מרגיש ששווה לחכות בשביל התשובה, מלבד לשאלות פשוטות שמודל אחר יכול לענות עליהן יותר מהר. עבור שאלות יותר מורכבות, o3 לרוב עדיף באופן משמעותי. יצא לי לנסות שאלות מורכבות של קוד ש-ChatGPT 4o התקשה לענות עליהן (או יותר נכון ענה בביטחון אבל חירטט עם הזיות וטעויות), ואז ניסיתי את אותה שאלה עם o3 וקיבלתי תוצאות טובות. עבור משימות יותר מורכבות לעיתים הייתי צריך לנסות כמה פעמים prompt כדי להסביר מה אני צריך, אבל ברוב המקרים o3 בסוף הצליח להשיג מה שרציתי (לעומת 4o).

המודל לא מושלם. עדיין יש הזיות וטעויות. אבל מניסיון שלי פחות מאשר במודלים אחרים שניסיתי.

עולם ה-AI זז כל כך מהר. אני בקושי עומד בקצב… חודש שעבר o3 היה כנראה המודל הכי טוב בעולם ועכשיו כבר יש דיבורים ש-Gemini 2.5 עקף אותו. אבל ברמה האישית לוקח זמן לעבוד עם מודל חדש ובאמת להבין את החוזקות והחולשות שלו.

שיחקתי גם קצת עם ChatGPT 4.5 ו-4.1. השתמשתי רק קצת אבל בינתיים פחות התרשמתי.

עוד לא ניסיתי את o4 ו-o4-mini-high. בהנחה ש-o3 יותר טוב, ברוב המקרים אני מעדיף לחכות כמה דקות בשביל המחשבה המעמיקה. בשביל שאלות יותר פשוטות אני עדיין משתמש ב-4o בתור ברירת מחדל.

תמונה מוצגת מאת Levart_Photographer אצל Unsplash.