האם xAI מטעה אותנו עם תוצאות Grok 3? הפרטים שמפתיעים את כולם

xAI מתמודדת עם בדיקה על הצגת תוצאות המדדים עבור המודל החדש שלה, Grok 3. עובד ב-OpenAI טוען שייתכן כי התוצאות המדווחות של xAI עלולות להיות מטעות. דיון זה מעלה על פני השטח את האתגרים בהצגת נתוני מדדים בבינה מלאכותית בצורה מדויקת, במיוחד עם מדדים מורכבים כמו “consensus@64” (cons@64). מדד זה מאפשר למודלים מספר ניסיונות לפתור בעיות, דבר שעלול להגדיל בצורה מלאכותית את ציוני הביצועים.

הגרף של xAI הראה ש-Grok 3 עולה בביצועים על מודל o3-mini-high של OpenAI, אך הושמט ממנו ציון ה-cons@64 של האחרון. השמטה זו עלולה ליצור מצג שווא של השוואת הביצועים האמיתית. בניסיון הראשון (@1), הביצועים של Grok 3 היו נמוכים מאלו של o3-mini-high. מצב זה מעורר שאלות על השקיפות בפרקטיקות המדידה בבינה מלאכותית.

הוויכוח המתמשך הזה מדגיש את הצורך במדידה ברורה ומקיפה בפיתוח בינה מלאכותית. הבנת המשאבים החישוביים הנדרשים להשגת ציוני מדדים היא קריטית, אך לעיתים תכופות נותרת חסויה בהשוואות אלו.

חברים יקרים!
אהבתם מה שקראתם?
אז תהיו חברים…
קבלו ישירות אליכם למייל:
חדשות, טיפים ומדריכים, מבצעים וכלי בינה מלאכותית.
השאירו שם ומייל וגם אתם לא תצטרכו לדאוג שתפספסו משהו בעולם ה-AI!
שדה זה מיועד למטרות אימות ויש להשאיר אותו ללא שינוי.
פרטיות(חובה)
This field is hidden when viewing the form
This field is hidden when viewing the form
Send this to a friend