
Shir Granot Peled
@ShirPeled
Followers
5K
Following
132K
Media
4K
Statuses
55K
Could be worse, could be raining. (He/Him) נשבע בנקיטת חפץ שאקליט עוד פרקים של ״מתמטיקה שמתמטיקה״
ישראל
Joined October 2018
אני ממשיך שושלת של אנשים ונשים שידעו לא לצאת לקצונה ולא לעשות דוקטורט.
12
0
349
קצת חדשות מהעבודה שלי:.בנינו מבחן למודלי שפה, שבעיקרון אמור להיות בהחלט בהישג ידם. השאלות הן שאלות אלגוריתמיות לא קלות שצריך לממש בקוד, וריאציות על בעיות ממשפחות ידועות, בתחומים מתמטיים שיש עליהם הרבה חומר ברשת. התוצאה היא שבבעיות שסיווגנו כקלות - המודלים מצליחים יפה. אבל.
Are frontier AI models really capable of “PhD-level” reasoning? To answer this question, we introduce FormulaOne, a new reasoning benchmark of expert-level Dynamic Programming problems. We have curated a benchmark consisting of three tiers, in increasing complexity, which we call
3
0
70