Останні дослідження компанії OpenAI показали: навіть найсучасніші моделі мають високий відсоток помилок. Так, наприклад, модель "o1-preview" у тесті SimpleQA дала правильну відповідь тільки у 42.7% випадків — тобто більше половини відповідей були неправильними. Інші моделі, такі як Claude-3.5-sonnet від Anthropic, мали ще гірші результати, зокрема правильні відповіді становили лише 28.9%.
Детальніше ...