Исследование Apple выявило критические недостатки в способностях искусственного интеллекта к логическому рассуждению

Как опытный аналитик с более чем двадцатилетним опытом работы в технологической отрасли, я стал свидетелем замечательной эволюции искусственного интеллекта и машинного обучения со стороны со стороны. Однако новое исследование Apple одновременно заинтриговало и несколько обеспокоило текущее состояние больших языковых моделей.

Согласно отчету, недавно опубликованное исследование показывает, что исследователи искусственного интеллекта Apple обнаружили заметные недостатки в возможностях логического мышления больших языковых моделей.

В этом исследовании, доступном на arXiv, подробно описана оценка Apple различных продвинутых языковых моделей от таких компаний, как OpenAI, Meta и других, с целью изучить их способность решать задачи математического рассуждения. Результаты показывают, что незначительные корректировки в способе постановки вопросов могут существенно повлиять на производительность модели, потенциально ставя под угрозу ее надежность в ситуациях, требующих логической последовательности.

Apple подчеркивает постоянную проблему с языковыми моделями: они склонны больше полагаться на распознавание образов, а не на подлинное логическое мышление. Исследователи показали это в различных тестах, где введение в вопрос посторонних деталей, информации, которая не должна влиять на математический результат, может привести к значительным различиям в ответах моделей.

Один из примеров, приведенных в статье, включает в себя простую математическую задачу: сколько киви человек собрал за несколько дней. Когда были введены несущественные подробности о размере некоторых киви, такие модели, как o1 от OpenAI и Llama от Meta, неправильно скорректировали окончательную сумму, несмотря на то, что дополнительная информация не имела никакого отношения к решению.

Похоже, что языковые модели не демонстрируют традиционные формы логических рассуждений. Вместо этого их действия точнее описать как расширенное распознавание образов. Интересно, что даже незначительные изменения, такие как изменение имен, могут привести к значительным изменениям в результатах, примерно до 10 %.

Ненадежность их мыслительных процессов привела исследователей к выводу, что эти модели не используют подлинную логику при решении проблем, а скорее зависят от расширенного распознавания образов, отточенного в процессе обучения. Они обнаружили проблему, при которой «переименование переменных может повлиять на результаты», что может быть тревожным симптомом для будущего технологий искусственного интеллекта, которые требуют надежных и точных рассуждений в реальных сценариях.

Согласно результатам исследования, все протестированные модели, включая более мелкие модели с открытым исходным кодом, такие как Llama, и более крупные проприетарные модели, такие как GPT-4o от OpenAI, испытывали заметное снижение производительности при работе с незначительными изменениями во входных данных. Apple предполагает, что ИИ может улучшить свои навыки принятия решений и решения проблем за счет интеграции нейронных сетей с традиционным символическим мышлением — концепцией, известной как нейросимволический ИИ.

Смотрите также

2024-10-14 18:01