Новое совместное исследование Microsoft Research с Salesforce демонстрирует, что популярные чаты боты на ИИ глупеют после длительного общения с людьми. Суммарный уровень ошибок может вырасти более чем на 100% при анализе свыше 200 тысяч бесед, передает unian.netВ последние годы ведущие IT-разработчики представили целую линейку продвинутых больших языковых моделей, стремясь закрепить лидерство на рынке. Тем не менее пользователи регулярно жалуются на "галлюцинации" и неверные ответы. Новая научная работа подтверждает: даже самые умные нейросети нередко "теряются" в разговоре, когда задача разбивается на естественный диалог из нескольких реплик.В ходе эксперимента эксперты изучили более 200 000 диалогов с участием флагманских LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet и DeepSeek R1. Если при одиночных запросах такие модели демонстрируют практически 90% успешных ответов, то в длинных беседах с уточнениями и дополнительными вопросами показатель падает до 65%. Иными словами, по мере усложнения контекста эффективность заметно снижается.Исследователи обнаружили еще одно любопытное явление – "раздувание ответов". В многоходовых диалогах ответы моделей становились длиннее на 20–300%. Вместе с объемом росло и количество допущений и галлюцинаций, которые затем закреплялись в контексте разговора и использовались как основа для последующих реплик. Причем даже модели с расширенными "токенами размышления", такие как OpenAI o3 и DeepSeek R1, не смогли полностью избежать этого эффекта.Авторы подчеркивают, что резкое ухудшение качества в длинных беседах не означает, что модели "тупеют" в буквальном смысле – скорее, это указывает на их ограниченность в удержании и правильной интерпретации большого объема информации в ходе диалога. Несмотря на это, ИИ все еще демонстрирует впечатляющие способности при ответах на отдельные запросы.Как отмечает Windows Central, такие особенности следует учитывать при использовании чат-ботов в продуктах, ориентированных на длительное взаимодействие с пользователем. Возможные ошибки и галлюцинации могут ввести людей в заблуждение, особенно если пользователь полагается на ИИ как на источник точной и критически важной информации.