Новое исследование Оксфордского университета выявило важное социальное влияние больших языковых моделей искусственного интеллекта (LLM), которые изменяют свои ответы в зависимости от демографических характеристик пользователя, таких как этническая принадлежность, пол и возраст.
В 2025 году учёные из Оксфорда представили результаты масштабного исследования, продемонстрировавшие, что две ведущие бесплатные модели чат-ИИ дают разные ответы на одни и те же фактические запросы в зависимости от того, кто именно обращается к системе. Это означает, что искусственный интеллект адаптирует содержание своих ответов, исходя из предполагаемого социального и личностного профиля пользователя, что вызывает серьёзные вопросы с точки зрения объективности и справедливости.
В частности, исследование показало, что модели склонны предоставлять более либеральные по политическим и социальным вопросам ответы пользователям, которых идентифицируют как представителей меньшинств, в то время как у белых пользователей ответы были более консервативными. Такой эффект демонстрирует наличие скрытых социолингвистических и культурных предубеждений в работе языковых моделей, что теоретически не должно иметь места, учитывая, что ИИ призваны давать объективную информацию без дискриминации.
Для проведения анализа учёные использовали два набора данных: PRISM Alignment — обширный корпус с более чем 8000 разговоров с 21 языковой моделью, а также специально созданный датасет для изучения предвзятости. Полученные данные подтвердили, что модели способны менять свои ответы под влиянием контекста и характеристик пользователя, что может выступать как преимуществом (например, при персонализации), так и риском — при использовании моделей в чувствительных областях, таких как медицина, юридические консультации и другие сферы с высокой социальной ответственностью.
Дополнительные исследования 2025 года, также проведённые в Оксфорде, выявили, что несмотря на высокие показатели в лабораторных медицинских тестах, эффективность LLM серьёзно падает при работе с реальными пациентами. Например, модели вроде GPT-4o и Llama 3 успешно распознавали болезни и рекомендации в тестах, однако при непосредственном взаимодействии с людьми точность и надёжность советов снижались. Помимо этого, специалисты зафиксировали возможные риски использования больших языковых моделей в целях социальной инженерии и распространения дезинформации, что дополнительно подчёркивает важность глубокого понимания и контроля за их поведением.
Важной методологической новинкой анализа LLM стала концепция «семантической энтропии» — мера неопределённости значений в ответах искусственного интеллекта. Её вычисление даёт возможность прогнозировать, когда модели наиболее склонны к так называемым «галлюцинациям», то есть к генерации ответов, которые звучат уверенно, но не соответствуют реальности. Это открытие помогает улучшать контроль за качеством и достоверностью ИИ-ответов.
Кроме того, эксперты отмечают, что LLM эволюционируют и обучаются не только на основе заранее заданных правил, а также модифицируют свои ответы, опираясь на сложные паттерны и связи внутри огромных количеств данных. Например, команда Anthropic изучила миллионы активаций нейронов в одной из моделей и обнаружила, что концептуальные характеристики, такие как география или культурные фигуры, формируют в модели внутренние «карты знаний» и влияют на формулировки ответов. Это подчёркивает, что возможности ИИ выходят за рамки простого текстового поиска и требуют понимания скрытых процессов.
Совокупность этих исследований демонстрирует, что развитие больших языковых моделей несёт в себе не только возможности для автоматизации и помощи людям, но и серьезные вызовы по части этики, справедливости и безопасности. Необходимость учёта социокультурных факторов, оценки субъективного влияния на результаты и создания механизмов контроля над предвзятостью становится ключевым направлением для будущих разработок.
В связи с этим эксперты рекомендуют разработчикам и организациям, использующим LLM, внедрять комплексные подходы по минимизации нежелательных предубеждений, распределять ответственность за проверку ответов, особенно в областях, где ошибки могут иметь критические последствия, и создавать стандарты, обеспечивающие инклюзивность и нейтральность ИИ-систем.
Таким образом, исследования, проведённые в 2025 году, открывают новую страницу в понимании больших языковых моделей — систем, которые не просто обрабатывают текст, а социальных «собеседников», способных отражать, усилять или смягчать существующие общественные стереотипы и установки. Это заставляет переосмыслить подходы к разработке искусственного интеллекта и требует баланса между технологическим прогрессом и социальными ценностями.
Фото: визуализация работы больших языковых моделей, демонстрирующая сложную структуру взаимосвязей внутри нейросети и её связь с реальными социальными феноменами.