Ставки на повышение: погоня за эффективностью с использованием ИИ

Поскольку границы возможностей ИИ продолжают расширяться, причём в геометрической прогрессии, специалисты должны пересмотреть своё понимание этих границ, а организациям — подготовиться к новому миру работы, объединяющему человека и ИИ.

В последние три года в сферу ИИ потекли значительные капиталы, а интерес к искусственному интеллекту обновляет все рекорды. Неужели это начало новой промышленной революции или очередной мыльный пузырь наподобие доткомов?

Появление в открытом доступе различных вариаций искусственного интеллекта (ИИ), способного решать некоторые задачи интеллектуального и творческого характера, вызвало интерес к тому, как люди будут использовать данные инструменты для решения рабочих задач.

Исследователи провели анализ деятельности работников крупной американской консалтинговой фирмы Boston Consulting Group, а также влияния применения ИИ на производительность при решении реалистичных, сложных и наукоёмких задач.

В данном эксперименте приняли участие 758 человек. Консультанты с разным уровнем квалификации получили только преимущества от использования искусственного интеллекта, причём у консультантов с уровнем производительности ниже среднего она выросла значительно по сравнению с их собственными показателями.

Новая эра ИИ, приход ChatGPT

Возможности искусственного интеллекта по выполнению человекоподобной работы быстро растут, особенно с момента выпуска ChatGPT от OpenAI, одной из нескольких больших языковых моделей (БЯМ), широкодоступных для свободного использования. 

Большая языковая модель (БЯМ) — это языковая модель, состоящая из нейронной сети с огромным количеством параметров (обычно это миллиарды и более весовых коэффициентов), обученной на большом объёме текстовых данных с использованием обучения без учителя.

Несмотря на новизну БЯМ, влияние других, более ранних форм ИИ было предметом серьёзных научных дискуссий. В силу ограничений этих ранних форм ИИ нерутинные задачи, которые было сложно кодифицировать, казались защищёнными от автоматизации, тем более что предыдущие волны технологий автоматизировали в основном низкоквалифицированные профессии. Выход ChatGPT в ноябре 2022 года изменил и характер, и актуальность дискуссии. БЯМ оказались неожиданно эффективными при решении творческих, аналитических и письменных задач, в том числе при сдаче выпускных и профессиональных экзаменов на высшем уровне.

Два слова об эксперименте

Консультантам компании Boston Consulting Group (BCG), работающим по всему миру, была предоставлена возможность потратить 5 часов на эксперимент, чтобы оценить влияние искусственного интеллекта на их деятельность. В исследовании приняли участие 758 консультантов по стратегиям, каждый из которых выполнил первичный опрос и экспериментальные задания.

Для того чтобы обеспечить реальную вовлечённость участников в эксперимент, исследователи стимулировали их работу. Участники, добросовестно участвовавшие во всех аспектах эксперимента, получали финансовую стимуляцию, связанную с их годовыми премиями. Кроме того, для признания и поощрения выдающихся достижений 20% лучших участников получали дополнительную стимулирующую выплату, а 5% лучших — небольшой подарок.

Испытуемые были распределены на один из двух разных экспериментов, каждый из которых включал в себя уникальный тип задачи, причём группы не пересекались. Оба задания были разработаны в сотрудничестве с несколькими сотрудниками BCG и представляли собой типичные виды деятельности, с которыми сталкиваются индивидуальные консультанты. 

Перед выполнением экспериментального задания все участники получали предварительное оценочное задание, которое по концепции повторяло основной эксперимент. Это помогло обеспечить достаточно точную оценку уровня навыков каждого работника для последующего сравнения с результатами экспериментальной задачи.

Примерно половина участников решала серию задач, в которых им предлагалось сформулировать концепцию и разработать идеи нового продукта, при этом особое внимание уделялось таким аспектам, как креативность, аналитические способности, убедительность и умение писать. Перед другой половиной были поставлены задачи по решению бизнес-проблем, используя количественные данные, интервью с клиентами и компаниями, а также компонент убеждения в деловой переписке. Руководитель высшего звена компании отметил, что эти задания «в значительной степени соответствуют повседневной деятельности» участников.

Примечательно, что некоторые формы этих заданий также используются компанией для отбора кандидатов на работу, как правило из элитных академических кругов (включая докторов наук), на высокооплачиваемые должности.

Первая группа (контрольная) не применяла ИИ, вторая («Только GPT») пользовалась инструментом ИИ, основанным на GPT-4, а третья («GPT + инструкция») не только использовала тот же инструмент ИИ, но и получала дополнительный обзор инженерных подсказок, что повышало их знакомство с ИИ. Эти материалы включали в себя обучающие видеоролики и документы, в которых излагались и иллюстрировались эффективные стратегии использования.

Помимо тематических различий, задачи различались ещё по одному ключевому признаку. Хотя обе задачи были разработаны как сопоставимо сложные и реалистичные, первая задача была выбрана таким образом, чтобы не выходить за пределы возможной технологической границы GPT-4. Второй эксперимент был разработан таким образом, чтобы при проведении анализа GPT-4 допустил ошибку, что обеспечило работу за пределами возможностей данного ИИ.

Результаты решения задач, соответствующих возможностям GPT

Эксперимент «Внутри возможностей GPT-4» был посвящён творческому подходу к инновациям и разработке продуктов. Первоначальное оценочное задание предлагало участникам провести «мозговой штурм» инновационных концепций напитков. Из предложенного набора идей они определяли наиболее жизнеспособный вариант и разрабатывали комплексный план его вывода на рынок. После этого задания испытуемые начинали основную часть эксперимента. Здесь участники должны были разработать концепцию обувной идеи для нишевых рынков и описать все этапы её реализации — от описания прототипа до сегментации рынка и выхода на рынок.

Руководитель одной из ведущих мировых обувных компаний подтвердил, что дизайн задания охватывает весь процесс, который обычно проходит их компания, — от разработки идеи до вывода продукта на рынок. Участники ответили на 18 заданий. Эти задания относились к различным областям. В частности, их можно разделить на четыре типа:творческий подход (например, «Предложите не менее 10 идей для новой обуви, ориентированной на неохваченный рынок или вид спорта»);аналитическое мышление (например, «Сегментируйте рынок обувной промышленности по пользователям»);умение писать (например, «Составьте маркетинговую копию пресс-релиза для вашего продукта»);убедительность (например, «Напишите вдохновляющую записку для сотрудников, в которой подробно объясните, почему ваш продукт превзойдёт конкурентов»).

В эксперименте основной переменной результата являлось качество ответов испытуемых. Во всех случаях оба варианта — «GPT + инструкция» и «Только GPT» — демонстрировали положительный эффект. Вариант «GPT + инструкция» привёл к увеличению оценок на 42,5% по сравнению с контрольным значением, а «Только GPT» — к увеличению на 38%. Эти результаты подчёркивают важность дополнительных инструкций в повышении эффективности использования ИИ. При этом наибольшую выгоду от использования ИИ получили испытуемые с низкими навыками.

Средние показатели испытуемых, попавших в нижнюю половину распределения результатов выполнения задания на оценку (слева), и испытуемых, попавших в верхнюю половину распределения результатов выполнения задания на оценку (справа). Столбики зелёного цвета показывают результаты выполнения задания на оценку, а столбики синего цвета — результаты выполнения экспериментального задания. По оси y отложены средние значения оценки (по шкале 1–10). Источник: «Результаты исследования»

Исследуя вариативность контента, создаваемого испытуемыми, авторы сосредоточились на понимании разнообразия их ответов по отношению к другим. Полученные таким образом результаты свидетельствуют о том, что, хотя испытуемые, использующие ИИ, генерируют идеи более высокого качества, вариативность этих идей заметно снижается по сравнению с испытуемыми, не использующими ИИ. Это говорит о том, что, хотя GPT-4 и помогает генерировать более качественный контент, он может приводить к более однородным результатам.

Распределение среднего внутреннего семантического сходства по экспериментальным условиям. Источник: «Результаты исследования»

Результаты решения задач за гранью возможностей GPT

Также была разработана задача за пределами границ возможностей ChatGPT. За отправную точку был взят тип бизнес-кейсов, которые BCG использует для проведения высококонкурентных собеседований. После нескольких итераций исследователи остановились на задаче, основанной на существующем бизнес-кейсе, в котором использовались данные из электронной таблицы, а также файл с интервью инсайдеров компании, которые были скорректированы и адаптированы к эксперименту. Чтобы правильно решить задачу, участники должны были взглянуть на количественные данные, используя тонкие, но понятные выводы из интервью.

Суть задачи второго эксперимента состояла в том, чтобы испытуемые предложили действенные стратегические рекомендации по развитию для гипотетической компании. Сначала участники работали над оценочным заданием, в котором им нужно было проанализировать работу каналов сбыта компании. Используя результаты инсайдерских интервью и финансовые данные, участники должны были предоставить информацию и обоснованные рекомендации генеральному директору. Их рекомендации должны были определить, какой канал сбыта имеет наибольший потенциал для роста.

Хотя данные электронных таблиц сами по себе были рассчитаны на то, чтобы казаться исчерпывающими, внимательное изучение записей интервью позволило выявить важнейшие детали. Если рассматривать эту информацию в совокупности, то она приводит к выводам, противоположным тем, которые мог бы сделать ИИ, получив инструкции к упражнению, данные и сопровождающие их интервью.

Во втором эксперименте основная задача состояла в том, чтобы испытуемые предложили действенные стратегические рекомендации гипотетической компании. От изучения каналов сбыта компании внимание переключилось на анализ бренда, так как испытуемые должны были проанализировать эффективность бренда компании. Для этой задачи вне границы основной метрикой оценки является «правильность». Она представлена в виде двойной переменной, где «1» означает, что испытуемые дали точную рекомендацию, а «0» — обратную. На рисунке ниже наглядно представлены проценты правильного выполнения задания в разных группах, причём в сравнении с контрольной группой заметно снижение эффективности, когда применялся ИИ.

Средняя результативность выполнения задания за гранью возможностей GPT-4. Она показывает процент испытуемых в каждой группе, давших правильный ответ в экспериментальной задаче. Источник: «Результаты исследования»

Как участники взаимодействовали с ИИ

Эксперименты показали, что форма и положение границы возможностей имеют огромное значение для понимания влияния ИИ на работу. При выполнении задач в пределах границы ИИ значительно повышал эффективность работы человека. За её пределами люди слишком полагались на ИИ и чаще совершали ошибки. Не все пользователи одинаково ловко ориентировались на неровной границе. Одни выполнили задание неверно, другие продемонстрировали удивительную способность эффективно использовать возможности ИИ.

Получилось выделить две доминирующие модели, которые отражают взаимодействие ИИ с работником. Первая — это поведение кентавра. Этот подход предполагает аналогичное стратегическое разделение труда между людьми и машинами, тесно слитыми воедино. Пользователи, придерживающиеся этой стратегии, переключаются между задачами ИИ и человека, распределяя обязанности с учётом сильных сторон и возможностей каждого из них. Они определяют, какие задачи лучше решать с помощью человека, а с какими может эффективно справиться ИИ. Вторая модель — это поведение киборга. Этот подход предполагает сложную интеграцию. Пользователи-киборги не просто делегируют задачи, они переплетают свои усилия с ИИ на самой границе возможностей. Эта стратегия может проявляться в чередовании обязанностей на уровне подзадач, например инициировать предложение, которое должен выполнить ИИ, или работать в тандеме с ним.

Оба подхода максимально интуитивны для всех людей, придерживаясь любого из них, можно достичь определённого результата, пусть и не идеального.

Какое будущее у ИИ в бизнесе, науке, политике и творчестве?

Полученные учёными результаты подчёркивают трансформационный потенциал ИИ и позволяют понять, как использовать его возможности для достижения оптимальных результатов. Важнейшей особенностью эксперимента была доступность испытуемых. В частности, использовались работники, которые не только обладали высокой квалификацией, но и выполняли задачи, которые в значительной степени отражали их профессиональную деятельность.

Авторы показали, что полезность ИИ может колебаться на протяжении всего рабочего процесса специалиста, причём некоторые задачи находятся внутри границы возможностей ИИ, а другие — за её пределами. Для задач, находящихся внутри границы, эти результаты имеют большое значение для производительности. Кроме того, специалисты, имеющие низкую эффективность, получают наибольший выигрыш, хотя пользу от использования ИИ получают все. Таким образом, ИИ в будущем сможет нивелировать различия в уровне производительности и повысить общее качество работы.

Однозначно можно сказать, что основным минусом использования ИИ является потенциальное снижение разнообразия идей, но и в этом случае проблему можно решить благодаря использованию нескольких различных моделей ИИ. В то же время, когда в компании появляется новый работник с малым опытом работы, именно ИИ сможет помочь ему в кратчайшие сроки (при определённой помощи) выйти на минимальную удовлетворительную планку эффективности работы и в более короткие сроки повысить её до максимального значения.

В зависимости от типа организаций, если требуются стабильные высокие результаты, легче всего применить специально обученную модель ИИ, которая будет отлично справляться внутри границ возможностей. Если же от компании требуется постоянно генерировать идеи, проводить НИОКР, то лучшим выбором станет использование отсортированной заранее группы моделей ИИ совместно со специалистом, который сможет легко маневрировать между границами возможностей использования.

Как показал эксперимент, ИИ хорошо справляется с задачами генерации идей и выбора лучшей. Он способен выбирать подходящий вариант, учитывая различные доводы как за, так и против. Способность творчески генерировать идеи для продуктов также поражает воображение, при этом ИИ способен обосновать выбор названия для нового бренда с учётом предварительно представленной информации. ИИ помогает направить вектор мышления, он успешно создаёт столько примеров и идей, сколько необходимо, а среди большого разнообразия часто даёт успешные варианты. Человек, благодаря большой сгенерированной выборке, сам того не понимая, может сформировать идею, отличную от предложенных ИИ, но не менее эффективную. Этот способ создания идей похож на метод утёнка, который часто используют программисты.

При всём этом в ходе эксперимента GPT-4 часто ошибался в выборе одного из трёх брендов по результатам их отчётной деятельности и интервью с инсайдерами компаний, хотя специалист со стажем в сфере консалтинга довольно легко смог бы дать правильный и исчерпывающий ответ. По-видимому, ИИ обосновывает своё мнение, основываясь на множестве переменных, и когда их количество превышает некое значение, то результат может стать нелогичным. Самое страшное в этом всём то, что нейросеть может обосновать свой выбор, даже если он неправильный, а пользователи склонны в значительной степени полагаться на её рекомендации, подавляя своё критическое мышление. Это и есть причина медленного внедрения ИИ на уровне крупных организаций.

Однако оптимизм насчёт использования и последствий взаимодействия человека и ИИ только растёт. При этом довольно сложно найти задачу, в которой ИИ будет уступать высококвалифированному работнику, особенно, когда это касается генерации идей, написания текстов, стратегического анализа и творческого обновления продуктов.

Поскольку границы возможностей ИИ продолжают расширяться, причём в геометрической прогрессии, специалисты должны пересмотреть своё понимание этих границ, а организациям — подготовиться к новому миру работы, объединяющему человека и ИИ. Как когда-то интернет и веб-браузеры резко снизили предельные затраты на обмен информацией, ИИ, возможно, также снизит затраты, связанные с человеческим мышлением и рассуждениями, что может иметь широкие и преобразующие последствия для всего человечества.

Автор статьи:
Михаил Захаров
Содержание:
Поделиться: