Новый инструмент оценки LongEval вводит общие стандарты для проверки достоверности ИИ-текстов.
В последнее время общественность остро реагирует на выпуск генеративных нейросетей, таких как ChatGPT . Многие считают эту технологию большим шагом вперед в области коммуникации, другие предсказывают ее пагубные последствия.
Однако сгенерированный текст известен своими недоработками, и человеческая оценка остается золотым стандартом для гарантирования точности, особенно при генерации длинных резюме (суммирование итогов и тезисов) сложных текстов. Но в то же время сейчас не существует принятых стандартов для человеческой оценки длинных резюме, что вызывает сомнение даже в «золотом стандарте».
Чтобы исправить эту ситуацию, команда компьютерных ученых из США представила набор руководящих принципов под названием « Для просмотра ссылки Войдиили Зарегистрируйся ». Принципы были представлены на Европейском отделении Ассоциации вычислительной лингвистики, где они были награждены премией за лучшую статью.
По словам экспертов, в настоящее время нет надежного способа оценить длинные сгенерированные тексты без участия людей, и даже существующие протоколы человеческой оценки являются дорогостоящими, требуют много времени и сильно варьируются.
В процессе исследования команда изучила 162 научные работы о длинных резюме. Анализ показал, что 73% работ вообще не проходили человеческую оценку, а к остальным применялись различные методики оценки.
В целях продвижения эффективных, воспроизводимых и стандартизированных протоколов для человеческой оценки сгенерированных резюме, авторы исследования разработали список из трех всеобъемлющих рекомендаций, которые охватывают то, как и что должен читать оценщик, чтобы судить о надежности резюме.
Руководство LongEval включает в себя следующие рекомендации:
Исследователи применили LongEval к двум наборам данных по резюмированию длинных текстов в разных областях ( SQuALITY и PubMed ) и показали, что более тонкая оценка снижает разброс всех оценок достоверности текста. Эксперты также показали, что оценки из частичной аннотации высоко коррелируют с оценками из полной аннотации.
Специалисты обещают, что LongEval позволит людям «точно и быстро оценивать алгоритмы генерации длинного текста». Эксперты выпустили LongEval в виде библиотеки Python , и сообщество сможет использовать и развивать LongEval в своих исследованиях.
В последнее время общественность остро реагирует на выпуск генеративных нейросетей, таких как ChatGPT . Многие считают эту технологию большим шагом вперед в области коммуникации, другие предсказывают ее пагубные последствия.
Однако сгенерированный текст известен своими недоработками, и человеческая оценка остается золотым стандартом для гарантирования точности, особенно при генерации длинных резюме (суммирование итогов и тезисов) сложных текстов. Но в то же время сейчас не существует принятых стандартов для человеческой оценки длинных резюме, что вызывает сомнение даже в «золотом стандарте».
Чтобы исправить эту ситуацию, команда компьютерных ученых из США представила набор руководящих принципов под названием « Для просмотра ссылки Войди
По словам экспертов, в настоящее время нет надежного способа оценить длинные сгенерированные тексты без участия людей, и даже существующие протоколы человеческой оценки являются дорогостоящими, требуют много времени и сильно варьируются.
В процессе исследования команда изучила 162 научные работы о длинных резюме. Анализ показал, что 73% работ вообще не проходили человеческую оценку, а к остальным применялись различные методики оценки.
В целях продвижения эффективных, воспроизводимых и стандартизированных протоколов для человеческой оценки сгенерированных резюме, авторы исследования разработали список из трех всеобъемлющих рекомендаций, которые охватывают то, как и что должен читать оценщик, чтобы судить о надежности резюме.
Руководство LongEval включает в себя следующие рекомендации:
- Оценивать достоверность резюме по отдельным фрагментам (предложениям или клаузам), а не по всему тексту целиком. Это позволяет повысить согласованность оценок между разными экспертами и уменьшить нагрузку на них;
- Использовать автоматическое выравнивание между фрагментами резюме и источника, чтобы упростить поиск соответствующей информации в длинных документах. Это также помогает избежать ошибок, связанных с перефразированием или обобщением информации в резюме;
- Выбирать подходящий набор фрагментов для оценки в зависимости от цели исследования. Например, можно оценивать все фрагменты, случайную подвыборку или только те, которые содержат ключевую информацию.
Исследователи применили LongEval к двум наборам данных по резюмированию длинных текстов в разных областях ( SQuALITY и PubMed ) и показали, что более тонкая оценка снижает разброс всех оценок достоверности текста. Эксперты также показали, что оценки из частичной аннотации высоко коррелируют с оценками из полной аннотации.
- SQuALITY — это набор данных, состоящий из 5 резюме для каждого из 100 коротких рассказов из общественного достояния. Первое резюме дает обзор всего рассказа, а остальные четыре отвечают на конкретные вопросы о сюжете, персонажах, теме и стиле.
- PubMed — это набор данных, состоящий из 10 тысяч научных статей из медицинской области и их резюме. Резюме имеют длину от 150 до 300 слов и содержат основные результаты и выводы статей.
Специалисты обещают, что LongEval позволит людям «точно и быстро оценивать алгоритмы генерации длинного текста». Эксперты выпустили LongEval в виде библиотеки Python , и сообщество сможет использовать и развивать LongEval в своих исследованиях.
- Источник новости
- www.securitylab.ru