Не вярвайте на всичко, което AI ви казва: Дава 60% грешни отговори

Новият бенчмарк на OpenAI разкрива сериозни проблеми с точността на изкуствения интелект

по статията работи: iNews | 07.11.2024 | 15:50
Не вярвайте на всичко, което AI ви казва: Дава 60% грешни отговори
pixabay
Повече за:

Изкуственият интелект породи много спорове сред специалистите за това доколко достоверни са неговите отговори. OpenAI, разработчикът на ChatGPT, въведе нов бенчмарк SimpleQA, за да оцени точността на изхода на AI моделите. Резултатите от теста разкриха сериозни проблеми с надеждността на информацията, генерирана от големите езикови модели (LLM) – средно в 60% от случаите отговорите са грешни.

Целта на новия бенчмарк е да предостави обективна оценка на точността и надеждността на LLM, които се използват все повече в различни области на живота – от образованието и разработването на софтуер до здравеопазването и правоприлагането. Тестовете показват, че дори най-напредналите модели, като o1 на OpenAI и Claude-3.5-sonnet на Anthropic, имат изключително ниска успеваемост – съответно 42,7% и 28,9% верни отговори.

Усложнявайки проблема, моделите са склонни да "надценяват своите възможности” и да генерират отговори, които са пълни глупости, известни като "халюцинации”. Тази тенденция е добре документирана и може да има сериозни последствия, особено в чувствителни области като здравеопазването и правоприлагането.

Например, AI модел, използван в болниците и изграден върху технологията на OpenAI, показва чести халюцинации и неточности при транскрибиране на взаимодействия с пациенти. Полицията в САЩ също започва да използва AI, което може да доведе до фалшиви обвинения на невинни или до субективни разследвания.

Според експерти, резултатите от тестването на бенчмарка SimpleQA са сигнал за събуждане, че настоящите LLM са крайно неспособни да предоставят надеждна информация, която отговаря на истината. "Това трябва да послужи като напомняне, че всеки резултат от LLM трябва да се приема с недоверие и да сте готови да разгледате внимателно генерирания текст”, каза говорител на OpenAI, цитиран от Futurism.

Остава отворен въпросът дали проблемът с валидността на отговорите на LLM може да бъде решен с още по-големи комплекти за обучение, както твърдят разработчиците на AI. Според някои експерти, е необходимо да се търсят нови подходи за разработване на AI модели, които да осигурят по-висока точност и надеждност на генерираната информация.

"Трябва да се съсредоточим върху разработването на модели, които могат не само да генерират правдоподобни отговори, но и да ги оценят и да отхвърлят отговор, когато не са сигурни в истината”, каза изследовател на изкуствения интелект от OpenAI.

Резултатите от тестването на бенчмарка SimpleQA подчертават необходимостта от по-нататъшни изследвания и разработки в областта на изкуствения интелект, за да се гарантира надеждността и валидността на генерираната информация. И не само това – наложително е да се предотвратят потенциалните негативни последици от използването на LLM в различни области на живота, пише technews.bg.


Добави коментар
Моля, пишете на кирилица! Коментари, написани на латиница, ще бъдат изтривани.

ТВ програма

Кино

  • Сега Спортни новини
  • 21:00 Референдум с Добрина Чешмеджиева
  • 22:00 Страсти в Тоскана 3 тв филм /17...
  • 23:00 По света и у нас
  • 23:25 Шетланд 2 тв филм /6, последен...
  • 00:25 Още от деня коментарно предаване /п/
  • 00:55 100% будни сутрешно токшоу с...
  • 02:30 Култура.БГ предаване за култура с...
  • Сега "Островът на 100-те гривни: Другата...
  • 22:00 "Помниш ли текста?" - музикално шоу...
  • 23:00 bTV Новините - късна емисия
  • 23:30 "Сезар Вагнер" - сериал, с.1, еп.1
  • 01:30 "Ослепително слънце" - сериал, с.2,...
  • 02:10 bTV Новините /п./
  • 02:50 "Преди обед" - токшоу с водещи...
  • 04:45 "Ослепително слънце" - сериал /п./
  • Сега "Игри на волята:...
  • 22:00 "Много мой човек" - сериал, сезон 1
  • 23:00 Новините на NOVA
  • 23:30 "ФБР" - сериал, сезон 1
  • 00:30 "Престъпен рай" - сериал, сезон 1
  • 01:30 "Специален отряд" - сериал, сезон 2
  • 02:15 "Моето име е Мелек" - сериен филм
  • 03:15 "Наследство" - сериен филм /п/
Какво е общото между цигарите и мазнините по корема Анализът им показва, че започването на пушенето и пушенето през целия живот е свързано с увеличаване на коремните мазнини.