Ранние тесты показывают, что оценка ваших данных о физической форме системой ChatGPT Health может вызывать ненужную панику.

OpenAI недавно запустила раздел, посвященный здоровью, в ChatGPT, предназначенный для обеспечения безопасной среды для обсуждения тем, связанных со здоровьем, таких как медицинская информация, заболевания и упражнения. Ключевой функцией, о которой было объявлено, является ее способность анализировать данные из приложений для здоровья, таких как Apple Health, MyFitnessPal и Peloton, для выявления закономерностей с течением времени и предоставления индивидуальной обратной связи. Но новый отчет указывает на то, что OpenAI могла преувеличить, насколько хорошо эта функция на самом деле работает, предоставляя точную и надежную информацию.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Прочитать отчет 10-K

Первоначальные тесты, проведенные журналистом Washington Post Джеффри А. Фаулером, показали, что когда ему предоставили десять лет его данных Apple Health, чат-бот ChatGPT Health поставил его сердечно-сосудистому здоровью неудовлетворительную оценку. Однако кардиолог, который просмотрел результаты, заявил, что эта оценка была неточной и что фактический риск сердечных заболеваний у Фаулера был очень низким.

Я читал оценку доктора Эрика TopMob из Scripps Research, и он был довольно прямолинеен в отношении ChatGPT Health. Он не думает, что она готова давать медицинские советы, главным образом потому, что, кажется, она слишком сильно полагается на данные со смарт-часов, которые не всегда точны. В частности, он отметил, что оценки ChatGPT в значительной степени использовали оценки таких показателей, как VO2 max и вариабельность сердечного ритма, полученные с Apple Watch. Проблема в том, что эти измерения не идеальны — они могут быть неверными в зависимости от устройства и даже версии программного обеспечения. Оказывается, исследования показали, что показания VO2 max с Apple Watch часто ниже, чем они должны быть, но ChatGPT все равно интерпретировал их как признаки потенциальных проблем со здоровьем.

ChatGPT Health выставил разные оценки одним и тем же данным.

Проблемы продолжались. При повторном тестировании с одной и той же информацией, ChatGPT Health давал непоследовательные оценки, варьирующиеся от неудовлетворительной до B. Иногда он упускал из виду недавние результаты анализов крови и даже забывал основные детали, такие как возраст и пол заявителя. Claude for Healthcare от Anthropic, новый конкурент, продемонстрировал аналогичные проблемы, с оценками, варьирующимися между C и B минус.

OpenAI и Anthropic оба подчеркивают, что их инструменты искусственного интеллекта не являются заменой медицинским специалистам и должны предлагать только общую информацию. Однако мы обнаружили, что оба чат-бота давали очень уверенные и индивидуальные оценки здоровья сердца. Эта смесь кажущейся экспертности и потенциальной неточности может беспокоить здоровых людей или давать ложное чувство безопасности тем, кто не здоров. Хотя ИИ обладает потенциалом для анализа долгосрочных данных о здоровье полезными способами, первоначальные тесты показывают, что предоставление этим инструментам данных отслеживания физической формы за годы в настоящее время приводит к большему замешательству, чем к пониманию.

Смотрите также

2026-01-27 13:58