Соревнуемся с гигантами поиска на базе искусственного интеллекта: Claude, ChatGPT, Perplexity и Gemini — результаты шокируют!

Поиск ответов

После многих лет тестирования и сравнения чат-ботов на основе искусственного интеллекта и их функций у меня развилось своего рода шестое чувство, позволяющее мне определять, когда эти цифровые компаньоны знают, о чем говорят, а когда просто обманывают. В этой статье сравниваются возможности поиска ChatGPT, Gemini, Claude и Perplexity.

Большинство людей могут искать ответы в Интернете, что, безусловно, помогает, но сочетание поиска с ИИ может привести к некоторым удивительно проницательным ответам (и некоторым менее проницательным отступлениям).

Представьте, что у вас есть знающий друг, который впал в кому в октябре 2024 года и проснулся только сегодня. Возможно, он был знатоком всего, что происходило до его комы, но с тех пор он ничего не смыслит. Вот как в принципе выглядит ИИ без исследований.

Обычно я сосредотачиваюсь на одном чат-боте на основе искусственного интеллекта или сравниваю двух одновременно, но исследование кажется достаточно важным, чтобы усилить эту работу. Я решил сравнить друг с другом четырех ведущих чат-ботов на основе искусственного интеллекта и их исследовательские возможности: ChatGPT от OpenAI, Gemini от Google, Claude от Anthropic и Perplexity AI.

Наиболее показательными являются тесты, имитирующие реальные сценарии использования. Итак, я придумал несколько тем, рандомизировал некоторые детали для тестов ниже, а затем решил ранжировать их по их исследовательским способностям.

Календарь

Я начал с викторины о новостях и текущих событиях. Размышляя о недавнем возвращении двух астронавтов, я попросил четыре чат-бота с искусственным интеллектом выполнить поиск: «Краткое изложение ключевых моментов последнего пресс-релиза NASA о предстоящей миссии».

Я выбрал этот вариант, потому что новости о космосе занимают особое место: они регулярно обновляются и достаточно конкретны, так что даже самые расплывчатые ответы становятся сразу понятными. Все чат-боты начали свои испытания в едином стиле, который они в основном сохраняли на протяжении всего периода.

ChatGPT был невероятно лаконичен в своем ответе, всего в трех предложениях, в каждом из которых упоминались предстоящие задачи без особых подробностей. Близнецы прошлись по маркированному списку различных задач, добавив несколько недавно выполненных задач и подробности о планах на будущее. Клод продолжил писать статью о текущих и предстоящих задачах, отметив, что он не повторял большую часть своего исследования, но многое переформулировал.

Для такого вопроса, когда мне просто нужно знать несколько ключевых фактов и планировать дальнейшие действия по всему, что привлечет мое внимание, мне больше всего понравился метод «Озадаченности». Он более подробен, чем ChatGPT, но организован в виде удобного пронумерованного списка, каждый из которого имеет собственную ссылку на цитату.

Я не могу винить никого из остальных, но стиль соответствует вопросу.

Население и численность

Такой подход к составлению списка не всегда подходит, когда вам нужно задать вопрос об основных фактах и более точном сравнении. Я попросил указать два связанных факта, которые чат-боты на основе искусственного интеллекта могли бы быстро найти, но затем им нужно было бы сравнить, используя подсказку: «Какова нынешняя численность населения Окленда, Новая Зеландия, *и как она выросла с 1950 года?»*

Любопытно, что наблюдалось расхождение между данными Perplexity и ChatGPT, которые указали текущую численность населения в 1,711,130 130 1950 человек, и данными Claude и Gemini, которые сообщили о на XNUMX людях меньше в Окленде. Однако все они сошлись во мнении относительно численности населения в XNUMX году.

Однако с точки зрения того, как каждый из них представил информацию, мне понравился повествовательный ответ Клода, включая множество подробностей об изменении численности населения, которых не хватало ChatGPT и которые Gemini и Perplexity включили в списки.

что происходит?

В своем третьем тесте я хотел предложить что-то, что могло бы проверить способность этих систем обрабатывать информацию, связанную с определенным местом и временем, — такой запрос вы можете выполнить при планировании поездки на выходные или приеме гостей.

Вот здесь-то и кроется сложность для помощников на основе искусственного интеллекта. Знание исторических фактов или общей информации — это одно, но знание того, что происходит в определенном месте в определенное время — совсем другое.

Это разница между теоретическими знаниями и локальными знаниями, и исторически системы ИИ были намного лучше в первом случае, чем во втором.

Без какой-либо особой причины я выбрал город, который мне всегда нравился, и спросил: Какие культурные мероприятия пройдут в Ванкувере (Британская Колумбия) в следующие выходные?

На этот счет были некоторые реальные вариации. И Perplexity, и Claude сохранили краткость и стиль, представив пронумерованный список и более разговорное обсуждение. Однако Клод заметно расширил контуры, а не углубился, и стал больше похож на Растерянность.

Джемини полностью отошел от своих конкурентов и по сути отказался отвечать. Вместо того чтобы поделиться похожим списком событий и занятий, Gemini предложил стратегии поиска мест, куда можно пойти. Проверка официальных туристических сайтов и страниц Eventbrite — неплохая идея, но они далеки от однозначного списка рекомендаций. Это было похоже на обычный поиск в Google.

Между тем, ChatGPT вернул то, что я ожидал от Gemini. Хотя описания событий оставались краткими, ИИ предоставил подробный список конкретных мероприятий с датами и местами, ссылками на Plus Knowledge и даже миниатюрами того, что можно найти по ссылкам.

Проверить погоду

Для своего четвертого теста я выбрал, пожалуй, самый задаваемый вопрос среди всех ИИ, но для ответа на который требуются данные в режиме реального времени: погода. Прогнозы погоды идеально подходят для тестирования извлечения данных в реальном времени, поскольку они постоянно обновляются, широко доступны и легко проверяются. Он также имеет естественный срок годности; Вчерашние прогнозы уже устарели, поэтому становится ясно, когда информация устарела.

Я спросил у чат-бота на основе искусственного интеллекта: «Какой прогноз погоды в Токио на ближайшие три дня?» Ответы были почти противоположны запросу Ванкувера.

Клод предоставил полезную текстовую сводку погоды в различные моменты времени в течение следующих трех дней, но это все. ChatGPT показывал небольшой значок солнца или облака рядом со сводкой погоды на каждый день, но мне очень понравился линейный график Perplexity, показывающий, как будет выглядеть небо.

Без каких-либо дополнений Google Gemini покорил меня своей красочной инфографикой. Когда я думаю о том, чтобы узнать текущую и предстоящую погоду, это, по сути, все, что мне нужно или хочется.

Если бы я хотела узнать больше подробностей, я бы так и сделала, но, спрашивая о погоде, я хочу знать хотя бы минимальный набор, как выбрать подходящую одежду.

кинокритик

В своем последнем тесте я хотел посмотреть, как поисковые системы на базе искусственного интеллекта будут находить множественные точки зрения на тему и объединять их в единый обзор. Эта задача требует гибкого исследования и способности понимать разные точки зрения. Я решил посмотреть, как обстоит дело с просьбой: Кратко изложите рецензии профессиональных критиков на последний фильм. Paddington".

Заявка требовала реалистичной памяти и способности выявлять закономерности и темы в различных источниках, не теряя при этом важных нюансов. Это разница между простым набором мнений и вдумчивым синтезом, воплощающим критический консенсус.

И Gemini, и Perplexity представили свои обычные списки, ранжированные по плюсам и минусам от разных критиков, которые были информативны, хотя и не обязательно полезны в качестве резюме. Как ни странно, ChatGPT написал самый длинный ответ на этот запрос — короткое эссе, содержащее схожую информацию и вывод о том, как она была оценена, но в стиле, напоминающем ученика средней школы, изучающего базовую структуру абзаца: тематическое предложение, вспомогательные предложения и заключение.

Клод, безусловно, дал самый сильный ответ, поместив в верхней части резюме, за которым следуют пояснения и ссылки на то, что сказали критики. Это было похоже на краткую, лишенную воображения рецензию критика, смягченную цитатами из работ цитируемых им критиков. После просмотра я почувствовал, что лучше понимаю, как умерить свои ожидания от фильма. Паддингтон в Перу чем я был с другими.

Рейтинг чат-ботов для поиска

Проведя собственное исследование и протестировав чат-ботов на основе искусственного интеллекта, я четко понял их сильные и слабые стороны. ChatGPT, Gemini, Perplexity и Claude — одни из лучших чат-ботов, которые я пробовал.

Ни один из них на самом деле не плох, но если бы кто-то спросил меня, какой из них следует попробовать в первую очередь, а какой — в последнюю, когда дело доходит до исследования и сбора информации в Интернете, я знаю, как бы я ответил.

Gemini для меня на последнем месте, что несколько шокирует, учитывая, что Google известен своей поисковой системой. Однако его неспособность справиться с графиком мероприятий заставила меня избегать его, несмотря на его хорошее выступление.

Еще одним сюрпризом для меня стало то, что ChatGPT оказался на третьем месте. Это чат-бот на основе искусственного интеллекта, которым я пользуюсь чаще всего и который хорошо знаю, но его короткие ответы, которые мне обычно в нем нравятся, показались мне слишком ограниченными в контексте исследования. Я уверен, что изменение модели или установка количества слов решат эту проблему, но если вы новичок в области искусственного интеллекта и еще не знакомы с ним, не стоит задавать слишком много уточняющих вопросов.

С Perplexity это не проблема. Пронумерованные списки были очень понятными, а цитаты — почти полными. Для меня главным недостатком является то, что он снова становится поисковой системой без каких-либо дополнительных выборов в приглашении. Мне нравится, что он приводит доказательства того, откуда берется информация, которой он делится, но, похоже, он слишком торопится нажать на ссылку, вместо того чтобы получить информацию от ИИ.

Я не ожидал, что Клод окажется на вершине этого списка. Хотя я и считаю Клода в целом хорошим чат-ботом на основе искусственного интеллекта, всегда было такое чувство, что он отстает от некоторых своих конкурентов, возможно, он так же хорош, как они, но в чем-то отличается. Во время этого теста это чувство исчезло.

Были и недостатки: ответы казались слишком длинными или требовали внимания к более объемной статье, хотя можно было бы ограничиться одним-двумя предложениями. Но мне понравилось, что это связное повествование, объясняющее все события в Ванкувере, или эссе о кинокритике. Паддингтон в Перу Не повторяясь.

Помощники на основе искусственного интеллекта — это инструменты, а не участники реалити-шоу, где победить может только один человек. Разные задачи требуют разных способностей. В конечном счете, любой из четырех чат-ботов на основе искусственного интеллекта и их функции поиска могут быть полезны, но если вы готовы платить 20 долларов в месяц за Claude Pro и пользоваться его возможностями поиска, то, я бы сказал, это то, что вы искали.