Google 검색의 ChatGPT에 대한 실제 사용 경험

Google 검색에서 ChatGPT를 사용한 실제 경험

지난 주말에 8온스 우편물에 필요한 우표 수를 계산하기 위해 구글 검색을 찾았습니다. (당연히 WIRED 최신 호의 사본을 보냅니다!). 이것은 지난 한 달간 테스트해온 구글 검색의 새로운 생성 AI 기능이 제가 직접 브라우징하는 것보다 훨씬 빠르게 해결해주길 바란 질문입니다.

구글의 어색하게 명명된 Search Generative Experience(SGE)는 검색 상자에 ChatGPT와 유사한 대화 기능을 부여합니다. 구글 검색 랩에서 가입할 수 있습니다. 회사는 사용자가 검색 챗봇과 대화하며 기존의 지루한 쿼리 상자에 입력하는 것보다 더 깊은 주제로 더 도전적이고 직관적인 질문을 할 수 있도록 하려고 합니다. 또한 AI 생성된 답변은 여러 웹사이트에서 정보를 종합하여 보다 명확하게 정보를 구성하기 위한 것입니다. 전 세계의 대부분의 웹 검색이 구글을 통해 이루어지며, 구글은 대부분의 회사보다 오랜 기간 동안 AI 기술을 개발해왔으므로 일류의 경험을 기대할 수 있습니다.

그런 이론이었습니다. 실제로는 새로운 기능이 도움보다는 불편함이 더 큰 문제입니다. 느리고 비효율적이며 지저분하고 인공적인 방해물이지 지능이 될 만큼 아니죠.

구글의 검색의 미래 비전에 대해 가장 먼저 느낀 점은 느린 속도입니다.

일반 텍스트

구글의 테스트에 액세스하면 검색 상자가 변경되지 않은 것처럼 보입니다. 그러나 “8온스 편지에 몇 개의 우표가 필요한가요?”와 같은 질문에 대한 응답으로 화면의 상당 부분이 새로운 섹션으로 대체되어 기존의 링크 목록을 아래로 밀어냅니다. 그 영역에서 구글의 대형 언어 모델이 ChatGPT나 Microsoft의 Bing Chat에서 찾을 수 있는 몇 개의 단락을 생성합니다. 하단의 버튼을 통해 후속 질문을 할 수 있는 챗봇 인터페이스로 이동할 수 있습니다.

구글의 새로운 검색 기능인 결과에 대한 첫 번째 인상은 느린 속도였습니다. 한 손으로 스톱워치 앱을 제어하고 다른 손으로 쿼리를 제출한 테스트에서 구글의 텍스트 생성기가 답변을 출력하는 데 거의 6초가 걸렸습니다. 평균은 3초 이상으로, 구글의 일반적인 결과는 1초 이내에 나타납니다. 상황은 더 나빠질 수도 있었습니다. 구글은 지난 달 검색 봇의 속도를 두 배로 높인 업데이트를 발표한 후에 테스트를 수행했습니다. 그럼에도 불구하고, 대화형 AI가 완료될 때까지 일반적인 결과를 읽는 데 시간이 걸리기 때문에 종종 지연되게 제출된 논문을 무시하게 됩니다. Google Search 부사장인 Cathy Edwards는 이 도구의 기반이 되는 AI 소프트웨어의 속도 최적화가 계속 진행 중이라고 말했습니다.

이러한 새로운 형태의 검색의 속도가 느릴 경우 결과물이 가치가 있는 것으로 보일 수 있습니다. 하지만 정확성은 좋지 않습니다. 구글의 5문장 생성 AI 답변에서 나온 우표 질문에 대한 응답은 곱셈과 뺄셈의 오류, 2년 전의 우표 가격 오래된 정보, 형태, 크기, 목적지와 같은 배송 비용을 위한 중요한 변수를 무시한 후속 질문 제안 등을 포함하고 있습니다. 구글이 각 AI 생성 답변 상단에 표시하는 면책 조항은 귀가 들리게 맞는 말입니다. “생성 AI는 실험적입니다. 정보 품질은 다를 수 있습니다.”

동일한 응답에서 구글의 새로운 검색 기능은 2.47 달러 또는 4달러의 우표가 필요하다고 제안했습니다. 미국 우편 서비스의 온라인 계산기로 이동하면 공식 답변을 확인할 수 있습니다. 필요한 우표는 3.03달러 또는 각각 66센트의 5개의 우표와 27센트의 초과 지불입니다. 구글의 Edwards는 제 겸손한 질문이 현재 기술의 한계에 도달했다고 말했습니다. “그것은 분명히 전선에 있다고 볼 수 있습니다.”라고 그녀는 말합니다.

불행하게도 단순화가 잘되지 않았습니다. 우표의 가격만 요청하면 구글은 오래된 가격을 제시합니다. 이 달의 가격으로 요청했을 때에만 시스템이 올바르게 이번 달의 3센트 인상을 반영하도록 되어 있습니다. ChatGPT도 2021년까지의 훈련 데이터만 사용하므로 이 쿼리에 대해 통과하지 못할 것입니다. 그러나 검색 엔진의 대체물로서의 위치가 아닙니다.

구글의 새로운 검색 경험은 불안정하기 때문에 직접 표준 결과를 클릭하여 자체적인 연구를 수행하는 것이 나을 것 같습니다. 게임 메이커 Electronic Arts가 개발한 스타워즈 비디오 게임에 대한 질문은 Ubisoft의 경쟁작을 제외하고 정확한 목록을 생성했습니다. 흥미롭게도 결과에서 게임에 대한 생성 AI 설명은 Ubisoft이 제작했다고 언급되어 있으며, 이는 대형 언어 모델이 자기 자신과 모순되는 방식을 보여주는 것입니다.

샌디에이고 패드리스가 확실히 스티븐의 필리스를 와일드카드 자리로 이기기로 할 때, 다른 야구팀과의 교환을 통해 얻으려고 할 선수들에 대해 물었을 때, Google의 AI 응답은 현재 패드리스에 있는 두 선수로 시작하며, 교환 자금을 교환 대상으로 오해했습니다.

Google은 일부 건강 또는 금융 질의에 대해 보호 조치를 취했습니다. 새로운 검색 경험은 정확성에 대해 더 높은 기준을 두어 일부 건강 또는 금융 질의에 대해서는 표시되지 않습니다. 또한 AI 결과를 검증하기 위해 관련 웹 리소스에 대한 링크를 거의 항상 두드러지게 표시합니다. “시를 써라”라는 질의에 대한 결과에는 “부정확한 창의적인 콘텐츠가 표시될 수 있습니다.”라는 고지가 있습니다. 그리고 AI 시스템은 일반적으로 너무 귀여워 보이거나 페르소나를 채택하지 않으려고 합니다. “사람들이 Google과 실제로 대화하길 원하는 것은 아니라고 생각합니다.”라고 Edwards는 말하며, 일인칭으로 말하거나 이모티콘을 사용하는 Bing Chat과 대조를 그리고 있습니다.

때로는 Google의 새로운 검색 비전은 미래로의 큰 도약이 아닌 한 걸음 뒤로 느껴질 수 있습니다. 생성된 답변은 종종 결과 페이지의 다른 기능을 중복해서 표시하는데, 이는 웹 사이트로부터 명확하고 알기 쉬운 답변을 가져오는 특징적인 스니펫이나 위키피디아의 주제에 대한 단락 길이의 개요를 제공하는 지식 상자와 유사합니다. 그럴 때에는 생성 AI 버전이 가장 많은 말을 하고 이해하기 가장 어렵습니다.

30분 동안 진행된 토론에서 Edwards는 새로운 기능에 대한 제 경험에 대해 적어도 여덟 번 이상 언급했을 때, 여전히 발전 초기 단계이며 아직 해결해야 할 문제가 많다고 말했습니다. “우리가 이것을 완벽하게 이룩했다고 말하진 않을 것 같습니다.”라고 그녀는 말합니다. “우리는 변형의 10년 긴 곡선의 시작에 있습니다.” 그녀는 또한 현재까지의 피드백이 “매우 긍정적”이라고 말하지만, 아마도 가장 중요한 것은 Google이 최종적으로 모든 사용자에게 출시할 때 “오늘과는 많이 다를 수도 있다”라고 말합니다.

속도가 빠르고 콘텐츠가 덜 가득 차 있으며 유료 우편물이 부족한 우편료로 인해 돌려보내지 않고 WIRED 문제를 독자들에게 배송하는 데 도움이 되는 경험은 좋을 것입니다.

Google가 직접적인 답변으로 사용자의 질문에 간결하게 응답하기 위한 노력은 몇 년 전부터 시작되었습니다. 2016년에 당시 WIRED 작가인 Cade Metz가 어떻게 Google이 약 2십여 개 언어에 능통한 약 100명의 언어학 박사를 모아 글을 요약하고 문장을 주석으로 달아 인공지능 시스템이 인간의 언어가 어떻게 작동하는지 이해할 수 있도록 훈련시켰다고 썼습니다. Google은 팀과 기술이 여러 해 동안 성장할 것으로 예상했습니다.

“문장 압축 알고리즘”은 검색 엔진의 데스크톱 버전에서 방금 출시되었습니다. 이들은 인간에게는 꽤 간단한 작업이지만 기계에 대해서는 예전부터 어려웠던 작업을 처리합니다. 이들은 딥러닝이 자연 언어 이해의 예술을 발전시키는 방법을 보여줍니다. Google의 연구 제품 관리자 David Orr은 “당신은 신경망을 사용해야 합니다. 최소한 우리가 찾아낸 방법으로는 그렇습니다.”라고 말하면서 회사의 문장 압축 작업에 대해 언급합니다.

Google은 Pygmalion이라고 부르는 대규모의 박사 언어학자 팀이 수작업으로 만든 데이터를 사용하여 이러한 신경망을 훈련시킵니다. 사실상 Google의 기계는 사람들이 계속해서 그 작업을 수행하는 것을 관찰함으로써 긴 텍스트 문자열에서 관련있는 답변을 추출하는 방법을 배웁니다. 이러한 고되고 수고로운 노력은 딥러닝의 능력과 한계를 보여줍니다. 이러한 방식으로 이런 식의 인공지능 시스템을 훈련시키기 위해서는 사람의 지능에 의해 체계적으로 선별된 많은 데이터가 필요합니다. 그런 종류의 데이터는 쉽게 또는 싼 가격으로 얻을 수 있는 것이 아닙니다. 그리고 이에 대한 요구는 언젠가 사라지지 않을 것입니다.

하지만 딱 1년 후에 Google 연구원들은 이와 같은 준비 작업을 거의 필요로 하지 않는 인공지능을 훈련시키기 위한 새로운 접근 방식을 개발하며, 이는 ChatGPT와 새로운 Google 검색 서비스의 기반이 되는 대규모 언어 모델로 이어졌습니다. 지금 돌아보면, 예전의 명료한 Google 검색 답변 스니펫을 그리워하지 않을까 싶습니다.

Jennifer Phoenix는 페이스북을 통해 왜 AI 이미지 생성기가 손과 손가락을 계속해서 잘못 그리는지 묻습니다. “복잡성 때문이라고 읽었습니다.”라고 그녀는 말합니다. “하지만 그 특징에 대해 더 많이 훈련하면 문제가 해결될 것 같습니다.”

Jennifer, 저도 동감입니다. 귀하의 질문을 읽은 후에, AI 도구인 Stable Diffusion의 데모 버전에서 “일몰 문신이 있는 손”의 이미지를 생성해 보았습니다. 제가 받은 4개의 결과 중에는 관절이 분리되어 흔들리는 손과 누락된 손가락이 있는 손, 비정상적으로 가늘어진 손목 또는 거대한 관절이 있는 손이 포함되어 있었습니다. 대조적으로, “일몰 문신이 있는 얼굴”이라는 질의에는 야생적인 이미지가 생성되었지만 적어도 얼굴은 현실적으로 보였습니다.

AI로 생성된 이미지입니다.

Paresh Dave를 통한 Stable Diffusion

Pranav Dixit은 BuzzFeed News (RIP)을 통해 올해 초에 미술에서 손의 역사에 대해 깊이 파고들어 쓰며, 사람들의 손이 종종 바쁘기 때문에 AI 시스템이 그들을 현실적으로 재현하기 어려운 이유로 설명합니다. 뉴요커의 Kyle Chayka도 이 문제를 살펴보았으며, 손이 무엇을 해야 하는지에 대해 AI 이미지 생성기에 더 정확한 명령을 내리는 것이 도움이 된다고 지적했습니다.

Jennifer가 말한 것처럼, AI 시스템에 더 나은 또는 다양한 데이터를 제공하는 것은 종종 더 정확한 결과를 얻을 수 있습니다. Midjourney의 AI 생성기의 “v5″에서는 올해 초에 손의 출력이 조금 개선된 것을 발견한 사용자도 있습니다. 그러나 Midjourney의 CEO 인 David Holz는 이메일로 저에게 “손에 대해 특별한 작업은 하지 않았습니다. 우리의 제품은 그냥 v5에서 더 잘 작동합니다.”라고 말했습니다.

반면에 Stable Diffusion의 개발자인 Stability AI는 최신 버전을 개발하는 동안 손의 문제에 특별히 작업했습니다. 이 버전은 이번 주에 출시되었습니다. Stability의 응용 기계 학습 책임자 인 Joe Penna는 사용자로부터 신뢰성이 떨어지는 손에 대한 가장 많은 불만이 있었다고 말합니다. 저는 새로운 모델을 사용하여 손 문의에서 두 개의 이미지가 잘 나왔지만 다른 두 개의 이미지는 몇 개의 관절이 부족했습니다.

AI로 생성된 이미지입니다.

Paresh Dave를 통한 Stable Diffusion

새로운 모델은 이전 버전보다 약 8배 더 많은 시각적 패턴을 학습하여 재현할 수 있는 능력을 갖추었으며, 이는 기본적으로 손이 어떻게 보여야 하는지에 대해 더 많은 정보를 기억할 수 있다는 것을 의미합니다. 해당 회사는 또한 사용자들이 가장 관심을 갖는 이미지와 예술 작품의 이미지에 대한 추가적인 훈련을 제공했습니다. Penna는 이제 “손과 같은 것들을 훨씬 더 기억하고 있다”고 말합니다.

수백만 장의 손 이미지를 훈련 데이터에 추가하면 생성된 손 이미지의 품질이 저하되어 과도하게 커지는 현상이 발생한다고 Penna는 말하지만, 회사는 계속해서 개선을 위해 다양한 전술을 실험하고 있다고 말합니다.

Penna와 이야기하기 전에, 제가 가설을 세웠는데, AI 개발자들은 완벽함을 달성하려고 하지 않을 수도 있는데, 완벽하지 않은 손은 딥페이크를 발견하는 일반적인 방법이기 때문입니다. Penna는 그렇지 않았지만, Stability는 자체 기술을 사용하여 생성된 이미지인지를 명확히 알 수 있도록 다른 조치를 취했다고 말합니다. “우리는 더 나쁜 손을 만들기로 돌아가지 않을 것이므로, 인터넷에서 본 이미지에 대해 매우 조심스러워지기 시작합시다.”라고 그는 말합니다.

뼈 구조의 문제가 해결되기 시작하면, 아마 다음으로는 내가 테스트 프롬프트에서 생성한 12장의 이미지가 모두 공정한 피부 손을 묘사하는 사실에 대해 회사들이 대응할 수 있을 것입니다. 그 설명은 나중에 Plaintext의 Steven에게 맡기겠습니다.

질문은 [email protected]으로 제출할 수 있습니다. 제목에 ASK LEVY를 작성하세요.

마운틴듀 플레이민 핫 소다보다 더 나쁠 수 없다고 생각했는데요? 다음 주 미국에서 열리는 국립머스타드의 날을 위한 겨자 맛 스키틀즈 사탕을 한 번 시도해보세요.

퓨처라마가 돌아왔습니다! 하지만 첫 번째 에피소드는 한 번만 웃겼습니다 (로봇 코미디언이 친구들을 너무 PC 적이라고 부르는 장면에서). 이 프로그램은 우리의 현대 기술 중심 세계를 비판하는 데 초점을 맞추고 있습니다. 불행히도, 그것은 쉬운 목표를 겨냥하고 있는 것처럼 보입니다.

EU는 소셜 미디어 회사들의 모든 콘텐츠 모더레이션 결정과 그에 대한 이유에 대한 대규모 데이터베이스를 준비하고 있습니다.

기술적으로 훈련된 군대 AI 소프트웨어를 위해 우크라이나에서 전투 데이터를 제공하는 것이 현재 가장 뜨거운 데이터 피드입니다.

자신의 노트북을 사칭당한 시각 장애인 한 명이 친구와 협력하여 사기꾼에게 대응했습니다. 이제 증거는 경찰에게 제출되었습니다.