Google Search의 ChatGPT에 대한 체험

Google Search의 ChatGPT 체험

지난 주말에 나는 8온스 우편물에 몇 개의 우표를 붙여야 하는지 알아내기 위해 구글 검색을 찾아봤습니다. (당연히, 나는 WIRED의 최신 호 사본을 보내고 있었습니다!). 이것은 내가 지난 한 달 동안 테스트한 구글 검색의 새로운 생성 AI 기능이, 내가 내 자신의 브라우징으로 할 수 있는 것보다 훨씬 빠르게 해결해줄 것으로 기대하는 정확히 그런 종류의 질문입니다.

구글의 어색한 이름을 가진 Search Generative Experience(SGE)는 검색 상자에 ChatGPT와 유사한 대화 기능을 불어넣습니다. 구글의 검색 실험실에서 가입할 수 있습니다. 회사는 사용자가 검색 챗봇과 대화하여 지루한 오래된 쿼리 상자에 입력하는 것보다 더 깊게 주제에 대해 파고들고 도전적이고 직관적인 질문을 할 수 있도록 하기를 원한다고 말합니다. 그리고 AI로 생성된 답변은 여러 웹사이트에서 정보를 모아서 더 명확하게 정보를 정리하는 것을 의미합니다. 세계의 대부분의 웹 검색은 구글을 통해 이루어지며, 구글은 대부분의 회사보다 오랜 시간 동안 AI 기술을 개발해왔으므로 최고 수준의 경험을 기대하는 것은 타당합니다.

그런 이론이 있습니다. 하지만 실제로는 새로운 기능이 도움보다는 귀찮음이 더 많이 됐습니다. 느리고 효과가 없으며 장황하고 혼잡한, 지능보다는 인공적인 방해입니다.

구글의 검색에 대한 미래 비전에 대해 제일 먼저 느낀 것은 그 느림입니다.

일반 텍스트

구글의 테스트에 액세스하면 검색 상자는 변경되지 않은 채로 유지됩니다. 하지만 “8온스 편지에 몇 개의 우표를 붙여야 할까요?”와 같은 질문에 대한 응답으로 화면의 상당 부분을 차지하는 새로운 섹션이 나타나고 기존의 링크 목록을 아래로 밀어내게 됩니다. 그 영역 안에서 구글의 대형 언어 모델이 ChatGPT나 Microsoft의 Bing Chat에서 찾을 수 있는 몇 단락과 유사한 답변을 생성합니다. 하단의 버튼을 눌러 추가 질문을 할 수 있는 챗봇 인터페이스로 이동할 수 있습니다.

구글의 미래 비전에 대한 검색 기능이 느리다는 것을 가장 먼저 느꼈습니다. 시계 앱을 한 손으로 제어하고 다른 손으로 쿼리를 제출하는 테스트에서 구글의 텍스트 생성기가 답변을 내뱉는 데 거의 6초가 걸리기도 했습니다. 평균은 3초 이상이었으며, 구글의 일반적인 검색 결과는 1초 이상 걸리지 않습니다. 상황은 더 악화될 수도 있었습니다: 구글은 지난 달에 검색 봇의 속도를 두 배로 빠르게 만든 업데이트를 롤아웃한 후에 테스트를 진행했습니다. 그럼에도 불구하고, 나는 종종 생성 AI가 마무리되는 동안 일반적인 결과를 읽고 있다보니, 그 지연되게 제출된 논문들을 무시하게 됩니다. 구글 검색 부사장인 캐시 에드워즈는 이 도구를 지탱하는 AI 소프트웨어의 속도 최적화 작업이 계속 진행 중이라고 말합니다.

만약 결과물이 가치가 있었다면, 이 새로운 형태의 검색의 느림이 용서될 수도 있었습니다. 하지만 정확도는 불안정합니다. 구글의 5문장 생성 AI 응답은 곱셈과 뺄셈의 오류, 2년 전의 잘못된 우표 가격, 형태, 크기 및 목적지와 같은 배송 비용에 대한 중요한 변수를 무시한 추가 질문을 포함했습니다. 구글이 각 AI 생성 답변 상단에 표시하는 멘트가 크게 사실일 수밖에 없었습니다: “생성 AI는 실험적인 기술입니다. 정보의 품질은 다를 수 있습니다.”

같은 응답에서 구글의 새로운 검색 기능은 저는 $2.47 또는 $4의 우표가 필요하다고 제안했습니다. 미국 우편 서비스의 온라인 계산기로 이동하여 공식 답변을 확인한 결과, 3.03달러 또는 66센트 우표 5개와 27센트 초과 지불이 필요했습니다. 구글의 에드워즈는 제 예의로운 질문이 이 기술의 현재 한계를 뛰어넘었다고 말합니다. “이것은 분명히 최전선에 있습니다,” 그녀는 말합니다.

아쉽게도, 단순화는 잘 되지 않았습니다. 우표의 가격만을 요청했을 때, 구글은 오래된 숫자로 응답했습니다. 이번 달의 가격을 원한다고 명시할 때만 시스템이 올바른 이번 달의 3센트 인상을 반영하게 됐습니다. 공정하게 말하자면, ChatGPT는 2021년 이전의 데이터만을 사용하기 때문에 이 쿼리에는 실패할 것입니다. 하지만 이는 검색 엔진의 대체품으로 위치되어 있지 않습니다.

구글의 새로운 검색 경험은 신뢰할만한 수준이 아니어서 내가 직접 연구하기 위해 표준 결과를 클릭하는 것이 더 나은 선택입니다. 게임 메이커 Electronic Arts가 개발한 Star Wars 비디오 게임에 대한 질문은 Ubisoft이라는 EA의 경쟁사에서 제작한 한 제목을 제외한 정확한 목록을 생성했습니다. 아이러니하게도, 결과의 생성 AI 설명에는 Ubisoft에서 만든 게임이라고 언급되어 있어 대형 언어 모델이 어떻게 자기 자신과 모순되는지를 보여주었습니다.

샌디에고 패드리스가 스티븐의 필리스를 와일드 카드 자리에서 꼭 이길 것이라고 확신한다면서 다른 야구팀과의 교환을 통해 어떤 선수들을 얻으려 할지 물어볼 때, 구글의 AI 응답은 현재 패드리스에서 활약 중인 두 선수로 시작하여 교환 자산을 교환 대상으로 오해한 것이었다.

구글은 일부 건강이나 금융 문의에 대해서는 보호 조치를 취했다. 새로운 검색 경험은 정확성에 대한 기준을 높게 두었기 때문에 일부 건강이나 금융 쿼리에 대해서는 결과가 표시되지 않는다. 또한 이 경험은 거의 항상 사용자가 AI 출력을 검토할 수 있도록 관련 웹 리소스로의 링크를 주요하게 표시한다. “시를 써라”와 같은 쿼리의 결과에는 “부정확한 창의적 콘텐츠가 표시될 수 있습니다”라는 주의문이 있다. 그리고 AI 시스템은 일반적으로 너무 귀엽게 소리나거나 페르소나를 채택하려 하지 않는다. Edwards는 “우리는 사람들이 실제로 구글과 얘기하길 원하지 않는다고 생각한다”며 Bing Chat과는 대조적인 차이점을 언급한다. Bing Chat은 1인칭 대화나 이모티콘을 사용하는 것으로 알려져 있다.

구글의 새로운 검색 비전은 때로는 미래로의 큰 도약보다는 한 발 물러나는 것처럼 느껴질 수 있다. 생성된 답변은 웹의 특징적인 조각이나 Wikipedia에서 주제에 대한 단락 수준의 개요를 제공하는 지식 상자와 중복될 수 있다. 그런 경우에 이후에 참여하는 AI 버전은 가장 많은 단어를 사용하고 이해하기 가장 어렵다.

30분 동안 엘리자베스와의 논의에서 Edwards는 새로운 기능에 대한 나의 경험에 대해 최소 8번 이상 언급하면서 개발 초기 단계에서 아직 많은 문제를 해결해야 한다고 말했다. “우리가 이것을 끝냈다고 말하진 않을 것 같다”고 그녀는 말한다. “우리는 10년 동안의 변형을 시작한 단계에 있습니다.” 그녀는 또한 지금까지의 피드백이 “매우 긍정적”이었다고 말하지만, 아마도 가장 중요한 것은 구글이 최종적으로 모든 사용자에게 출시할 것이 “지금과는 매우 다를 수 있다”고 말한다.

속도가 빠르고 내용이 가득하지 않으며, WIRED 이슈를 독자들에게 배송할 때 저비용 우편료로 반송되지 않게 도와주는 경험은 좋을 것이다.

구글은 질문에 직접적인 답변으로 응답하기 위한 노력을 여러 년 전부터 시작했다. 2016년 당시 WIRED 작가인 Cade Metz가 구글이 약 2십여 개국어에 능통한 약 100명의 언어학 박사급 인력을 모아 작문을 요약하고 문장을 주석으로 달아 인공지능 시스템이 인간 언어 작동 방식을 이해할 수 있도록 훈련시키는 방법에 대해 기술했다. 구글은 이 팀과 기술이 앞으로 여러 해 동안 성장할 것으로 예상했다.

이러한 “문장 압축 알고리즘”은 검색 엔진의 데스크톱 버전에서 활성화되었다. 이들은 인간에게는 간단한 작업이지만 기계에게는 예전에는 매우 어려운 작업을 처리한다. 이것은 딥러닝이 자연 언어 이해의 예술을 발전시키는 방법을 보여준다. 구글의 연구 제품 관리자인 David Orr은 “신경망을 사용해야 한다 – 적어도 우리는 그 방법만 찾은 것이다”라고 회사의 문장 압축 작업에 대해 얘기한다.

구글은 이러한 신경망을 Pygmalion이라고 부르는 대규모의 박사 언어학자 팀이 수작업으로 만든 데이터로 훈련시킨다. 실제로 구글의 기계는 사람들이 반복해서 긴 텍스트에서 관련 답변을 추출하는 방법을 관찰함으로써 이를 학습한다. 이러한 수고스러운 노력은 딥러닝의 능력과 한계를 보여준다. 이러한 방식으로 이와 같은 인공지능 시스템을 훈련시키려면 인간 지능에 의해 선별된 많은 데이터가 필요하다. 그런 데이터는 쉽게나 저렴하게 얻을 수 있는 것은 아니다. 그리고 이에 대한 필요성은 곧 없어지지 않을 것이다.

그러나 딱 1년 후에 구글 연구원들은 이러한 준비과정이 대부분 불필요하게 만드는 AI 훈련에 대한 새로운 접근법을 개발하고, ChatGPT와 새로운 구글 검색에 기반을 둔 대형 언어 모델을 만들었다. 되돌아보면, 나는 몇 년 전의 구글 검색의 간결한 답변 스니펫을 그리워하지 않을까 싶다.

페이스북을 통해 Jennifer Phoenix가 왜 AI 이미지 생성기가 계속해서 손과 손가락을 잘못 그리는지 물었다. “복잡성 때문이라고 들었는데,” 그녀는 말한다. “하지만 그 기능에 대한 더 많은 훈련이 해결책인 것 같다.”

Jennifer, 나는 너와 동감이다. 네 질문을 읽고 나는 “해가 지는 태양 모양의 반지 문신이 있는 손”의 이미지를 AI 도구인 Stable Diffusion의 데모 버전에서 생성해 보았다. 돌려받은 4개의 결과는 떨어져 있는, 흔들리는 손과 손가락, 손가락이 빠진 손, 비자연스럽게 가늘어진 손목 또는 거대한 관절을 갖춘 손을 보여주었다. 대조적으로 “해가지 문신이 있는 얼굴”이라는 쿼리는 몇 가지 엉뚱한 이미지를 결과로 보여주었지만, 적어도 얼굴은 현실적으로 보였다.

AI로 생성된 이미지입니다.

파레쉬 데이브(Paresh Dave)에 의한 Stable Diffusion

프라나브 딕싯은 BuzzFeed News (RIP)를 위해 올해 초에 손에 대한 예술의 역사에 대해 깊이 파고들었으며, 사람들의 손이 종종 바쁘다는 사실 – 컵을 들고 있는 등 – 이 인공지능 시스템이 그것들을 현실적으로 재현하기 어렵게 만든다고 썼습니다. 뉴요커의 카일 차이카(Kyle Chayka)도 이 문제를 살펴보았으며, 손에 대해 더 정확한 명령을 내린다면 인공지능 이미지 생성기에 도움이 될 수 있다고 지적했습니다.

제니퍼가 말한 것처럼, 인공지능 시스템에 더 나은 또는 다양한 데이터를 제공하면 종종 더 정확한 결과가 나올 수 있습니다. Midjourney의 AI 생성기의 “v5″에서 손의 출력에 대한 조금 더 나은 결과를 본 사용자들도 있습니다. 하지만 Midjourney의 CEO인 데이비드 홀츠(David Holz)는 이메일로 저에게 말했습니다. “우리는 손에 대해 특별히 무언가를 하지 않았습니다. 우리의 물건은 그냥 v5에서 더 잘 작동합니다.”

한편, Stable Diffusion의 개발자인 Stability AI는 최신 버전을 개발하는 동안 손 문제에 특별히 주력했습니다. 이번 주에 출시된 최신 버전. 안정성의 응용 기계 학습 책임자인 조 페나(Joe Penna)는 사용자로부터 손을 잘못 생성하는 것이 가장 큰 불만이라고 말합니다. 내가 손 문의를 넣어서 새로운 모델을 시도해본 결과, 두 개의 이미지는 잘 나왔지만 나머지 두 개는 몇 개의 관절이 빠져 있었습니다.

AI로 생성된 이미지입니다.

파레쉬 데이브(Paresh Dave)에 의한 Stable Diffusion

새로운 모델은 이전 버전보다 약 8배 더 많은 시각적 패턴을 익히고 재현하기 위한 용량을 갖추고 있으며, 이는 실제로 손이 어떻게 보여야 하는지에 대해 더 많이 기억할 수 있다는 의미입니다. 이 회사는 또한 사람과 예술 작품의 이미지에 대한 추가적인 훈련을 제공하여 사용자들의 관심사를 반영했습니다. 페나는 이제 “손 같은 것들을 훨씬 더 기억하고 있다”고 말합니다.

수백만 개의 추가 손 이미지를 훈련 데이터에 삽입하는 것은 실제로 생성된 손 이미지를 악화시켰으며, 그 결과 손의 크기가 커졌다고 페나는 말합니다. 그러나 회사는 더 나은 개선을 위해 다양한 전술을 테스트하고 있다고 말합니다.

페나와 이야기하기 전에, 나는 인공지능 개발자들이 완벽을 달성하려고 하지 않을까라는 가설을 세웠습니다. 완벽하지 않은 손이 딥페이크를 간파하는 일반적인 방법이기 때문입니다. 페나는 그렇지 않다고 말하며, Stability는 자사의 기술로 생성된 이미지임을 명확히 알 수 있도록하기 위해 다른 조치를 취했다고 말합니다. “우리는 나쁜 손을 만드는 방향으로 돌아가지 않을 것이기 때문에, 인터넷에서 본 이미지들을 매우 주의깊게 살펴보자”고 그는 말합니다.

뼈 구조 문제가 해결되기 시작하면, 다음으로 회사들이 내 테스트 프롬프트에서 생성된 12개의 이미지가 공평한 피부 손을 묘사한 것이라는 사실에 대응할 수 있을지도 모릅니다. 그 설명은 나중에 스티븐에게 맡기겠습니다.

질문은 [email protected]으로 제출할 수 있습니다. 제목에 ASK LEVY를 작성하십시오.

마운틴듀 플레이민 핫 소다보다 더 끔찍해질 수 없다고 생각했나요? 다음 주에 미국에서 열리는 국립 머스터드의 날을 위한 머스터드맛 스키틀즈 사탕을 시도해보세요.

퓨처라마가 돌아왔습니다! 하지만 첫 번째 에피소드는 한 번만 웃겼습니다(로봇 코미디언이 친구들을 PC적이라고 부르는 장면). 이 프로그램은 우리의 현대의 기술 중심 세계를 비판하는 것에 관한 것입니다. 유감스럽게도, 쉬운 대상을 향해 조롱하고 있는 것 같습니다.

EU는 소셜 미디어 회사들이 내린 모든 콘텐츠 모더레이션 결정과 그 이유에 대한 대규모 데이터베이스를 준비하고 있습니다.

기술적으로 훈련시키기 위해 우크라이나에서 전투 데이터를 사용하는 것이 테크 분야에서 가장 인기 있는 데이터 피드입니다.

복지의 법정수사: 랩탑을 사기당한 시각 장애가 있는 사람이 친구와 함께 사기꾼과 싸우기로 결심했습니다. 증거는 이제 경찰에게 있습니다.