1. IT NEWS

[AIㆍML / 애플리케이션] "검색 혁신인가 표절의 시작인가" - AI 기반 검색 엔진을 바라보는 두 시선

Dorothy. 2024. 11. 23. 14:00

Lucas Mearian | Computerworld4일 전
 
오픈AI가 최근 AI 기반 검색 엔진 ‘서치GPT(SearchGPT)’의 파일럿 버전을 출시하며 구글, 마이크로소프트 빙, 퍼플렉시티(Perplexity)와 같은 스타트업의 AI 검색 도구와의 경쟁을 본격화했다. 그러나 이런 툴이 웹 기반 콘텐츠를 스크랩하는 방식으로 인해 의도적이든 아니든 표절 문제가 우려되고 있다. 
 
ⓒ Solen Feyissa / Unsplash
AI 기반 표절 탐지 플랫폼 카피리크(Copyleaks)의 CEO 알론 야민은 “생성형 AI가 기존 콘텐츠를 학습 데이터로 사용하기 때문에 기존 콘텐츠를 모방한 결과물을 생성할 수 있다. 의도하지 않은 표절은 콘텐츠 제작자와 검색 엔진 모두 탐색하기 어려운 회색 지대를 만든다”라고 말했다.
 

대화형 인터페이스로 제공하는 실시간 정보

서치GPT는 오픈AI의 생성형 AI 챗봇 챗GPT를 기반으로 만들어졌으며, 실시간 웹 액세스를 통해 최신 스포츠 점수, 주식 정보 및 뉴스를 제공한다. 동일한 검색 창에서 후속 질문을 하면 이전 대화의 맥락을 고려해 보다 적합한 답변을 제공한다. 오픈AI는 서치GPT가 “훨씬 더 자연스러운” 대화 방식으로 질문할 수 있는 기능도 갖추고 있다고 설명했다. 

서치GPT는 지난 7월부터 베타 테스트를 거친 후, 10월 31일 파일럿 버전을 공식 출시했다. 파일럿 버전은 데스크톱 및 모바일 앱으로도 제공되며, chatgpt.com/search에서도 접근할 수 있다. 챗GPT 플러스 및 팀 사용자, 서치GPT 대기자 명단 사용자에게 우선 제공되며, 무료 사용자는 대기 목록에 등록해야 한다. 향후 몇 주 안에 기업 및 교육 사용자에게도 접근이 허용되고 이후 몇 달간 모든 무료 사용자로 확대될 예정이다.
 
ⓒ OpenAI
가장 눈에 띄는 기능은 기존 쿼리를 기반으로 한 후속 질문 기능이다. 예를 들어 특정 지역에서 재배하기 적합한 토마토 품종을 질문한 뒤, 해당 품종을 심기 좋은 최적의 시기를 묻는 식으로 대화를 이어갈 수 있다. 

또한 서치GPT는 사용자가 정보의 출처를 알 수 있도록 답변에 인용 및 링크를 제공하도록 설계됐다. 오픈AI는 “응답에는 명확한 인라인 출처 표시와 링크가 포함되며, 사용자는 사이드바를 통해 출처에서 더 많은 결과를 빠르게 확인할 수 있다”라고 설명했다. 
 

AI 기반 웹 검색과 표절의 경계

구글은 지난해 자체 AI 기능을 검색 툴에 추가했고, 마이크로소프트는 빙에 오픈AI의 GPT-4를 통합했다. 야민은 “구글과 같은 선두 주자들은 이미 AI 생성 콘텐츠를 식별하는 탐지 도구를 개발 중이다. 하지만 고품질의 AI 지원 콘텐츠와 저품질의 표절 콘텐츠를 구분하는 것은 여전히 도전 과제”라며 “지속적인 알고리즘과 정책 개선이 필요한 과정”이라고 말했다. 

한편, 퍼플렉시티는 자사의 웹 크롤러 퍼플렉시티봇(PerplexityBot)이 robots.txt 코드 사용을 허용하는 사이트에서만 콘텐츠를 크롤링한다고 업데이트된 FAQ에서 설명했다. robots.txt 파일은 크롤링하고 색인할 수 있는 웹사이트 페이지나 섹션을 웹 크롤러에 알려주기 위해 웹 서버에 저장되는 일반적이고 단순한 텍스트 파일이다. 

또한 퍼플렉시티는 “파운데이션 모델을 구축하기 않기 때문에 사용자의 콘텐츠는 AI 모델의 사전 학습에 사용하지 않는다”라고 설명했다. 

야민은 생성형 AI가 발전하면서 검색 엔진이 “복잡한 상황”에 처하게 됐다고 말했다. “사용자에게 최상의 결과를 제공하기를 바라지만, 여기에는 점점 더 많은 AI 생성 또는 AI 강화 콘텐츠가 포함된다. 동시에 원본 제작자를 보호하고 검색 결과의 무결성을 유지해야 한다. 이런 균형을 맞추기 위한 노력을 기울이고 있지만 완전히 해결하는 데 시간이 걸리는 복잡한 문제”라는 설명이다. 

마케팅 소프트웨어 제공업체 SOCi의 시장 인사이트 디렉터 다미안 롤리슨은 챗GPT, 즉 서치GPT가 온라인 검색에서 구글의 독주를 뒤집을 수 있는 가장 좋은 위치에 있다고 말했다. 하지만 챗GPT가 구글과 경쟁하는 모든 분야 중에서 검색은 구글이 26년 동안 쌓아온 우위가 가장 강력한 분야다. 그는 “챗GPT에 통합된 빙 검색의 초기 결과는 불안정했고, 세계 최고 수준의 검색 플랫폼을 유지하기 위한 복잡한 요구 사항은 오픈AI가 아직 역량을 입증하지 못한 전문 기술이 필요하다”라고 덧붙였다.

컨스텔레이션 리서치(Constellation Research)의 부사장 앤디 투라이는 구글이 여전히 검색 엔진 시장에서 약 90%의 점유율을 보유하고 있어, 경쟁자가 이 지배력을 가져가기 쉽지 않을 것이라고 지적했다. 하지만 서치GPT의 사용 편의성과 대화형 인터페이스가 사용자에게 매력적으로 다가갈 가능성은 있다고 말했다.
 
ⓒ OpenAI
투라이는 “구글은 위치 및 이전 검색 기록을 기반으로 개인화된 결과를 제공할 수 있지만, 간결한 대화형 스타일의 답변을 제공하는 데는 한계가 있다. 서치GPT의 간결한 답변은 페이지를 뒤지는 번거로움을 피하고자 하는 사용자에게 매력적일 수 있다”라고 말했다. 

아이러니하게도 챗GPT에 “서치GPT가 구글 검색만큼 좋은가?”라고 물었을 때, 챗GPT의 대답은 미묘했다. 
 

“특정 최신 리소스를 빠르게 찾는 데는 구글이, 대화형 대화를 나누거나 자세한 질문을 하거나 광범위한 주제에 대한 설명을 구하는 데는 챗GPT가 더 낫습니다. 이 두 가지는 실제로 필요에 따라 서로 보완할 수 있습니다!”


챗GPT가 빙만큼 좋은지, 아니면 빙보다 나은지 묻는 질문에는 다음과 같이 답했다. 
 

“간단히 말해, 실시간 정보를 찾거나 웹을 검색해야 하는 경우 빙이 더 나을 수 있습니다. 자세한 대화나 창의적인 지원이 필요하다면 챗GPT가 더 도움이 될 수 있습니다. 각 도구는 각기 다른 영역에서 탁월합니다!”

 

표절이라는 불투명한 문제

투라이는 AI 기반 검색 엔진이나 ‘답변 엔진’ 그 자체가 표절을 유발할지에 대해서는 확신할 수 없다며 “AI 기반 검색 엔진은 AI가 가장 관련성이 높다고 판단한 답변이 아닌 그저 많은 답변을 제공하는 구글 검색과 크게 다를 바 없다”라고 말했다. 

그러나 투라이는 “콘텐츠 제작에 AI를 활용하는 것은 표절 우려가 있다. 더 문제는 현재의 표절 탐지 도구가 AI 생성 콘텐츠를 제대로 잡아내지 못한다는 점이다. 대부분은 무용지물이다”라고 지적했다. 이어 C2PA와 같은 디지털 워터마크 또는 인증 도구가 콘텐츠의 출처를 확인하거나 진위 여부를 보장하는 메커니즘을 제공할 수 있다고 언급했다. 

AI 검색 엔진을 통해 생성된 텍스트 기반 콘텐츠는 사실상 표절 여부를 식별하기가 매우 어렵다. 투라이는 “실제로 AI를 사용하지 않았음에도 불구하고 부당하게 표절로 처벌받는 사례가 늘어나고 있다”라고 지적했다. 

카피리크 CEO 야민은 “AI 도구가 점점 더 정교해지고 일상생활의 일부가 되면서, AI 생성 콘텐츠와 사람이 만든 콘텐츠를 구별하고 원본 출처나 저자를 적절히 표기하며, 전반적인 창의성을 강화하는 일이 더욱 중요해지고 있다. AI 환경의 요구에 맞춰 콘텐츠 무결성을 보장할 수 있는 강력한 솔루션을 제공하는 데 초점을 맞춰야 한다”라고 강조했다. 
editor@itworld.co.kr

 


원문보기:
https://www.itworld.co.kr/topnews/353972#csidx5e8486fdb501446a784f868a0556ded