Microsoft Copilot Vision이 실제로 화면을 인식할 수 있을까?

이 뉴스 처음 보고 좀 황당했다. Microsoft가 만든 Copilot Vision, 이게 이제 Edge 브라우저에서 무료로 쓸 수 있다는 건데, 듣자 하니 ‘화면에 보이는 걸 인식’하는 AI란다. 이게 진짜 가능할까? 지금은 이야기처럼 들릴 뿐이라는 생각이 든다.

솔직히 기술이 날로 발전하고 있다는 건 알고 있었다. 하지만 ‘눈으로 보고’ 도와준다는 AI라니. 처음에 SF 영화 속 한 장면인가 싶었다. 기본적인 기능은 화면에 보이는 것들을 이해하고, 그걸 기반으로 사용자가 필요한 정보를 제공하는 거라는 것 같다. 예를 들어, 요리 레시피를 보면서 Copilot이 조리법을 따라하거나 면접 준비를 위해 지원동기서 작성에 도움을 줄 수 있다고 하는데, 이건 아직 반신반의다. 진짜 실전에서 검증된 거야?

기사(출처: [The Verge](https://www.theverge.com))에 따르면, Copilot Vision은 사용자가 보는 화면의 일부를 강조하여 정보를 찾도록 도와주지만, 스스로 클릭하거나 이런 건 전혀 안 한다고 한다. 말하자면 당신 옆에 비서가 서 있는 것처럼 대화를 통해 정보를 얻는다는 건데, 그냥 ‘말로 하는 검색’ 정도일까 싶기도 하다. 그런데 마이크로소프트 측은 이 데이터를 기록하지만 개인의 입력이나 이미지는 수집하지 않는다고 하니, 그나마 개인정보 보호 문제에서는 안심할 수 있을 것 같기도 하다.

물론, Copilot Vision의 기능이 Edge에만 한정되지 않는다는 점도 눈길을 끈다. Copilot Pro 구독자라면 Photoshop이나 동영상 편집 프로그램, 심지어 Minecraft 같은 게임에서도 도움을 받을 수 있다고 한다. 하지만 이건 어디까지나 유료 사용자들에게만 해당되는 이야기라서 좀 아쉽기도 하다. 무료로 제공하는 서비스에서 모든 것을 기대하긴 무리일까 싶다.

내가 직접 사용해 보려 했는데 여기선 문제가 있었다. 교육용 고물 노트북에서 Edge를 통해 Copilot Vision을 시도해 보았지만, 제데로 작동하지 않았다. Microsoft의 설명에 따르면 Vision 세션을 시작하면 간단한 알림음과 함께 Edge의 색조가 변해야 하는데, 내 화면에서는 “잠시만요…”라는 메시지만 계속 떠있었다. 참 답답한 상황이었다. 혹시 이거, 너무 구형이라 제대로 못 쓰는 건 아닐까? 여러분도 한번 시도해 보라. 결과가 어떤지 궁금하다.

마지막으로, 디지털 시대에 AI가 주는 도움에는 한계가 있지 않나 싶다. 기술이 발전할수록 인간의 감정이나 복잡한 사고를 넘어서기는 어려운 것 같다. 하지만 기술을 어떻게 활용하느냐는 결국 사람의 몫이다. Copilot Vision 이런 기술들이 앞으로 우리의 삶을 어떻게 변화시킬지 정말 궁금하다. 여러분은 어떤 생각이 드나? AI가 정말로 인간의 경험을 대체할 수 있을까?

Leave a Comment 응답 취소