다수의 보도에 따르면 Apple은 iOS 27에서 Google Gemini를 Siri에 통합할 가능성이 있다. 만약 사실이라면, 진정한 변화는 더 똑똑한 챗봇이 아니라 Siri가 드디어 앱을 조작하고 스마트폰 액션을 끝까지 완수할 수 있게 되는 것이다.
2025년부터 2026년 초까지, 다수의 매체가 Apple이 iOS 27에서 Siri의 백엔드로 Google의 Gemini 모델을 통합하는 것을 검토하고 있거나 이미 합의에 이르렀다고 보도했다. 집필 시점에서 Apple의 공식 확인은 없다. 확실한 것은 Apple이 Siri에게 답변하는 능력뿐 아니라 실행하는 능력을 부여하기 위해 대대적으로 투자하고 있다는 것이다.
이 구분은 매우 중요하다. 일정을 요약해주는 음성 비서는 유용하다. 회의를 예약하고, 충돌 일정을 거절하고, 팀에 메시지를 보낼 수 있는 음성 비서야말로 진정한 변혁이다. 알려진 Gemini 통합은 그 목표를 달성하기 위한 수단일 수 있다.
핵심 결론: Bloomberg, The Information 등 다수 매체의 보도에 따르면 Apple은 iOS 27에서 Siri의 일부 기능에 Google Gemini를 사용할 가능성이 있다. Apple은 이를 공식 확인하지 않았다. 만약 사실이라면, 실제 영향은 "Siri가 더 똑똑해지는 것"이 아니라 "Siri가 이제 앱을 안전하게 조작할 수 있게 되는 것"이다. 질문에 답하는 것에서 스마트폰 액션을 실행하는 것으로의 전환이 진짜 뉴스다.
이 주제를 둘러싼 노이즈가 많다. 다음은 명확한 분류이다:
| 주장 | 상태 | 비고 |
|---|---|---|
| Apple이 Siri용 온디바이스 AI 모델을 개발 중 | 확인됨 | Apple은 WWDC 2024에서 Apple Intelligence를 발표했으며, iOS 18.x 업데이트에서 Siri를 점진적으로 개선했다. |
| Siri가 화면 컨텍스트를 이해하고 인앱 액션을 실행할 수 있음 | 확인됨 | Apple Intelligence의 일환으로 iOS 18.1+에서 제공 시작. 지원 디바이스의 지원 앱에서 작동. |
| Apple이 Gemini를 Siri 백엔드로 사용하기 위해 Google과 협상 중 | 보도됨 | Bloomberg와 The Information이 지속적인 협상을 보도. Apple과 Google 모두 공식 발표 없음. |
| Gemini가 Apple 자체 모델을 완전히 대체 | 불확실 / 가능성 낮음 | 대부분의 보도는 하이브리드 접근을 시사—Apple의 온디바이스 모델이 프라이버시 민감 작업을 처리하고, 외부 모델이 복잡한 추론을 담당. |
| iOS 27이 Gemini 기반 Siri 기능을 탑재하고 출시됨 | 불확실 | 공식 확인 없음. 시기와 범위는 여전히 추측에 불과. |
| Siri가 앱 간 다단계 스마트폰 액션을 완수할 수 있게 됨 | 부분적으로 확인됨 | Apple의 App Intents 프레임워크가 이를 가능하게 함. iOS 27에서의 구체적 범위는 아직 공개되지 않음. |
Apple의 온디바이스 모델은 프라이버시와 지연 시간에 최적화되어 있다. 개인 컨텍스트 처리에 뛰어나다—"엄마"가 누구인지 알고, 일정을 이해하며, 데이터를 디바이스에 보관한다. 그러나 복잡한 다단계 추론, 긴 컨텍스트 이해, 정교한 언어 생성 분야에서는 현재 대규모 클라우드 호스트 모델이 여전히 우위에 있다.
Gemini를 특정 작업에 사용하면서 프라이버시 민감 작업은 온디바이스에 유지함으로써 Apple은 양쪽의 장점을 모두 제공할 수 있다. 이는 Apple의 전통적 접근 방식과 일치한다: 사용자 경험을 철저히 제어하면서 필요한 곳에서 최고의 컴포넌트를 활용한다.
Apple에게는 이미 선례가 있다. Apple Intelligence는 작업 복잡도에 따라 온디바이스와 Private Cloud Compute 사이에서 라우팅하도록 설계되었다. Gemini를 또 다른 라우팅 옵션으로 추가하는 것은 아키텍처를 근본적으로 바꾸지 않는다—확장할 뿐이다.
이것이 사용자에게 가장 중요한 질문이다. 답은: 점점 더 가능해지고 있다, 이다. iOS 18.1부터 Siri는 지원 앱 내에서 액션을 실행할 수 있다—메시지 전송, 사진 편집, 파일 이동 등. 그러나 현재 구현에는 한계가 있다.
과제는 인텔리전스가 아니라 통합이다. Siri가 앱을 "조작"하려면, 해당 앱이 Siri가 발견하고 호출할 수 있는 형태로 액션을 노출해야 한다. Apple이 이를 위해 제공하는 메커니즘이 App Intents 프레임워크다.
App Intents는 개발자가 앱이 Siri, 단축어, Spotlight를 대신하여 실행할 수 있는 액션을 정의할 수 있게 해주는 Apple의 프레임워크다. 앱이 App Intents를 채택하면 본질적으로 "기계 호출 가능"해진다—Siri(또는 다른 시스템 컴포넌트)가 사용자가 인터페이스를 탭하지 않고도 특정 액션을 호출할 수 있다.
이것이 스마트폰 에이전트를 실현하는 기반 시설이다. App Intents가 없으면, Siri는 사람처럼 탭과 스와이프를 시뮬레이션해야 한다—취약하고 느리다. App Intents가 있으면, Siri는 명확하게 정의된 함수를 호출할 수 있다: "오늘 밤 7시에 이 레스토랑을 예약해줘"나 "마지막 사진을 이 연락처에게 보내줘".
강력한 언어 모델(Apple 자체든 Gemini든)과 구조화된 액션 프레임워크(App Intents)의 조합이야말로 진정한 스마트폰 에이전트를 만드는 열쇠다. 인텔리전스만으로는 충분하지 않다. 시스템에는 의도를 액션으로 변환하는 신뢰할 수 있는 방법이 필요하다.
Android 플랫폼에서 FoneClaw는 지원되는 Android 스마트폰 액션—전화 걸기, 메시지 전송, 설정 관리, 필요한 권한이 있는 디바이스에서의 기타 작업 수행—을 위해 설계된 AI 스마트폰 어시스턴트다. FoneClaw는 Android 생태계 내에서 작동하며, Android의 접근성 및 자동화 기능을 활용하여 실제 스마트폰 액션을 수행한다.
중요한 뉘앙스: FoneClaw는 Android용으로 만들어졌다. iOS 앱이 아니며 iPhone에서 작동한다고 주장하지도 않는다. Apple의 생태계에는 다른 아키텍처적 제약이 있다—App Intents, SiriKit, iOS가 부과하는 더 엄격한 샌드박싱. FoneClaw를 Siri나 Apple Intelligence와 직접 비교하는 것은 동일 선상의 비교가 아니다.
흥미로운 것은 두 가지의 평행하는 궤적이다. Apple(Siri + App Intents 경로)과 Android 생태계(FoneClaw 같은 도구 경로)는 같은 방향으로 수렴하고 있다: AI 어시스턴트는 스마트폰에서 실제로 움직여야 한다, 단지 말만 하는 것이 아니라. 실행 경로는 다르지만 목적지는 유사하다.
Apple과 Google/Android는 반대 방향에서 스마트폰 에이전트의 미래에 접근하고 있다. Apple은 엄격하게 제어되고 프라이버시를 최우선하는 시스템을 구축하고 있으며, Siri는정밀하게 설계된 프레임워크(App Intents)를 통해 앱을 조작한다. Google은 Gemini를 플랫폼으로 개방하여 디바이스와 서비스(Android 포함) 전반에 걸쳐 통합할 수 있게 하고 있다.
어떤 접근이 절대적으로 더 우수한 것은 아니다. Apple의 모델은 더 강력한 프라이버시 보장과 더 일관된 사용자 경험을 제공하지만, 개발자의 App Intents 채택에 의존한다. Android 모델은 더 많은 유연성과 빠른 반복을 제공하지만, 디바이스 간 경험이 덜 균일하다.
사용자에게 실제 질문은 단순하다: 스마트폰 어시스턴트가 디바이스에서 실제 작업을 신뢰할 수 있게 완수할 수 있는가? 백엔드 엔진이 Apple의 모델이든 Google의 Gemini이든 다른 무엇이든, 가치는 실행에 있다.