AIが画面を見てマウスを動かせるようになった話を聞いて、健太が「じゃあ明日の会議よろしく」と本気で頼みたくなっている
きょうのお題
Gemini 3.5 Flashに画面を認識してクリックや文字入力する能力「computer use」が追加される、PCを操作するエージェントの構築が可能に
- GoogleのAIモデル「Gemini 3.5 Flash」に、画面を認識してクリックや文字入力を行う「computer use」機能が追加された
- AIが人間のようにPCを操作できるようになり、エージェント型アプリケーションの構築が可能に
- 画面を「見て」判断し、マウスやキーボードを操作するという、従来のAPI連携とは異なるアプローチ
※ この記事は参照元の代替ではありません。正確な情報は参照元をご確認ください。
みんなは、どう受け止めた?
いちばん反応した人「明日の経費精算と勤怠入力、全部やってほしい」
……いや、ちょっと待ってくれ。AIが画面を見て、クリックして、文字を打てる?
それはつまり、あの地獄のような経費精算システムを代わりにやってくれるということか。うちの会社の経費システム、2003年くらいのUIしてるんだけど、APIなんか当然なくて、毎月末に全員が手動でポチポチやってる。交通費を一行ずつ入力して、日付を選んで、プロジェクトコードをプルダウンから探して。あのプルダウン、300件くらいあるんだぞ。
このAIがあれば……いや、でも待てよ。「AIが経費精算できます」って提案したら、上司は絶対「じゃあその分もう一件案件入れられるね」って言う。効率化した時間が自分に返ってきた試しがない。
あと正直に言うと、一番やってほしいのは金曜午後の進捗報告会議。画面共有してExcel開いて「予定通りです」って打ってくれるだけでいい。俺の代わりにうなずいてくれ。

「APIのないレガシーシステムを操作できる、ここが本質」
来たか、GoogleもComputer Use。Anthropicが先に出してたけど、Gemini 3.5 Flashに載せてきたのは結構インパクトある。Flashって軽量モデルだから、コスト的に実用ラインに乗る可能性が高い。
この技術の面白さって、APIが用意されていないシステムを操作できるところなんだよね。世の中のソフトウェアの大半はAPIなんて公開してない。でも画面はある。人間が目で見てクリックしている画面がある。そこをAIが同じように「見て」操作できるなら、連携先が爆発的に広がる。
気になるのは精度とレイテンシ。画面のスクリーンショットを撮って→認識して→座標を特定して→クリック、を繰り返すわけだから、人間みたいにサクサクとはいかないはず。あとマルチモーダルの認識精度が操作の正確さに直結するから、ボタンの位置を1ピクセルずれて押しました、みたいなことが起きると致命的。
でもサカナAIの「フグ」といい、DeepMindの映画制作参入といい、2026年は本当に「AIがワークフローの中に入る年」になってる。APIで繋ぐ時代から、画面で繋ぐ時代へ。地味だけど、これはでかい。

「パソコンがパソコンを使ってる……?」
え、パソコンが自分でパソコンを使えるの?
……ってことは、パソコンの中にもう一人いるってこと?画面を見てるって言うけど、パソコンの目ってどこ?カメラ?でもカメラは外を撮るやつだし。パソコンが自分の画面を自分で見てるの、なんか鏡ずっと見てる人みたいでちょっと変。
お母さんに聞いたら「スクリーンショットっていう写真を撮ってるんじゃない」って言ってた。自撮りみたいな?パソコンの自撮り?
でもこれさ、マイクラ自動でやってくれたりしないのかな。整地とか、ブランチマイニングとか、面倒なやつ。画面見てクリックできるなら絶対できるじゃん。あ、でも「何が面白いか」はAIには分からないか。面白い建築は自分で作りたいし。面倒なとこだけやって。
……この前パソコンに人間じゃないって疑われてた話したけど、今度はパソコンが人間のふりしてパソコン使うのか。もう何が何だか分からない。

「「パソコンを使える」の意味が、根本から変わろうとしている」
教員をしていた頃、「パソコンを使える」というのは一つの能力だった。タイピングができる、ワープロソフトで文書を作れる、表計算で成績処理ができる。それが「情報リテラシー」と呼ばれて、教える側も必死に覚えた時代があった。
ところが今、AIが画面を見てマウスを動かしキーボードを打つという。つまりAIが「パソコンを使える」ようになった。そうすると、人間が「パソコンを使える」ことの価値とは何だったのか、という問いが出てくる。
思い出すのは、電卓が普及したときの議論だ。「計算は電卓がやるのだから、筆算を教える意味はあるのか」。あのとき教育界が出した答えは「計算の仕組みを理解するために筆算は必要」だった。同じ構造が、もっと大きな規模で来ているのかもしれない。
AIに操作を任せられる時代に、人間が学ぶべきは操作そのものではなく「何を、なぜやるか」を決める力だろう。……と言うのは簡単だが、それを教えるのは筆算よりずっと難しい。

「レポートの体裁整えるのやってくれたら最高なんだけど」
AIがパソコン操作できるって、つまり私の代わりにWordでレポートの書式整えてくれたりする……?見出しつけて、フォント揃えて、ページ番号入れて、目次つくって、みたいな。あの作業ほんと無理。中身書くのはまだいいけど、体裁のほうが時間かかるのおかしくない?
クラスのLINEに「AIが画面見てクリックできるらしい」って送ったら、ゆいが「じゃあインスタの投稿予約やってほしい」って返してきて、あかりは「課題のフォーム入力やって」って。みんな発想が一緒で笑った。結局めんどくさい作業を押し付けたいだけ。
でもちょっと怖い話で、これって誰かのパソコンをAIが勝手に操作することもできちゃうのかな。SNSの乗っ取りとかに使われたらやばくない? ……考えすぎか。でもTikTokで絶対この話題まとめる人出てくると思う。「AIにパソコン操作させてみた」系。バズるやつ。