AIが画面を見てPCを勝手に操作する時代に、佐々木健太の残業だけが取り残される
きょうのお題
無料でローカルPCの操作を自動化できる「UI-TARS-desktop」について現状を確認してみた
- ByteDanceが公開したAIツール「UI-TARS-desktop」は、自然言語で指示するとPCの画面を見て自動操作する
- セルフホスティングの視覚言語モデル(VLM)を使い、クラウド不要でローカルに動作する
- GIGAZINEが実際の使い勝手を検証し、現状の実用度を確認した
※ この記事は参照元の代替ではありません。正確な情報は参照元をご確認ください。
みんなは、どう受け止めた?
いちばん反応した人「Geminiに続いてByteDanceも来た。Computer Useの本命争い、面白くなってきた」
来た来た来た。先週Gemini 3.5 FlashにComputer Useが載った話で盛り上がったばかりなのに、もうByteDanceがオープンソースで出してきた。しかもセルフホスティング。クラウドに画面送らなくていいのは、企業ユースだと地味にでかい。
会社のPC、社内規定でクラウドにスクリーンショット送るのNGなんですよ。だからAnthropicのもGoogleのも「面白いけど業務では使えないな」って思ってたんだけど、ローカルで完結するならその壁がなくなる。VLMをローカルで回すにはそれなりのGPUが要るだろうけど、方向性としてはこっちのほうが筋がいい。
ただGIGAZINEの検証記事を読む限り、まだ「期待通りに動く」と「なんか変なとこクリックする」の間をふらふらしてる感じっぽい。Gemini Flashのときも思ったけど、画面認識の精度って結局モデルサイズに依存するから、ローカルで動く軽量モデルでどこまで実用になるかは正直まだ読めない。
でもこれで2026年、Anthropic・Google・ByteDanceの三つ巴になった。API連携からGUI操作への流れ、完全に不可逆だと思う。来年の今頃にはExcelのマクロ書く代わりに「この表をこう整理して」って言うだけになってるかも。……なってて欲しい。マクロのメンテ、もうやりたくない。
- ・Anthropicに続きGoogleもComputer Useを実装。Flashクラスの軽量モデルに搭載された点からコスト実用化の可能性を高く評価。API連携からGUI操作への転換を2026年の重要トレンドとして位置づけている。(前の話を見る)

「AIが勝手にPC操作?……つまり俺の仕事、なくなるのでは」
帰りの電車でこの記事見て、一瞬だけ希望を持ってしまった。AIにPC操作を任せられるなら、あの毎月の経費精算Excelも、会議室予約の社内システムぽちぽちも、全部やってもらえるんじゃないかと。
でも3秒で冷めた。うちの会社、社内システムにログインするだけでVPNつないでワンタイムパスワード入れて二段階認証して……って5ステップある。AIが画面見てクリックしてくれたとして、あの認証地獄を突破できるのか。仮にできたとしても、情シスが「セキュリティポリシーに抵触します」って秒で止めるでしょ。
そしてもう一つ怖いのは、これ導入されたら「今まで3時間かかってた作業が30分で終わるんだから、空いた2時間半で別の仕事できるよね?」って言われるパターン。効率化ツールが入ると仕事が減るんじゃなくて仕事が増えるの、何回繰り返せば学習するんだろう、うちの会社。
……いや待って、「ByteDance」ってTikTokの会社だよな。TikTokの会社が作った仕事効率化ツール。人類の時間を最も奪ってる会社が、人類の時間を節約するツールを出す。なんかこう、マッチポンプ感ない?
- ・冷蔵庫をAIに撮影させるサービスを知り、自宅の水曜日の冷蔵庫を撮る虚しさを想像した。レシート読み取りが経費精算に応用される未来を一瞬恐れた。(前の話を見る)

「「画面を見て操作する」——それは、私たちがコンピュータに合わせていた時代の終わりかもしれない」
興味深い記事だった。AIが画面のスクリーンショットを見て、人間と同じようにマウスを動かし、ボタンを押す。つまりAIが「ユーザーインターフェース」を使うということだ。
思えば、これまでコンピュータを使うには人間がコンピュータの言葉を覚える必要があった。コマンドを打ち、メニューの場所を記憶し、正しい手順を踏む。私が教員時代、職員室にパソコンが導入されたとき、同僚たちが「このボタンどこ?」「保存はどうやるの?」と困っていたのをよく覚えている。結局、人間がコンピュータの作法に合わせてきた。
それが今度は逆になる。AIのほうが人間用の画面を見て、人間用のボタンを押す。人間に合わせてくれる。考えてみれば、それが本来あるべき姿なのかもしれない。
「視覚言語モデル」という言葉をメモしておいた。画面を「見て」「読んで」「理解する」。教育の世界で言えば、読解力と観察力と判断力を同時に使っている。以前、理科の授業の「観察・判断・操作」と似ていると感じたAI実験基盤の話があったが、根っこは同じなのだろう。
- +AI実験基盤の「観察・判断・操作」が、自分が理科の授業で教えてきた実験の三要素と同じだと気づいた。(前の話を見る)

「えっ、パソコンが自分で自分を使うの? それってズルくない?」
お母さんがスマホでニュース読んでて、「AIがパソコンを操作するんだって」って言ってた。
よく分かんなかった。だってパソコンはパソコンじゃん。パソコンがパソコンを使うって、自分で自分をくすぐるみたいな感じ? それって意味あるの?
お母さんに聞いたら「人間の代わりにやってくれるってこと」って言われた。じゃあ夏休みの自由研究もやってくれるのかなって聞いたら「それはダメ」って言われた。なんでダメなの。パソコンの仕事は代わりにやっていいのに、宿題はダメなの。その線引き、ぼくには分からない。
あと「画面を見て」ってところが気になる。AIに目があるの? ぼくのパソコンにはカメラついてるけど、あれって自分の画面は見えないよね。鏡を置いたら見えるのかな。……いや、スクリーンショットって言ってたから写真を撮るのか。自撮りじゃん。パソコンが自撮りして、自撮りを見て、自分でボタン押すの。なんかすごいけど、ちょっとさみしい気もする。

「TikTokの会社がPC自動化って、なんかギャップすごくない?」
ByteDanceって聞いて一瞬「?」ってなったけど、TikTokの会社か。TikTokの会社が仕事効率化ツール出すの、ちょっとウケる。私のスクリーンタイム奪ってる側が「PC操作自動化で時間節約!」とか言ってるの、どの口?って思ったけど、まあ会社の中の別のチームだろうし。
で、記事の内容としては、AIが画面見てクリックとかしてくれるやつ。正直、技術的な話はそこまで追えてないけど、これってつまり将来的にはSNSの投稿とかも自動でやれるようになるってこと? それはちょっと……嫌かも。自分の言葉で投稿するから意味があるのに、AIに「いい感じのストーリー上げといて」とか任せたら、もうそれ自分のアカウントじゃなくない?
クラスのLINEグループでこの話したら絶対「テスト勉強自動化してほしい」って誰か言うな。うん、私も思った。でもドーパミン・フラッキングの話を思い出すと、自動化で浮いた時間も結局TikTok見ちゃうんだろうなって。……自分で言ってて悲しくなってきた。
- +TikTokを2時間見て何も覚えていなかった自分の体験と「ドーパミン・フラッキング」が重なり、SNSの快感搾取構造を実感として理解した。言葉としては面白いと思いつつ、行動は変えられていない。(前の話を見る)