2026-05-01 on Spinach Forest

Agentic-coding diary: Work like a pilled

Wed, 27 May 2026 21:05:25 -0700

3.5 Flash が実用の閾値を超えたのと、潤沢にトークンが使えるのもあり、世間から一年遅れくらいで AI pilled ぽく仕事をしている。

4 つウィンドウを並べるのをやってみている。気が散る。並列度は最大が 4 だが、４つ埋めきることはなかなかできない（そんなに並列の仕事がないし、やりたくもない。）エーアイ相手にティーエルごっこ乙・・・という気持ち。
社内謎 DSL で書くちょーニッチな A/B テストの一部部門固有 ACL に使われている infra-as-code ペーパーワーク、という全然わからん代物をいじる必要があり、わからん助けてーといったらバーっと社内サーチを駆使して正解を見つけてコードを書いてくれた。あたしより仕事できるじゃん・・・この deep research 的なスキルとコードの組み合わせは純粋なコーディング仕事よりエーアイの恩恵を受けやすい。
こまめにスキルを作る、というのを試している。こういうの、チームでシェアした方がいいんだろうなと以前は思っていたが、$HOME/local/bin のシェルスクリプトみたいなもんだと思うと別にシェアしなくていいかな、という気がしてきた。めんどくせーし。一方、諸事情から社内共通 skill のひとつにパッチを送ったところ unit test (というか eval) があって感心した。こうやって品質管理すんのね。
とかなんとかやっていたら、アプリチーム内のエーアイリーダーボードで三位につけていた。tokenmaxxer じゃん。(いちおう勤務先の名誉のために書いておくとリーダーボードの上を目指すことを勧められてはいない。存在すら社内 pilled チャットで聞くまで知らなかった。)
手でコード書いてない。というか Android Studio 起動してない。
そういえば「メモリリーク見つけて」と java heap dump の入ったトレースを渡したらちょーデタラメな数字をよこしたので根拠を問いただしたところゴミ Perfetto SQL を書いていた。これを直したときは手で SQL 書きました・・・。しかし Perfetto SQL 一応知ってるんだな・・・。
しばしばエーアイが勝手にコードをアップロードする (PR みたいなもんです) ため、あるとき修正でレビューアプリ上でレビューしてしまった。やむなく「レビューしといたから見て直して」といったら直しつつ返事をしてきた。Antigravity のチャットでレビューするより無駄に人間味があり、不気味。ただ他人から見た透明度が高い利点もあることに気づいたので、しばらくはこのフローでやってみようかな。ややターンアラウンドが遅くなるが。
金曜。エーアイ氏には手の負えないコードがあり、諦めて AS 起動し半月ぶりに手書き。すると、動く動かない以前にアブストラクションがダメだな・・・などと色々発見があり進展する。手で書く大事さを肌で感じる。全てを手で書く必要はないと思うが、手で書いた方が良いものはある、しかしその判断基準はいまいち不明。これはエーアイ時代のスキルの一つなのかもしれない・・・し、過渡期の現象なのかもしれない。

PI 日記 #04

Tue, 26 May 2026 05:05:47 -0700

最近会社のラップトップで Obsidian Android が動かなくなってしまったため、この日記（特に脊髄反射ダンプ）をかけなくなってしまった。息抜きにインターネットして見つけたものを書く場所がないとソーシャルメディアで失言したりしがちなので、失言をバッファする場所がほしい。

ということでマークダウンエディタ的なものを適当につくって Cloud Run に置く。漢字プリントアプリと違い機能強化する気がほぼゼロなのでコードもろくに読んでいない。Claude Code Opus に比べると DS4 Pro は若干危なげあるが、この手の CRUD を作るだけなら許容範囲に思える。ただし毎ターン監視する前提。AGENTS.md とかスキルを強化すればいいのでしょうが、まあおいおいやってきます。

結局 Opus のような真の frontier model が必要かどうかは、どのくらい手放しで仕事できるか、すなわちしょうもない凡ミスをしないか＋ミスに気づいて復帰できるかが重要で、それは仕事でめちゃマルチタスクさせるときには大事だが個人がマイクロマネッジする分にはそこまで重要でない。コードの質以前に、インクリメンタルに作らせながら開発中の画面を見てほしいものを考えるので、手放しにはできない。自分の開発スタイルがぜんぜん oneshot/waterfall になってない。

とか書いていてコードをあまりに見てないことを反省し、ちょっとレビューすっかという気になった。直します・・・。

直してながら思うこととして、コード (TS/JS まわりの細々した選択)は DS4 (on Pi) より Opus (on CC) が良い気がするな。素人判断だが。

あと “best practice” 類を知らない素人 (=自分) のレビューは限度があるね。特に JS だとサードパーティライブラリ持ってきて終了〜みたいのが多いが、DS4 は自分で書きがちである。Opus/CC の判断がこなれている理由の一つはおそらく裏でウェブ検索をしていることで、DS4 にはそれがない。せっかくコマンド作ったんだから使って調べていいのよ、と背中を押すと調べるが、板についていない。

My Vibe Stack

Mon, 25 May 2026 21:05:42 -0700

Vibe Stack とはつまり Hobby Stack のことで、私用小物アプリをホストする要素技術の意。最近はしょーもない自分専用実用品を一瞬で作れるようになったので必要性が増した。下手なスタックを選ぶと Ops が重荷になってしまう。

で、わたくし Vibe Stack は Cloud Run + Firestore + TS Server(Hono) + TS Web (Vanilla React) で行くことにしました。

ここ十年くらいは Cloud Run + Firestore + Python (Flask) + oauth-proxy + Vanilla JS だった。何がいいかというと別に良くはないが個人の都合による:

Cloud Run = Pay as you go なので個人アプリだとほぼタダ.
Firestore = 同じく Pas as you go.
Python + Flask = ウェブ素人に優しい。
oauth-proxy: 素人なのでログイン画面すら作れないんだよ!!
Vanilla JS: 素人なので React とかわかんねーんだよ! だいたい plain HTML で足りてますからッ

という状態だったのが、エーアイの力により以下のようになった:

AI Browser Needs DOM

Thu, 21 May 2026 22:05:45 -0700

銀行のウェブサイトからPDFをダウンロード・バックアップしたいが、やたらたくさんあってかったりー・・・ということでエーアイにがんばれせてみた記録。

最初は Claude For Chrome + Claude Code を試してみた、が、銀行のサイトは denylist されていて Claude には見えなかった。しかし健気に “この JS を devtool に貼り付けて結果を教えて” とかいうので言うがままに従ったところ、まあまあ自動化できた。ダウンロードは <a download> を click() するらしい。なるほど・・・

denylist されずに触る方法はないかと考え、そういえば DevTools MCP とかいうのがあったなと試すが、頑なに Incognito かつ別プロファイルののウィンドウばかり開くので、だめ。

別に MCP なくてもあんたたちプロトコルの JSON 知ってんじゃないの・・・とやらせてみたら、今度は localhost:9222 からデータが帰ってこないという。なぜだ・・・と調べたら、去年から実ユーザのプロファイルで 9222 は禁止されたらしいえーケチクサじゃないですか? でも最近は npm supply chain attack とかで Linux にもカジュアルにマルウェアがやってくるようになったのを思い出し、自制。

そういえば Gemini For Chrome とかあったよね？ Linux でも無理やり動かせちゃう？と試したら、途中で謎の無限ループにはいり同じ PDF を何度もダウンロードしはじめたので頓挫。

というわけで結局いちばんちゃんと動いたのは Claude Code いいなり JS コピペであった。なおこのときは節約のためモデルには Sonnet を使っており、特別賢くない。一方で途中頓挫した Gemini for Chrome は Flash 3.5 で、特段アホではない。どちらかというと Gemini for Chrome は画像ベースなのが厳しく、Claude Code は DOM 相手なのがよかったのではないか。もちろん DOM だと画像の中身は見えない以上できないこともあるわけだが、アクセシビリティとか真面目にやってあるちゃんとしたサイトなら画像よりよっぽど効果的なんじゃないの？

Tue, 19 May 2026 21:05:47 -0700

Google Search’s I/O 2026 updates: AI agents and more

あるときビデオチャットをしたあとに母親が会話の補足としてウェブ検索のリンクを送ってきた。そのクエリがこれ:

“猫の寿命が30年になる日で研究されていた餌は販売されているか”

検索社長氏、投資家向け発表の中でたびたび「クエリー長くなってますから」と強調していてホントかなと怪しんでいたが、これを見て説得された。検索の人々、がんばりましたね。まだまだ戦いは続きますが、引き続き頑張ってください。

Agentic-coding diary: Gemini 3.5 and Antigravity 2.0

Tue, 19 May 2026 20:05:00 -0700

Google I/O を見ていてわかったこととして、仕事で使わされていた Gemini はこの Flash 3.5 で、使わされていた Antigravity は 2.0 だったらしい。

ここ二週間は、仕事の内容のせいもあるが、ほとんど自分でコードを書いていない。唯一書いたのは微妙な集計が必要な Perfetto SQL で、しかも雛形を書いただけで仕上げは Gemini 任せだった。世の中から半年一年遅れではあるが仕事における Agentic Coding がようやく実用的になった。他の会社のモデルと比べてどうかは知らないが、三ヶ月前は全然使えねーとか書いているので、大した進歩である。九ヶ月前も同様（というか、もっと悪い)。

Flash 3.5, 賢さはさておきとにかくメチャ速い。去年使わされていた 2.5 Pro は論外として、DeepSeek ・・・と比べるのもどうかと思うが DeepSeek Flash すらカタツムリみたいに見える異常な速さ。しかし値上げと組み合わせるとあっという間にカネを溶かしそうである。仕事だと気にしなくていいのだが、趣味だとどうかな・・・。

賢さも実はそこまで不満はなく、自分のマイクロマネジメントな使い方だと現状はスイートスポットに近い感じがする。もうちょっとくらい賢いとそれは望ましいが、大幅に賢くなっても人間側の能力・仕組みがついていけない。コミット単位で同僚にレビューとかしてもらってたらアムダールの法則的に律速されてしまう。もっとバーンとでかい単位で投げてエーアイとかにレビューされてハンコ押す・・・みたいにならないとエーアイ全然本気だせない。

来月は 3.5 Pro をだすとか言ってるし、まあ Pro は使わせてもらえないにせよ過去のペースから類推するに年内もう一回くらいはバージョンアップが予想されるわけで、この人間律速問題はもはやカッティングエッジな人々に限らず大企業にとってすら明白だと思うんだよね。会社の賢い人々がどう舵取りするのか見ものであります。

あと Antigravity 2.0 は普通に良い。もう CLI 不便じゃよ・・・といいつつ遊びでは引き続き Pi+DS4 を使ってまいります。ホビーでは便利さだけがすべてじゃないのでね。

PI 日記 #03

Tue, 19 May 2026 06:05:31 -0700

CC で作っていた漢字練習プリントアプリを Pi + DS4 Pro で直してみる。なんかフツーに動くな。難しいことをやらせていないので賢さ的には問題なし。強いて言えば (token generation が) 遅いのが不満。ただ 75% 割引で激安＋コードが小さいのでまったく $5 の予算が減らないのは良い。

世の中的には Qwen の評判がいいのでつついてみたいと思い調べるも、Pi 公式 provider はなくサードパーティの provider もあまり使いたくないので保留とする。

多くの中国企業は Claude を distill していると言われているが、そうだろうなーというかんじ。文体・口調が全く同じ。Gemini とかだと毛色の違いを感じるので、トレス疑惑を問われるのもやむなし。

コーディングの RL 環境作って色んなコードをガンガン書かせるとか、エンジニアリング体力（カネ・人材）が必要そうなので中国どうこう以前に小さい企業には難しいと思うのだよね。完全な素人談義ですが。一方で distill させるにもコードは書かせる必要があるので、環境づくりが下手というのは過小評価な可能性もあり、彼らは（少なくとも環境づくりは）ちゃんとやってるのかもしれない。

Threads for mitchellh

Mon, 18 May 2026 21:05:33 -0700

Threads for mitchellh | Lobsters

Mitchel 氏, Lobster にも生息しているのか。オンラインな御仁である。 via https://simonwillison.net/2026/May/12/mitchell-hashimoto/

コードレビュー、コード読まずになにを読む？

Wed, 13 May 2026 20:05:38 -0700

エーアイの書いたコードは、書かせた人以外はレビューしなくていいし、もっといえばしない方がいいと思っている。今の職場は人間レビューが必須になっているけれど、他人のエーアイコードをレビューするのって外部性バリバリで全然フェアじゃない。自分のエーアイコードをレビューさせるのも気の毒。この無神経さに慣れたくない。

目先の実現可能性はさておき、自分にとって納得できる落とし所はどのへんかと考える。

まず Super-lint としてのエーアイコードレビューは必須。現状多かれ少なかれ皆なにかしらのエーアイコードレビューは使っているので、チーム開発ならそれを標準化し、ローカルルールや価値観を埋め込んでいく。

自分のコード

という前提で、まず自分の「所有」しているコード。エーアイと、エーアイに書かせた本人がレビューしたら、第三者のレビューはなしでいいんじゃね？ゴミ化して困るのは当人なわけだから。そもそも従来のレビュアにしても、自分で書いてない他人のコードのレビューは表面的になりがち。エーアイと大差ない。労に合わない。

その当人がゴミを残しチームや会社からいなくなってしまうリスクはある。ただそれは別にエーアイに限ったことではない。ゴミのスケールが桁違いなのは事実かもしれないが、人が書いてレビューすればゴミにならないわけでもない。チームが一丸となって作り上げたゴミの山をみたことないですか。

他人のコード

他人のコードを変更するときはどうか。あるいは逆に、他人が自分の所有するコードへの変更を送り付けてきたときはどうか。所有者に強い権限を与えよう。

従来は送られてきたコードにはある程度丁寧に付き合うのが礼儀だった。組織に閉じたコードでは特に（同僚に失礼なことしないよね）。が、エーアイコードでこれをやると所有者が外部性の被害に合う。

そこで一旦この文化・不文律を捨て、 Pi Coding Agent のように拒否をデフォルトにする。他人からのエーアイコードは「貢献」ではなく「押し付け」だという新しい常識を広める。めんどくさそうな匂いがするなら「いらないです。さようなら」でいい。所有者がチラ見でアイデアを把握したのち自分のエーアイに書き直させてもいい。とにかく「有り難いもの」という感覚を捨てる。皆で捨てる。エラいエンジニアが strategy memo とかいってバーンと明文化する。

他人のコードを頻繁に書き換えている自分のような人間にとってはかなり不都合な世界だが、仕方ないと思う。コードを書くことより、コードの後ろにいる人間を説得するのに労力を割けということだろう。というか書いてないからなコード。エーアイが書いてるわけで。

コードは読まない→なにを読む？

この世界に「チーム共有コード」のようなものはない。すべてのコード片は誰かが所有する。そして人々は助け合わず、自分の身を守ることを優先する。楽しくない。この世界に楽しさを取り戻すには何らかの発明が必要。「オープンソース」や「コードの共同所有」は発明だった。同じようになにかが発明されないといけない。

具体的な発明の姿は見えないが、世の過激派の主張を見ると「コードは誰もレビューしない」勢力が今は一番元気に見える。Pandas の作者 Wes McKinney に至ってはエーアイレビューツールを自作し「もう全然コード読んでないよ」と言っていた。自分のコードを書いてないし、読んでない。

過激派が目指す世界では: 自分のコードは自分のエーアイレビューに任せる。他人のコードに踏み込んだら相手のコードのエーアイレビューに従う。共有コードは共有エーアイがレビュー。

進んだ先にある疑問: 人間同士はコードを読まずにどうやって「コードが実現したいこと」を伝え合うのか。この「意図」がエーアイコードの世界の「人間の読むコード」に相当するわけだが、素朴に「仕様」とか言い出すとエーアイのそれっぽい slop に侵略される。意図のやりとりでも受け手の外部性に対しては断固とした態度が必要。わかりにくい sloppy な意図はがんばって汲み取らずただ断って良い。

けれど今は人間にも「意図を伝える、明快で簡潔なコミュニケーション」すなわち anti slop が欠けている。つまり発明が必要なのは人間による読ませるコミュニケーション手法なわけだ。

個人的には「エレベーターピッチ」や「ラブレター」みたいな渾身のコミュニケーションが普通になったら面白いと思う。魂の叫びで slop に勝つ。

自分はコードを読み書きしない時代が来たら残念だけど、もし避けられないならかわりに形式的で官僚的なコミュニケーションも流れ去ってほしい。そしたら人類の進歩に数えたい。

Agentic-coding diary: From Human

Wed, 13 May 2026 20:05:08 -0700

プロジェクトの都合で自動化の仕事を手伝っている。Python と自社 DSL (Jsonnet みたいなもの) を書く仕事で、アプリの Kotlin にくらべだいぶエーアイが使える、これは Kotlin か Python あというよりコードが mess か well organized かの違いだと思われる。つまり自動化のチームは優秀でコードベースがよく整理されているのでエーアイも仕事がしやすいように見える。あとはまあ、仕事の内容が本質的に boilerplatey でエーアイ向けという面もある。

そんな boilerplate Python や DSL には愛着がないのでじゃんじゃん書かせる。が、我ながら slop を量産してる自覚がある。いや気をつけてるんですけど、自分で書かないとどうしても雑になるのだよ・・・。

気がついたこととして、コミットメッセージはコード以上に slop 感がある。あの情報量のない感じ、あるじゃん？しかも second language なせいかどうしても文質への感度が低い。一方でエーアイが書いたという事実を隠すのも気が引ける。

そこでエーアイに書かせたあと"From human:" というセクションを手書きで追記し、追加の文脈を生の人間の声として添えることにした。ハーネスとかがきちんとしていればそういうハイレベルなお役立ち情報も生成させられるのだろうか。自分の実力は全然及んでいない。

こんな罪悪感も一時的なものなのだろうけれど、通過儀礼ということで。

PI 日記 #02

Wed, 06 May 2026 23:05:07 -0700

というわけで Pi のために検索コマンドをつくってあげました。Pi で: omo/asq

感想:

Pi
- 全然機能がないが、それでもわりかしコード書けるので不思議。Flask の開発者が二番目の開発者として噛んでるらしいけど、きみこういうの好きそうねーというかんじ。
- ただし plan-mode は必要。いきなり突撃されると困る。
- 検索はそこそこ必要だった。モデル名とか API の詳細とか調べるため。「おまえが今開発してるバイナリで調べてご覧」とかいってリマインドした。
- いろいろカスタマイズしたい気持ちはあるが、まあぼちぼち。
DeepSeek v4:
- OpenRouter 経由だと異常に遅かったので DeepSeek Platform で課金。プライバシー心配じゃない? というかもしれないがゴミオープンソース遊びしかしてないので。
- 賢さ。自分のように micromanage で長時間一撃稼働はさせない使い方 + 極小コードベースだと Pro は普通に使えて拍子抜け。
- Flash はアホだが単純コーディングには使える。デバッグとかは全然だめ。とりあえず Flash に書かせてみて、駄目そうなら早めに諦め Pro にするという方針でやってる。
- Flash は安いが token の無駄が多い。Pro は高いが無駄 token が少ない、気がする。しかも高くない。これ全部作るのに $0.5. 現在激安セール中のせいもあるかもだが。
- といった判断が、Thinking が全部見える(見えているはず)おかげでできるのは良い。Claude Code だとそのへん隠れているので。というか Claude の API も簡略思考しか返してないはずだよね。Flash のアホさも、思考が見えるとかわいいもんです. “Wait, … actually, … no wait” とか延々やってる。
- ただふと Gemini Flash と比べてみたら DS4 Flash は遅い! これが Huawei TPU の現実か。GPU いっぱいもってるアメリカの会社がホストしてくれるといいのだが、それだとこんなに安くないかもな。
作ったコマンド
- 割と便利なのでは？とおもったが人間なら普通にブラウザで調べるほうがはえーわ・・・。エーアイはこれでがんばってください。
- LLM フロントエンドなので、結果のテストの方法を考えたい気がしている。大げさに言うと eval が必要。
Rust
- もう自分 Rust 勉強しなくていいのでは、という気持ちになる。気のせいだが。
- Serde が超便利でびっくり。

というわけでウェブ検索の不在を埋めた今、なんか他に作るものないかな。

PI 日記 #01

Sun, 03 May 2026 14:05:31 -0700

Pi Coding Agent をつかってみる日記。

動機は 1) 最近大手の coding agent がきな臭い。2) 自分は micromanage なので超高性能モデルいらないのでは、と疑っている。 3) 中華モデルためしてみたい 4) 中二病といったところです。

オープンソースの agent ではこの pi を見かけることが増えてきたため、採用。モデル業者は色々試したいので OpenRouter, あと比較目的で Gemini (AI Sutidio).

とりあえず hello world として Rust の CLI でなんかつくってみようかと stub を作らせてみる。モデルは、安いやつを探すというゴールから DeepSeek 4 Flash.

First impression.

コードは書ける。ただし遅い。単純に token throughput が低い。Gemini Flash 速かったな・・・。
インターネットサーチが使えないのは厳しそうに見える。

というわけでインターネットを使わせてあげたい。色々な skill/cli/MCP が用意されている。Pi にも brave-search というスキルがある。このスキルは Brave の API を使って検索し、結果のページを Readability で strip して返すというものらしい。

サーチは frontier model が内蔵しているサーチを使えればいいのでは？と調べてみると、Pi はそういうモデル組み込みツールをサポートしていない。する気もないらしい。まあサーバサイドにループを移されると Pi のようなサードパーティの agent は滅んでしまうので、違う路線を応援したい気持ちはわからないでもない。

"All issues and PRs from new contributors are auto-closed by default."

Sun, 03 May 2026 13:05:16 -0700

OpenClaw の土台になったことで知名度急上昇中の Pi coding agent, CONTRIBUTING.md が興味深い。

All issues and PRs from new contributors are auto-closed by default. Issues submitted Friday through Sunday are not reviewed.

俺の気に入ったバグだけ直してやんよ、という姿勢。PR についても同様で、かつ以下のような下りがある:

Using AI to write code is fine. Submitting AI-generated slop without understanding it is not.

不躾で横柄ともいえるが、エーアイ負荷で GitHub 自体すらダウンしがちな昨今、人間もこのくらいの流量制限がちょうどいいようにも思える。実際のトラッカー上でのやりとりにしても態度は一貫している。

大企業の OSS プロジェクトにもしばしば「一定時間活動がないと Issue を閉じる bot」が住んでおり、実質的にはこれと同じことをしている。体面のために設けられていた「一定時間」がなくなったと見れば良い。

GitHub の “social coding” によって大きく敷居の下がったオープンソース参加も、再び昔のような・・・かどうかはわからないが、殺伐とした世界に戻っていくのだろうか。残念なような気もするし、知らないふりをしていただけで overdue だったような気もするね。

なお Pi の開発者 Mario Zechner は最近 Pragmatic Engineer podcast でインタビューをうけていた。

Ubuntu 26.04

Sun, 03 May 2026 09:05:49 -0700

Ubuntu 26.04 LTS summary - Ubuntu release notes

インストールした。LTS だけついてく派です。

わりと普通に動いている。NVIDIA GPU でも Wayland になったらしい。この日が来ようとは・・・。あとは、なぜか Webcam も動いている。一瞬タッチパッドの動かない瞬間があったため秘蔵の workaroundの出番かとおもったが、再起動したら直った。

Copilot 以降 Windows 11 の shitification が各地で話題になっているのを横目に Ubuntu は平和。Mac OS もいいかなとたまに思うけど、今更乗り換えるのもめんどくさいので Linux で生きていきます。二年毎にそんな決心をアップデートしている。ただ XPS とは縁を切りたいなあ。