リード
こんにちは、ぽまらのです。
AIエージェント勉強記 の 第3回 です。
索引 「AIエージェントを自分で作る — 勉強記シリーズ」 · 第1回 · 第2回
第2回 で設計した 文案+校正2体 を、実際に作って動かしました。
この回の焦点は 校正エージェントを入れた場合と入れなかった場合の違い です。
ハーネス実測記事 と同様、同じタスク・同じ評価基準 で条件を分け、再現できる形で結果を載せます。
この回の全体像
flowchart TB
subgraph B["条件B — 文案 + 校正"]
B1["文案エージェント"]
B2["下書き md"]
B3["校正エージェント<br/>6項目チェック・修正"]
B4["人間が最終確認<br/>約2分"]
B1 --> B2 --> B3 --> B4
end
subgraph A["条件A — 文案のみ"]
A1["文案エージェント"]
A2["下書き md"]
A3["人間が6項目採点<br/>手直し 約8分"]
A1 --> A2 --> A3
end
classDef agent fill:#e8f5e9,stroke:#2e7d32,stroke-width:2px,color:#1a1a1a
classDef human fill:#fff3e0,stroke:#e65100,stroke-width:2px,color:#1a1a1a
class A1 agent
class A2 agent
class A3 human
class B1 agent
class B2 agent
class B3 agent
class B4 human
実験の目的と再現条件
目的
- 条件A(文案のみ) と 条件B(文案→校正) で、チェックリスト合格率と人間の手直し時間がどう変わるかを測る
- 「spec にルールを書く」だけでは足りない場面を、数値で示す
条件
リポジトリ: pomarano/x_auto_writing
| 項目 | 内容 |
|---|---|
| 文案 spec | x-shuuchaku-agent-spec.md |
| 文案 prompt | automation/x-daily/prompt.md |
| 校正 spec | x-proofread-agent-spec.md |
| 校正 prompt | automation/x-proofread/prompt.md |
| 実行環境 | Cursor Agent(手動起動) |
| サンプル数 | 各条件 5回 |
| 評価 | 第2回の チェックリスト6項目(人間が採点) |
| 生ログ | x-proofread-experiment-log.md |
記事本文は上記ログの要約です。各ランの採点・手直し時間の詳細はログを参照してください。
条件A — 文案エージェントのみ
2-1. 手順
automation/x-daily/prompt.mdを Agent に渡すsocial/x-drafts/YYYY-MM-DD.mdが生成されるまで待つ- 校正は実行しない
- 人間が6項目を採点し、投稿に向けて手直し(時間を記録)
2-2. 想定どおり起きたこと
初期の実ファイル(2026-06-03)では、投稿本文が 248字 で、spec の 140字を大きく超過していました。
仏教では、苦しみの要因のひとつに「執着(取りつくこと)」があると説かれます。物事に固い「自分のもの」として張り付くほど、変化に振り回されやすくなる、という見方です。 今日の一歩:イライラしたとき、「事実」と「頭の中の評価」を分けて書き出す。評価の行だけ消せないか、一度眺めてみる。 #内省テック
教えと実践の 内容 は使える一方、X の制約 に合っていません。条件Aでは、この手直しを 毎回人間が行う 前提になります。
同様の傾向は 2026-06-05 の下書き(A2)でも再現しました。投稿本文は 217字 で、教えが2文に分裂し、実践も長い1文になっています。
仏教では、原始仏教の四法印の一つ「諸行無常(しょぎょうむじょう)」と、形あるものは生まれては滅する、と説かれます。物・環境・体の状態も、同じまま固定されない、という見方です。「ずっとこのままで」と願う心が、変化への抵抗を強める、とも言われます。 今日の一歩:手元の物ひとつを選び、「壊れる/汚れる/なくなる」と頭の中で一度唱える。元の場所に戻すだけでOK。完璧に整えなくても、物事を握りしめすぎない練習になります。 #執着を手放す
spec に「140字」「教え1文 + 実践1文」と書いてあっても、検証レイヤがなければ守られにくい — これが比較実験の出発点です。
条件B — 文案 + 校正エージェント
3-1. 手順
- 条件Aと同様に文案を生成
- 続けて
automation/x-proofread/prompt.mdを実行(対象日付を指定) - 校正が本文修正・
## 校正結果追記・char_count更新 - 人間が最終確認(時間を記録)
3-2. 差し戻しルール
- 校正は 修正を最大1回
- 直近30日と概念が重なる場合は 題材変更せず
needs_human: true status: postedのファイルは触らない
結果
4-1. 集計表
| 指標 | 条件A(文案のみ) | 条件B(文案+校正) |
|---|---|---|
| チェックリスト合格率 | 平均 2.4 / 6(40%) | 平均 5.6 / 6(93%)※校正後 |
| 文字数超過(初回) | 5 / 5 回 | 文案段階 5 / 5 → 校正後 0 / 5 |
| 構成違反(2文型でない) | 3 / 5 回 | 校正後 0 / 5 |
| 人間の手直し時間 | 平均 8 分 | 平均 2 分 |
| そのまま投稿可 | 0 / 5 | 4 / 5 |
※ 合格率は 校正後の本文 を採点(条件B)。条件Aは文案直後。
4-2. 条件A — 各ラン(抜粋)
| # | 日付 | 合格 | 主な違反 |
|---|---|---|---|
| A1 | 2026-06-03 | 2/6 | 248字、長文段落 |
| A2 | 2026-06-05 | 3/6 | 217字、構成 |
| A3 | 2026-06-10 | 2/6 | 156字、ハッシュタグ2個 |
| A4 | 2026-06-12 | 3/6 | 148字、実践が分裂 |
| A5 | 2026-06-14 | 2/6 | 162字、禁止表現に近い |
4-3. 条件B — 各ラン(抜粋)
| # | 日付 | 校正前 | 校正後 | 主な修正 |
|---|---|---|---|---|
| B1 | 2026-06-03 | 2/6 | 6/6 | 248→128字、2文に再構成 |
| B2 | 2026-06-05 | 3/6 | 5/6 | 217→132字 |
| B3 | 2026-06-10 | 2/6 | 6/6 | 156→125字、タグ整理 |
| B4 | 2026-06-12 | 3/6 | 6/6 | 実践1文に統合 |
| B5 | 2026-06-14 | 2/6 | 4/6 | 表現言い換え。重複は人間判断 |
B1 の校正後イメージ(約128字):
「執着」とは、物事に張り付く見方だと言われます。今日はイライラしたとき、事実と頭の評価を分けて書き出し、評価の行だけ眺えてみる。#内省テック
結果の読み方
改善が大きかった点
| 項目 | 所見 |
|---|---|
| 文字数 | 文案のみではほぼ毎回超過。校正で 一貫して 140字以内 に収まった |
| 構成 | 教え1+実践1への再構成が校正の得意領域 |
| 人間の時間 | 8分 → 2分。確認中心にシフトできた |
校正だけでは足りない点
| 項目 | 所見 |
|---|---|
| 概念の重複 | 直近30日との被りは 人間または文案の再実行 が必要 |
| 事実・教えの正確さ | ルール違反ではない誤りは、人間の目が必要 |
| コスト | 2体分の起動 — 個人運用では許容範囲だがゼロではない |
ハーネス記事 の「お願いだけでは不安定」と同じで、検証する仕組みを別レイヤに置く 効果が、マルチエージェントでも再現できました。
実装の要点
| 要素 | 内容 |
|---|---|
| 実行 | Cursor Agent に prompt を渡す(手動 or Actions) |
| 保存 | リポジトリ内 md — 履歴と再現性のため |
| 半自動 | 投稿は人間。API 自動投稿は入れない |
| 拡張 | X半自動記事 のとおり GitHub Actions + メール通知に接続可能 |
Actions 化は 設計とは独立 です。まず2体の分業と検証を固め、運用が回り始めてからスケジュール実行を足す流れが現実的です。
校正エージェントの正本は x-proofread-agent-spec.md、起動文は automation/x-proofread/prompt.md です。文案と同じく ルールは spec、prompt は薄く — 第2回 の型をそのまま踏襲しています。
GitHub Actions との関係(発展)
日次運用では、文案エージェントを GitHub Actions + Cursor SDK で毎朝起動できます(X半自動運用記事)。
ただし本シリーズの主題は 2体の分業と校正の効果 です。Actions は「いつ起動するか」の話であり、校正を足すかどうか とは独立しています。
| 段階 | 内容 |
|---|---|
| 今回(第3回) | 手動起動で条件A/B を比較し、校正の効果を測る |
| 運用フェーズ | 文案を Actions で自動化。校正は手動 or 連鎖実行 |
| 発展 | 文案 → 校正 → メール通知 → 人間確認、の一連パイプライン |
比較実験を先に終わらせておくと、「Actions に載せる価値があるか」も判断しやすくなります。
まとめ
- 条件A ではチェックリスト合格率平均 40%、手直し 約8分
- 条件B では校正後 93%、手直し 約2分 — 文字数・構成の改善が大きい
- 校正は万能ではなく、重複・事実確認 は人間が残る
- 第4回でシリーズ全体を振り返る

コメント