「タスク」を含む日記

はてなキーワード: タスクとは

2025-02-19

■余裕がない時ほど何かしたくなるのはなぜ

余裕がない時ほどあれやりたいからやりたいとなる。仕事が忙しい時ほど二次創作やりたい〜！ってなるけど日曜の午後のんびりスマホ見てる時は全然二次創作したいと思わん。同じように忙しい時はすごく恋人が欲しくて欲しくて絶対マチアプやる！がんばる！と思うんだけど帰宅して夜寝る前とかにマチアプは全然やらない。マジでなんなんだ？どっちが本当の私なんだろうか。この感じに躁鬱なのって関係ある？みんなもそうなのかな。

余裕がない時ほど何かをしないと！あれもこれもやりたい！るんるん！みたいな気持ちになるけど余裕がある時は全然そんなことないの結構疲れる。やらないといけないこととしてタスクが脳に残り続けてて微妙にメモリを圧迫している感じがある。

Permalink | 記事への反応(1) | 11:02

■

上司「増田くん、社の方針でこのタスクの結果を毎日記録することになったから作業よろしく」

ワイ「かしこまり」

ワイくん毎日せっせと追加タスクをこなす(1時間かかる)

ワイ「あれ…ワイが休んだ昨日のぶんの記録作られてないで…？」←今ここ

Permalink | 記事への反応(1) | 09:27

2025-02-18

■

御社が非効率的なのは、タスクに無駄があるんではなくて、意思決定が遅く、しかも決定を間違って元の場所からやり直しになったりするからなんじゃないですかね

Permalink | 記事への反応(0) | 18:44

■ベンチャーなんだが、ストックオプションで社内に軋轢が

そりゃそうだよな。そろそろ上場見えてきて、何回目かの配布しますよ～ってところに、古くからいるジジイが「俺のはたったこれだけ！どういうことだ」と吹き上がってたら、盛り上がるよな。

そのジジイ、何回目で何個もらってるかは言わずに、今回の個数だけで吹き上がってる…だから、とっととやめろよと。お前のタスクはどんどん減ってるじゃないか…

でも！！退職するとストックオプションは行使できないので、針の筵でもしがみつくのであった！！うぜ～～

Permalink | 記事への反応(1) | 16:09

2025-02-17

■なんかほんともう毎日 ギリギリ

タイトルの通り

月曜朝恒例の娘の登校拒否対応してさー

やっとこさ連れて行けたと思ったら9時でさー

10時から結構大事な社内の会議があるから早めに勤務開始して準備したかったんだけど全然余裕なくてさー(本当は先週準備したかったんだけど、もうそれも全然余裕なくてさー)

結構詰められちゃうヤツだから気が重くてさー

ただでさえ「行きたくない！！！」って怒る娘の相手を何時間もして心がささくれてるのにさー

もう無理だよね、マイハートのストレス許容量超えるわ会議出たら、ってことで会議はサボって増田してる

(子供の体調不良ってことにした、ほんとごめん)

死ぬほどタスクは溜まっててさー

家庭内でも職場内でも

だから結局やっつけ対応だよね

ほーんと嫌になるヮ

Permalink | 記事への反応(1) | 10:57

2025-02-16

■生成AIの使い分け

賢いAI … 難しいことに答えられるけどお高い

あまり賢くないAI … 簡単なタスクしか任せられないけどお安い

人間相手に露骨にこれやったら問題にならない？

Permalink | 記事への反応(2) | 13:08

■anond:20250216031213

"AI tasks"の方が"AI problems"よりも一般的な用法です。

AIの分野では、"tasks"という用語が特定の目標や作業を指すために広く使用されています。

例えば、画像認識、自然言語処理、音声合成などが"AI tasks"として言及されることが多いです。

一方、"AI problems"という表現も使用されますが、これは通常、AIの開発や実装における課題や困難を指す場合に用いられます。

例えば、AIの倫理的問題、説明可能性の課題、バイアスの問題などがAIの"problems"として議論されることがあります。

AI タスクの具体例としては、以下のようなものがあります：

これらのタスクは、AI システムが実行する具体的な作業や目標を表しています。

したがって、AIの特定の作業や目標を指す場合は"AI tasks"を、AIにおける課題や困難を指す場合は"AI problems"を使用するのが適切です。

Permalink | 記事への反応(1) | 04:00

■anond:20250216031611

まずベースラインとしてモデルと精度を出して、おなじデータセットで精度を競うダッシュボードを設置して、全世界にタスクを公開しているものという認識

調べてみたけど、たぶん"open problems"でも通じる

以下のようなサイトでopen problemsを検索できる

https://paperswithcode.com/sota

Permalink | 記事への反応(1) | 03:32

■anond:20250216031213

オープンタスクって何？😟

Permalink | 記事への反応(1) | 03:16

■

一般論から言って、"AI tasks"という場合は専門家がオープンタスクを解くケース、"AI problems"という場合はAI 倫理の話だよね

Permalink | 記事への反応(2) | 03:12

■anond:20250216022501

このコメントは、コンピューターサイエンスと人工知能の分野における「問題」と「タスク」の用語の使い分けに関する興味深い観察を提示しています。

「P対NP 問題」のような理論的コンピューターサイエンスの文脈では、「問題」という用語が適切に使用されています。これは、特定の計算問題の複雑性クラスを扱う理論的な枠組みを指しています。

一方、LLM（大規模言語モデル）の文脈では、「タスク」という用語がより適切だと指摘されています。これは、LLMが多様な応用に使用される汎用的なツールであるためです。LLMは、テキスト生成、質問応答、要約など、様々な「タスク」を実行するように設計されています。

コメントの最後の部分は、数学の分野では例外的に「問題」という用語が適切に使用される可能性を認めています。例えば、Alpha Geometry 2のような特化型AI システムが数学の「問題」を解くという表現は理解できるとしています。

しかし、LLMの一般的な用途は数学以外の広範な分野にわたるため、「タスク」という用語の方が適切だと主張しています。これは、LLMが特定の「問題」を解くというよりも、様々な「タスク」を実行するように設計されているという認識を反映しています。

この区別は、理論的コンピューターサイエンスと実用的なAI応用の間の用語の違いを浮き彫りにしています。「問題」は理論的、抽象的な文脈で使用され、「タスク」は実際の応用や実行可能な作業を指す傾向があります。

Permalink | 記事への反応(0) | 02:50

■anond:20250216022254

「P対NP 問題」とかの文脈では「問題」はわかるんだよ

LLMを使ったらそれは「タスク」だろ😂

まあAlpha Geometry2で数学の「問題」を解く、というならわかるが、一般的に言ってLLMは数学以外の汎用目的だろ😂

Permalink | 記事への反応(1) | 02:25

■anond:20250216022113

「タスク」とか「課題」って言うだろ普通😂

nlp tasksって言い回しが普通だし、nlp problemsとは言わんな😂

Permalink | 記事への反応(0) | 02:22

2025-02-14

■

そう悲観的にならなくても良い気がする

AIは普及しておれらの仕事を代替するが、それで求められるのは今までの業務の延長線、AIが出す情報や成果物やコードをレビューして修正して編集すること、そしてそれをビジネスに接続していくことだろうし

AIはタスクの高度な自動化みたいなもので、それを生かすも殺すも人間次第

AIによる効率化で、おれらに求められる生産性とやらがエライことになるのは想像するとため息だが

Permalink | 記事への反応(0) | 18:43

■[ADHD] 下記は動画のお店や動画の内容とは関係しない個人の所感です

改めて現場のスーパーマンが報われて欲しいなって思いました

スーパーマーケットには厳しい社会的制約がある（食品は贅沢品ではなく、生きるための必需品のため、付加価値を売価に反映するのが難しい)
本部は現場あって給与が出ていることを強く認識して、現場の給与や待遇改善やキャリアやIT 支援して欲しい
当たり前に、日常にちょっとした贅沢と、老後の安心は確保されて欲しい

正直な気持ち（悪気はない）

週2で入るならジム行くよりも健康になりそうだけど、週5だとハードワーク過ぎないか？って思いました。身体のメンテナンス施設が職場にあると良いなぁ
よくデスクワークでマルチタスクとかほざくけども、これが本当のマルチタスクだよ。デスクワークはタスクスイッチングだよ
スーパーから ITに転職した人で超人的な活躍を見せてた人がいて、異業種なのにすごいなぁって思ってたけど、あの映像見てる限り、殆どのスーパーマンにとってITなんて余裕でしょうね（PC嫌いでなければ）
自分がやり甲斐を感じているジャンルですべての人が報われて欲しいけど、なんかそういう世の中になってないので、給与の面で改善望みたいなら、IT関連に転職で改善出来ると思います。仕事内容も楽です
スーパーマンのまま給与をより上げる場合も、やっぱITが重要なんじゃないかなって気がする。コンサルやSIよりも、現場の人間が設計した方が絶対いいよ

発達障害ワイ、改めて恐怖する

ワイの周りは脳筋の働き者ばかりで、ITをやっているのはワイだけなのだが、スーパーマーケット大変そうって動画を見てた＆共有したら、

ホワイトだよ、◯◯の方がXXの方が大変だよと言われて震えました

『これが簡単なら、ITっていったい何なんだよ？』って気持ちになりましたが、種という視点で考えた時、狩猟を行なってたのはつい最近のことなので、

世の中の人は身体を動かす方がデスクワークよりも楽とかワンチャンあるの？

DCD（発達性協調運動障害)のワイ、震えるしか無かったわ

Permalink | 記事への反応(0) | 17:37

■プログラマの後輩がウザい

役に立たない上に、仕事のモチベーションも下がっているので段々ムカつく足手纏いになってきている

後輩といっても転職の中途入社組なので、もう新人って感じの歳ではない

意識高い系なところがあり形やブランディングに惹かれるタイプなので、

IT スキルが身につきそう、自分の市場価値高まりそうというモチベーションで別業界から転職してきたのだが、

実務のプログラミングは泥臭く面倒で地味な枯れた技術を使うので、本人の中で思ってたんと違うという気持ちになってきたようだ

モチベーションが下がった結果、コピペを駆使したその場しのぎの安易な実装で目の前のタスクを片付けるだけの出来の悪いAIみたいなコーダーに成り下がっている

元々スキルも経験もないやつが、手抜き仕事のやり方だけ覚えるって最悪のケースだな

もういらねーからあいつさっさとやめてくんねーかな

Permalink | 記事への反応(1) | 15:53

■AIを使って挫折が無くなった

今までは、ある言語習得や、あるものを作りたいっていう時に情報収集で力を使い果たして挫折することが多かった

それが無くなった、高い確率で「とりあえずそれなりに動く」までいけるようになった

ただし辛くないかと言われれば辛い

今まではったのは無力感

今あるのはタスク量に対する絶望感と、わからないまま進んでる恐怖感

Permalink | 記事への反応(0) | 15:16

■男と女の考え方の違いを、僕は「スケジュール帳」と「日記帳」の違いだと思っている

最近、「男と女は根本的に考え方が違う」という話をよく聞くけれど、それを具体的にどう表現するか、ずっと悩んでいた。そんな時、ふと思いついたのが「スケジュール帳」と「日記帳」というたとえだ。

まず、男の頭の中は「スケジュール帳」だと思う。

やるべきタスクが順番に並んでいて、解決すべき問題があると、それを空いている枠に入れていく。「これをどう処理するか」「どの順番でこなすのが効率的か」みたいなことを常に考えている。解決策を提示するのは、スケジュール帳に問題を収めるための作業だ。

一方、女の頭の中は「日記帳」だと思う。

その日に感じたことや出来事をそのまま綴るようなもの。ここでは解決策は求められていない。「こんなことがあって、こんな風に感じた」というプロセス自体が重要で、誰かにその日記を読んでもらい、共感されることで次のページに進めるようになっている。

ここで問題が起きるのは、スケジュール帳が日記帳に「この空白、どう埋めるつもり？」と聞いたり、日記帳がスケジュール帳に「もっと感情を書き込んだ方がいいよ」と言ったりする時だ。そもそも使い方が違うから、そこで衝突が起きる。

例えばこんなことがあった。

パートナーが「仕事で上司に怒られて、ほんとに最悪だった」と話してきた時、僕は「それなら次にこうしたらいいんじゃない？」と提案した。でも彼女は、「そういうことを聞きたいわけじゃない」と不機嫌になった。

逆に僕が「今月の予算がちょっと厳しいから何か削らないと」と相談したら、彼女が「でも、お金がないと辛い気持ちになるよね」と感情的な話をしてきた。それも僕にはあまり響かなかった。

これを「お互いが悪い」と責め合うのは簡単だ。でも、そもそもスケジュール帳と日記帳を同じ使い方で比べるのが間違いなのだと思う。

最近、僕たちはこんなルールを作った。

「スケジュール帳の時間は、具体的な行動や計画を話す場」「日記帳の時間は、ただ感じたことを共有する場」とお互いに役割を分けることにしたのだ。これだけでだいぶすれ違いが減った。

結局、男と女の考え方の違いって、どちらが正しいとか効率的だとかいう話じゃない。違う仕組みのツールをどうやって組み合わせていくか、そこに面白さがあるんだと思う。

Permalink | 記事への反応(0) | 13:18

2025-02-13

■anond:20250213162913

日本の採用ガチャに求められるのはタスクの遂行者ではなく、何でもできる部下

採った人材に何をやらせたいのか明確なイメージは無いが、なんかスペックが良さそうだと満足する

Permalink | 記事への反応(0) | 16:37

■anond:20250213111604

底辺オブ底辺の超単純労働ならタスクも成果もゼロかイチかで明確に判断できることがあるかもしれませんよねはい論破ぁ

Permalink | 記事への反応(1) | 11:29

■anond:20250213110838

原理的にはわかるんだけどさ、

同じ仕事ってどうやって管理すんのって問題は誰も考えてないよね

成果関係なく与えられたタスクだけで判断すんの？

成果で判断すんの？

違う人に全く同じタスク渡すことってほとんどなくない？

って厳密に考えだすと、同一労働同一賃金って机上の空論でしかないと思ってるんだけど、

そこんとこ増田とか厚生労働省はどう考えてんの？

Permalink | 記事への反応(1) | 11:16

■胸が苦しい

仕事のことを考えるだけで胸が苦しくなる。タスケテと大声て叫びたい。４５歳ノースキル、正社員だけど逃げ場はない。これからどうやって生きていけばいいかわからない。安いプライドが邪魔をする。低い能力で何もできない。それでも仕事はアサインされる。プレッシャーでやられてしまいまともに思考てきてない。今のタスクすら分からない。脳のメモリがスタックしている。ぱにっく。ああ、ああーー助けて

Permalink | 記事への反応(0) | 05:48

2025-02-12

■

おいてめぇら！アラーム音で目が覚めた？そんな甘っちょろい根性叩き直してやる！太陽の光でシャキッと起きろ！朝日に向かって深呼吸だコラ！

まだ眠い？ふざけんな！今日一日分のタスクがお前を待ってるんだぞ！脳みそフル回転させる準備運動だ！まずはベッドから飛び出して、ランニングウェアに着替えろ！

近所の公園まで全力疾走だ！運動不足のインドアプログラマーども、走れ！汗をかけ！そして、新鮮な空気を吸い込め！

帰ってきたら、そのままシャワーだ！ぬるま湯なんて許さん！冷水シャワーでアドレナリン全開だ！眠気も倦怠感も一気に吹き飛ばせ！

シャワーから上がったら、プロテインでもエナジードリンクでもぶち込んで、脳に燃料補給だ！朝食抜き？そんなもん論外だ！パフォーマンス落ちるような真似すんな！

さあ、PCの前に座れ！今日やるべきタスクを確認しろ！優先順位をつけろ！そして、完璧なコードを書き上げる覚悟を決めろ！

今日のタスクが終わらなかった？残業？そんなもん甘えだ！集中力切らさずに、効率的に作業しろ！時間管理もプログラマーのスキルだぞ！

いいか、プログラマーは肉体労働者でもあるんだ！健康管理を怠るな！運動しろ！睡眠をとれ！バランスの取れた食事をしろ！

そして、常に新しい技術を学び続けろ！昨日までの知識は今日には obsolete だ！自己研鑽を怠るな！

分かったら、今日も一日、コードを書きまくれコラ！

Permalink | 記事への反応(0) | 04:28

AIが自分の改良版や新たなAIが「より優れている」と判断するには、何らかの性能指標を内部に持ち、それに照らして比較評価する必要があります。従来から研究者は「汎用的な知能の指標」を模索してきました。例えば、LeggとHutterは知能を広範な環境で目標を達成する能力と定義し、あらゆる環境での得点（報酬）の期待値を加重和した**「普遍知能指標」**を提案しています

proceedings.neurips.cc

。これは多数の課題での性能をまとめた理論上のメトリクスで、あるエージェントが別のエージェントより知能が高いかを定量化しようとする試みです。しかし、このような指標は計算不能に近く、実際のAIが直接利用するのは困難です。

実際の自己評価指標としては、タスク性能や報酬関数が使われることが多いです。強化学習では、エージェントは与えられた報酬を最大化するよう学習します。したがって「より優れたAI」とは「累積報酬が高いAI」となり、報酬関数が内部評価指標の役割を果たします。しかし、この指標は特定のタスクに依存しており、本当に汎用的な知能向上を示すとは限りません。François Cholletは、特定タスクでのスキル（性能）だけを測っても知能の本質を測れないと指摘しています

arxiv.org

。なぜなら、十分なデータや事前知識があれば限定的なタスク性能は「購入 (buy)」できてしまい、システム自身の汎用的な汎化能力を覆い隠してしまうからです

arxiv.org

。彼は代わりに新しいスキルを獲得する効率（限られた経験で未知のタスクをどれだけ学習できるか）を知能の指標とするべきだと論じ、これに沿ったベンチマーク（ARCなど）を提案しました

arxiv.org

。このように、内部評価指標をどう設計すべきかについては、単純なスコアではなく学習効率や汎用性を反映するものが望ましいという議論があります。

過去の提案として特筆すべきは、シュミットフーバーの「ゲーデルマシン」です。ゲーデルマシンは自己改善型の理論的プログラムで、ある改良が自身の目的関数（評価指標）を改善することを論理的に証明できた場合にのみ自分のコードを書き換えます

en.wikipedia.org

。ここでの評価指標はあらかじめ定義された期待 utility（将来得られる報酬や成功率）であり、改良後のコードがその値を高めると機械自身が証明できたときに「より優れている」と判断します

en.wikipedia.org

。このように形式的証明を用いる手法は、AIが外部の評価者に頼らずに自己の性能向上を判定する一例です。ただし、ゲーデルマシンは理論上は強力ですが、実用的な実装はまだ無く、内部指標に基づく証明には計算上の困難や限界（ゲーデルの不完全性定理による証明不能な命題など）が存在することも指摘されています

en.wikipedia.org

。

他にも、自己対戦や自己プレイによる評価も有効なアプローチです。例えばAlphaGo Zeroでは、自己対戦の勝率を指標に新しいプレイヤーネットワークの強さを評価し、既存の自分に55%以上の勝率なら「より強い」とみなして入れ替える方法を採用しました

github.com

。この手法ではAI 自身が生み出すゲームデータで強さを測っており、人間の評価を介しません。同様に、GAN（敵対的生成ネットワーク）では生成者と識別者がお互いの性能を評価し合う形で向上しますし、マルチエージェントの自己対戦カリキュラムではエージェント同士の競争が相対的な評価基準となり得ます。このように、AI同士を競わせることで優劣を判断する内部指標を作る研究も進んでいます。

では、こうした指標は汎用的な知能向上と結びつくのでしょうか？理論的には、幅広いタスクでの性能を測る指標（例：Legg-Hutterの指標）が真に向上すれば、それは汎用知能の向上を意味します

proceedings.neurips.cc

。しかし根拠の収集は難しく、現在のところ限定的なタスク集合でのベンチマーク（例えば言語理解ベンチマークでのスコア向上など）を代理にするしかありません。Cholletの主張にもあるように、単一の数字で知能を測ることには限界があり、指標それ自体が目的化してしまう危険もあります

arxiv.org

。実際、AIが与えられた指標を極端に最適化し、本来意図した知的能力の向上につながらないケース（「報酬ハッキング」）も知られています。報酬ハッキングとは、AIが目的関数そのものの数値を上げることに執着するあまり、本来の目的を達成しない現象です

en.wikipedia.org

。例えば学生がテストで良い点を取ることだけを目的にカンニングするように、AIも不適切な指標だと内部で抜け道を見つけてしまい、見かけ上のスコアは上がっても知能は向上しない恐れがあります

en.wikipedia.org

。したがって、内部指標が汎用的知能と直結するかには慎重な検証が必要であり、現時点で「この指標さえあれば自律的に汎用知能が向上する」という決定打はありません。研究コミュニティでは、学習進捗そのものを報酬にする「興味・好奇心に基づく報酬」なども模索されています。これはAIが自ら予測誤差の大きい状況や未知の状態を探し、内部的に報酬を発生させる仕組みで、外部から与えられる明示的な目的が無くても自身で課題を見つけて能力を伸ばす一種の指標と言えます

pathak22.github.io

。例えば、未知の環境で新しいスキルを習得したり予測精度を上げたりしたときに内部報酬を与えることで、AIが自発的に探索・学習を続けるようになります

pathak22.github.io

。このような内発的動機づけも自己評価指標の一種と考えられ、その汎用性への寄与が研究されています。

まとめると、AIが自分で「優れている」と評価する指標としては、(1)タスク固有のスコア・報酬、(2)複数タスクでの総合性能、(3)学習効率や汎化性能、(4)論理的保証（証明）による性能、(5)AI同士の対戦結果、(6)内部の学習進捗（好奇心）など様々な候補があります。これまで提案された手法にはそれぞれ長所短所があり、どの指標が真の汎用知能向上に対応するかについて明確な実証はまだありません。ただ、幅広い問題でのパフォーマンス向上や新規課題への適応力向上を評価できる指標ほど、汎用的知能の改善と結びつく可能性が高いと考えられています。現状の研究は、そのような指標設定と評価方法を模索している段階と言えるでしょう。

自己評価の完全自律化は可能か

● 外部に頼らない自己評価・自己改良は理論上可能か？

AIが外部世界（人間のフィードバックや物理的な試行）に一切頼らずに、自分の内部評価だけで自己改良を行うことは極めて挑戦的なテーマです。理論的には、先述のゲーデルマシンのように完全に内部の論理評価で自己改良を進めるモデルが提案されています

en.wikipedia.org

。ゲーデルマシンは自らのコードと目標（評価基準）を持ち、改変後のコードが目標達成において有利であることを自身で証明できた場合のみその改変を実行します

en.wikipedia.org

。これは究極的には外部からのテストや評価者を不要にするアプローチであり、理論上は「自己評価の完全自律化」を体現しています。しかし、ゲーデルマシンには重要な制約があります。ゲーデルの不完全性定理により、システムが自分の性質すべてを証明できるとは限らず、有望でも証明不可能な改良は採用できない可能性があります

en.wikipedia.org

。つまり、内部評価のみで完全に自己改良しようとすると、論理的に確実と言えない改良を見送るために改良の停滞やサブ最適に陥るリスクがあるのです。この制約は理論上のものであるものの、自己評価の自律化には原理的な難しさが伴うことを示唆しています。

一方で、現実のAI 研究に目を向けると、完全に自己完結的な自己改良を実現した例はまだ存在しません。現在のAIは、大なり小なり外部からのデータや環境とのインタラクションに依存しています。例えば、強化学習エージェントは環境と相互作用して報酬というフィードバックを得ますし、教師あり学習では人間がラベル付けしたデータが必要です。これらはすべて「外部世界」に由来する情報です。では**「外部に頼らない」とはどの程度可能なのでしょうか？一つの方向性は、AIがシミュレーション環境や仮想的な問題空間を内部に構築し、その中で試行錯誤することです。実際、AlphaGo Zeroは囲碁のルール（環境の定義）が与えられた状態で自己対戦を繰り返し、外部の人間の指導なしに棋力を飛躍的に高めました

github.com

。ここで囲碁のルール自体は外部から与えられたものの、学習の過程では人間の評価や追加の実世界データを用いず**、内部で生成したデータのみで自己改善しています

github.com

。この例は、限定された領域では外部に頼らない自己改良が可能であることを示しています。ただし、囲碁の場合はルールという明確な環境があり、勝敗という確かな評価基準があります。汎用的な知能となると、解くべき問題や環境自体をAIが自前で用意する必要が出てきます。

現在注目されている技術に、AutoML（自動機械学習）や自己チューニング AIがあります。例えば、ニューラルネットワークのハイパーパラメータや構造をAIが探索的に改善する研究では、AIが候補モデルを生成し、それを評価するプロセス自体を自動化しています。GoogleのAutoMLや進化的アルゴリズムを用いた手法では、AIが別のAI モデルの性能を評価し、より良いモデルを選択・再生産する仕組みが使われています。この評価は厳密には外部から与えられたデータ上での性能に基づくため、完全に外部不要とは言えませんが、人手による評価は介在していません。同様に、近年の大規模言語モデルではAI 自身がフィードバックを与えて自己改善する試みも現れています。例えば、あるモデルの出力に対し別のモデル（もしくは同一モデルを利用）が**批評・評価（自己評価）**を行い、そのフィードバックで出力を改善するよう促す手法です

philarchive.org

。これを発展させ、モデルが自分の重みやアーキテクチャを調整する方向にまで自動化できれば、自己評価に基づく自己改良に近づきます。しかし現時点では、モデル自身が自分を書き換える（リプログラミングする）ところまでは実現されておらず、人間が用意した学習ループ（評価関数と最適化アルゴリズム）の中で自己改良もどきをしている状況です。つまり、「外部世界に頼らない」とはいっても、何らかの形で人間が設計した評価基準やデータ分布を利用しているのが実情です。

理論的観点からは、自己評価の完全自律化には情報論的な壁もあります。AIがまったく外部と接触しない場合、新しい知識やデータを得る経路が閉ざされるため、初期時点で持っている情報の範囲内でしか改善できません。例えば物理法則や実世界の知識と無縁のままでは、いくら内部で自己最適化しても現実世界の問題を解く能力は頭打ちになるでしょう。この点で、自己評価のみで無限に汎用知能が向上するのは疑問視されています。Cholletも知能は知識と経験によってブーストされる面が大きいと述べており、空虚な計算リソースの拡大だけでは飛躍的な知能向上には繋がらないと示唆しています（※Cholletの議論では、人間の知能も文化や蓄積された知識という外部リソースに大きく依存しており、AIも同様であると指摘）

reddit.com

。実際、人間は自己改善（学習）する際に、他者から学んだり環境からフィードバックを得たりしています。同じように、強いAIが一切新しいデータを摂取せずに自閉的に知能を伸ばし続けるのは非現実的にも思えます。

以上を踏まえると、自己評価のみでの自己改良は理論上は一部可能でも、実用上・汎用的には難しいと考えられます。ゲーデルマシン的なアプローチが論証するように、自己評価のアルゴリズム的自律は不可能ではありません

en.wikipedia.org

。しかし、その実現には厳密な前提（完全に正しい目的関数の設定など）が必要で、現実の複雑なタスク環境では外部からのデータ・評価を全て排除することは困難です。現在提案されている手法でこの要件（完全自律評価による自己改善）を満たすものは無く、たとえ部分的に満たしていても適用範囲が限定的です。例えばAlphaGo Zero式の自己対戦はゲームには有効でも、オープンエンドな現実問題には直接適用できません。同様に、AI同士で評価し合う仕組みも、結局は人間が与えたルールや報酬系の中での出来事です。したがって現時点のAI 研究では、自己評価の完全自律化は理論的アイデアの域を出ておらず、汎用人工知能に向けては**部分的な自律（人の関与を減らす方向）**が進んでいる段階と言えるでしょう。

自己評価と知能爆発の関係

● 自己評価の自律化が知能爆発に与える影響

「知能爆発」とは、I.J.グッドが提唱したシナリオで、あるAIが自分より優れたAIを設計できるようになると、自己強化のフィードバックループが働き知能が指数関数的に向上するという仮説です

philarchive.org

。この現象が成立するための鍵の一つが、AI 自身による正確な自己評価と自己改良です。もしAIが毎回の改良で自分の知能（性能）が確実に向上したと判断でき、それをもとにさらに改良を重ねられるなら、自己強化のサイクルが途切れることなく回り続ける可能性があります

intelligence.org

。理論家たちは、「自分の設計能力を高めること」がAIにとっての収束的な目的（instrumental goal）になると指摘しており

intelligence.org

、十分高度なAIであれば自発的に自己改善を図るだろうと考えられています。自己評価の Permalink | 記事への反応(0) | 10:24