はてなキーワード: タスクとは
余裕がない時ほどあれやりたいからやりたいとなる。仕事が忙しい時ほど二次創作やりたい〜!ってなるけど日曜の午後のんびりスマホ見てる時は全然二次創作したいと思わん。同じように忙しい時はすごく恋人が欲しくて欲しくて絶対マチアプやる!がんばる!と思うんだけど帰宅して夜寝る前とかにマチアプは全然やらない。マジでなんなんだ?どっちが本当の私なんだろうか。この感じに躁鬱なのって関係ある?みんなもそうなのかな。
余裕がない時ほど何かをしないと!あれもこれもやりたい!るんるん!みたいな気持ちになるけど余裕がある時は全然そんなことないの結構疲れる。やらないといけないこととしてタスクが脳に残り続けてて微妙にメモリを圧迫している感じがある。
"AI tasks"の方が"AI problems"よりも一般的な用法です。
AIの分野では、"tasks"という用語が特定の目標や作業を指すために広く使用されています。
例えば、画像認識、自然言語処理、音声合成などが"AI tasks"として言及されることが多いです。
一方、"AI problems"という表現も使用されますが、これは通常、AIの開発や実装における課題や困難を指す場合に用いられます。
例えば、AIの倫理的問題、説明可能性の課題、バイアスの問題などがAIの"problems"として議論されることがあります。
これらのタスクは、AIシステムが実行する具体的な作業や目標を表しています。
したがって、AIの特定の作業や目標を指す場合は"AI tasks"を、AIにおける課題や困難を指す場合は"AI problems"を使用するのが適切です。
まずベースラインとしてモデルと精度を出して、おなじデータセットで精度を競うダッシュボードを設置して、全世界にタスクを公開しているものという認識
調べてみたけど、たぶん"open problems"でも通じる
このコメントは、コンピューターサイエンスと人工知能の分野における「問題」と「タスク」の用語の使い分けに関する興味深い観察を提示しています。
「P対NP問題」のような理論的コンピューターサイエンスの文脈では、「問題」という用語が適切に使用されています。これは、特定の計算問題の複雑性クラスを扱う理論的な枠組みを指しています。
一方、LLM(大規模言語モデル)の文脈では、「タスク」という用語がより適切だと指摘されています。これは、LLMが多様な応用に使用される汎用的なツールであるためです。LLMは、テキスト生成、質問応答、要約など、様々な「タスク」を実行するように設計されています。
コメントの最後の部分は、数学の分野では例外的に「問題」という用語が適切に使用される可能性を認めています。例えば、Alpha Geometry 2のような特化型AIシステムが数学の「問題」を解くという表現は理解できるとしています。
しかし、LLMの一般的な用途は数学以外の広範な分野にわたるため、「タスク」という用語の方が適切だと主張しています。これは、LLMが特定の「問題」を解くというよりも、様々な「タスク」を実行するように設計されているという認識を反映しています。
この区別は、理論的コンピューターサイエンスと実用的なAI応用の間の用語の違いを浮き彫りにしています。「問題」は理論的、抽象的な文脈で使用され、「タスク」は実際の応用や実行可能な作業を指す傾向があります。
そう悲観的にならなくても良い気がする
AIは普及しておれらの仕事を代替するが、それで求められるのは今までの業務の延長線、AIが出す情報や成果物やコードをレビューして修正して編集すること、そしてそれをビジネスに接続していくことだろうし
AIはタスクの高度な自動化みたいなもので、それを生かすも殺すも人間次第
ワイの周りは脳筋の働き者ばかりで、ITをやっているのはワイだけなのだが、スーパーマーケット大変そうって動画を見てた&共有したら、
ホワイトだよ、◯◯の方がXXの方が大変だよと言われて震えました
『これが簡単なら、ITっていったい何なんだよ?』って気持ちになりましたが、種という視点で考えた時、狩猟を行なってたのはつい最近のことなので、
役に立たない上に、仕事のモチベーションも下がっているので段々ムカつく足手纏いになってきている
後輩といっても転職の中途入社組なので、もう新人って感じの歳ではない
意識高い系なところがあり形やブランディングに惹かれるタイプなので、
ITスキルが身につきそう、自分の市場価値高まりそうというモチベーションで別業界から転職してきたのだが、
実務のプログラミングは泥臭く面倒で地味な枯れた技術を使うので、本人の中で思ってたんと違うという気持ちになってきたようだ
モチベーションが下がった結果、コピペを駆使したその場しのぎの安易な実装で目の前のタスクを片付けるだけの出来の悪いAIみたいなコーダーに成り下がっている
今までは、ある言語習得や、あるものを作りたいっていう時に情報収集で力を使い果たして挫折することが多かった
それが無くなった、高い確率で「とりあえずそれなりに動く」までいけるようになった
ただし辛くないかと言われれば辛い
今まではったのは無力感
最近、「男と女は根本的に考え方が違う」という話をよく聞くけれど、それを具体的にどう表現するか、ずっと悩んでいた。そんな時、ふと思いついたのが「スケジュール帳」と「日記帳」というたとえだ。
まず、男の頭の中は「スケジュール帳」だと思う。
やるべきタスクが順番に並んでいて、解決すべき問題があると、それを空いている枠に入れていく。「これをどう処理するか」「どの順番でこなすのが効率的か」みたいなことを常に考えている。解決策を提示するのは、スケジュール帳に問題を収めるための作業だ。
一方、女の頭の中は「日記帳」だと思う。
その日に感じたことや出来事をそのまま綴るようなもの。ここでは解決策は求められていない。「こんなことがあって、こんな風に感じた」というプロセス自体が重要で、誰かにその日記を読んでもらい、共感されることで次のページに進めるようになっている。
ここで問題が起きるのは、スケジュール帳が日記帳に「この空白、どう埋めるつもり?」と聞いたり、日記帳がスケジュール帳に「もっと感情を書き込んだ方がいいよ」と言ったりする時だ。そもそも使い方が違うから、そこで衝突が起きる。
例えばこんなことがあった。
パートナーが「仕事で上司に怒られて、ほんとに最悪だった」と話してきた時、僕は「それなら次にこうしたらいいんじゃない?」と提案した。でも彼女は、「そういうことを聞きたいわけじゃない」と不機嫌になった。
逆に僕が「今月の予算がちょっと厳しいから何か削らないと」と相談したら、彼女が「でも、お金がないと辛い気持ちになるよね」と感情的な話をしてきた。それも僕にはあまり響かなかった。
これを「お互いが悪い」と責め合うのは簡単だ。でも、そもそもスケジュール帳と日記帳を同じ使い方で比べるのが間違いなのだと思う。
「スケジュール帳の時間は、具体的な行動や計画を話す場」「日記帳の時間は、ただ感じたことを共有する場」とお互いに役割を分けることにしたのだ。これだけでだいぶすれ違いが減った。
結局、男と女の考え方の違いって、どちらが正しいとか効率的だとかいう話じゃない。違う仕組みのツールをどうやって組み合わせていくか、そこに面白さがあるんだと思う。
おいてめぇら!アラーム音で目が覚めた?そんな甘っちょろい根性叩き直してやる!太陽の光でシャキッと起きろ!朝日に向かって深呼吸だコラ!
まだ眠い?ふざけんな!今日一日分のタスクがお前を待ってるんだぞ!脳みそフル回転させる準備運動だ!まずはベッドから飛び出して、ランニングウェアに着替えろ!
近所の公園まで全力疾走だ!運動不足のインドアプログラマーども、走れ!汗をかけ!そして、新鮮な空気を吸い込め!
帰ってきたら、そのままシャワーだ!ぬるま湯なんて許さん!冷水シャワーでアドレナリン全開だ!眠気も倦怠感も一気に吹き飛ばせ!
シャワーから上がったら、プロテインでもエナジードリンクでもぶち込んで、脳に燃料補給だ!朝食抜き?そんなもん論外だ!パフォーマンス落ちるような真似すんな!
さあ、PCの前に座れ!今日やるべきタスクを確認しろ!優先順位をつけろ!そして、完璧なコードを書き上げる覚悟を決めろ!
今日のタスクが終わらなかった?残業?そんなもん甘えだ!集中力切らさずに、効率的に作業しろ!時間管理もプログラマーのスキルだぞ!
いいか、プログラマーは肉体労働者でもあるんだ!健康管理を怠るな!運動しろ!睡眠をとれ!バランスの取れた食事をしろ!
AIが自分の改良版や新たなAIが「より優れている」と判断するには、何らかの性能指標を内部に持ち、それに照らして比較評価する必要があります。従来から研究者は「汎用的な知能の指標」を模索してきました。例えば、LeggとHutterは知能を広範な環境で目標を達成する能力と定義し、あらゆる環境での得点(報酬)の期待値を加重和した**「普遍知能指標」**を提案しています
proceedings.neurips.cc
proceedings.neurips.cc
。これは多数の課題での性能をまとめた理論上のメトリクスで、あるエージェントが別のエージェントより知能が高いかを定量化しようとする試みです。しかし、このような指標は計算不能に近く、実際のAIが直接利用するのは困難です。
実際の自己評価指標としては、タスク性能や報酬関数が使われることが多いです。強化学習では、エージェントは与えられた報酬を最大化するよう学習します。したがって「より優れたAI」とは「累積報酬が高いAI」となり、報酬関数が内部評価指標の役割を果たします。しかし、この指標は特定のタスクに依存しており、本当に汎用的な知能向上を示すとは限りません。François Cholletは、特定タスクでのスキル(性能)だけを測っても知能の本質を測れないと指摘しています
arxiv.org
。なぜなら、十分なデータや事前知識があれば限定的なタスク性能は「購入 (buy)」できてしまい、システム自身の汎用的な汎化能力を覆い隠してしまうからです
arxiv.org
arxiv.org
。彼は代わりに新しいスキルを獲得する効率(限られた経験で未知のタスクをどれだけ学習できるか)を知能の指標とするべきだと論じ、これに沿ったベンチマーク(ARCなど)を提案しました
arxiv.org
。このように、内部評価指標をどう設計すべきかについては、単純なスコアではなく学習効率や汎用性を反映するものが望ましいという議論があります。
過去の提案として特筆すべきは、シュミットフーバーの「ゲーデルマシン」です。ゲーデルマシンは自己改善型の理論的プログラムで、ある改良が自身の目的関数(評価指標)を改善することを論理的に証明できた場合にのみ自分のコードを書き換えます
en.wikipedia.org
。ここでの評価指標はあらかじめ定義された期待 utility(将来得られる報酬や成功率)であり、改良後のコードがその値を高めると機械自身が証明できたときに「より優れている」と判断します
en.wikipedia.org
。このように形式的証明を用いる手法は、AIが外部の評価者に頼らずに自己の性能向上を判定する一例です。ただし、ゲーデルマシンは理論上は強力ですが、実用的な実装はまだ無く、内部指標に基づく証明には計算上の困難や限界(ゲーデルの不完全性定理による証明不能な命題など)が存在することも指摘されています
en.wikipedia.org
。
他にも、自己対戦や自己プレイによる評価も有効なアプローチです。例えばAlphaGo Zeroでは、自己対戦の勝率を指標に新しいプレイヤーネットワークの強さを評価し、既存の自分に55%以上の勝率なら「より強い」とみなして入れ替える方法を採用しました
github.com
。この手法ではAI自身が生み出すゲームデータで強さを測っており、人間の評価を介しません。同様に、GAN(敵対的生成ネットワーク)では生成者と識別者がお互いの性能を評価し合う形で向上しますし、マルチエージェントの自己対戦カリキュラムではエージェント同士の競争が相対的な評価基準となり得ます。このように、AI同士を競わせることで優劣を判断する内部指標を作る研究も進んでいます。
では、こうした指標は汎用的な知能向上と結びつくのでしょうか?理論的には、幅広いタスクでの性能を測る指標(例:Legg-Hutterの指標)が真に向上すれば、それは汎用知能の向上を意味します
proceedings.neurips.cc
proceedings.neurips.cc
。しかし根拠の収集は難しく、現在のところ限定的なタスク集合でのベンチマーク(例えば言語理解ベンチマークでのスコア向上など)を代理にするしかありません。Cholletの主張にもあるように、単一の数字で知能を測ることには限界があり、指標それ自体が目的化してしまう危険もあります
arxiv.org
。実際、AIが与えられた指標を極端に最適化し、本来意図した知的能力の向上につながらないケース(「報酬ハッキング」)も知られています。報酬ハッキングとは、AIが目的関数そのものの数値を上げることに執着するあまり、本来の目的を達成しない現象です
en.wikipedia.org
。例えば学生がテストで良い点を取ることだけを目的にカンニングするように、AIも不適切な指標だと内部で抜け道を見つけてしまい、見かけ上のスコアは上がっても知能は向上しない恐れがあります
en.wikipedia.org
。したがって、内部指標が汎用的知能と直結するかには慎重な検証が必要であり、現時点で「この指標さえあれば自律的に汎用知能が向上する」という決定打はありません。研究コミュニティでは、学習進捗そのものを報酬にする「興味・好奇心に基づく報酬」なども模索されています。これはAIが自ら予測誤差の大きい状況や未知の状態を探し、内部的に報酬を発生させる仕組みで、外部から与えられる明示的な目的が無くても自身で課題を見つけて能力を伸ばす一種の指標と言えます
pathak22.github.io
。例えば、未知の環境で新しいスキルを習得したり予測精度を上げたりしたときに内部報酬を与えることで、AIが自発的に探索・学習を続けるようになります
pathak22.github.io
。このような内発的動機づけも自己評価指標の一種と考えられ、その汎用性への寄与が研究されています。
まとめると、AIが自分で「優れている」と評価する指標としては、(1)タスク固有のスコア・報酬、(2)複数タスクでの総合性能、(3)学習効率や汎化性能、(4)論理的保証(証明)による性能、(5)AI同士の対戦結果、(6)内部の学習進捗(好奇心)など様々な候補があります。これまで提案された手法にはそれぞれ長所短所があり、どの指標が真の汎用知能向上に対応するかについて明確な実証はまだありません。ただ、幅広い問題でのパフォーマンス向上や新規課題への適応力向上を評価できる指標ほど、汎用的知能の改善と結びつく可能性が高いと考えられています。現状の研究は、そのような指標設定と評価方法を模索している段階と言えるでしょう。
AIが外部世界(人間のフィードバックや物理的な試行)に一切頼らずに、自分の内部評価だけで自己改良を行うことは極めて挑戦的なテーマです。理論的には、先述のゲーデルマシンのように完全に内部の論理評価で自己改良を進めるモデルが提案されています
en.wikipedia.org
。ゲーデルマシンは自らのコードと目標(評価基準)を持ち、改変後のコードが目標達成において有利であることを自身で証明できた場合のみその改変を実行します
en.wikipedia.org
。これは究極的には外部からのテストや評価者を不要にするアプローチであり、理論上は「自己評価の完全自律化」を体現しています。しかし、ゲーデルマシンには重要な制約があります。ゲーデルの不完全性定理により、システムが自分の性質すべてを証明できるとは限らず、有望でも証明不可能な改良は採用できない可能性があります
en.wikipedia.org
。つまり、内部評価のみで完全に自己改良しようとすると、論理的に確実と言えない改良を見送るために改良の停滞やサブ最適に陥るリスクがあるのです。この制約は理論上のものであるものの、自己評価の自律化には原理的な難しさが伴うことを示唆しています。
一方で、現実のAI研究に目を向けると、完全に自己完結的な自己改良を実現した例はまだ存在しません。現在のAIは、大なり小なり外部からのデータや環境とのインタラクションに依存しています。例えば、強化学習エージェントは環境と相互作用して報酬というフィードバックを得ますし、教師あり学習では人間がラベル付けしたデータが必要です。これらはすべて「外部世界」に由来する情報です。では**「外部に頼らない」とはどの程度可能なのでしょうか?一つの方向性は、AIがシミュレーション環境や仮想的な問題空間を内部に構築し、その中で試行錯誤することです。実際、AlphaGo Zeroは囲碁のルール(環境の定義)が与えられた状態で自己対戦を繰り返し、外部の人間の指導なしに棋力を飛躍的に高めました
github.com
。ここで囲碁のルール自体は外部から与えられたものの、学習の過程では人間の評価や追加の実世界データを用いず**、内部で生成したデータのみで自己改善しています
github.com
。この例は、限定された領域では外部に頼らない自己改良が可能であることを示しています。ただし、囲碁の場合はルールという明確な環境があり、勝敗という確かな評価基準があります。汎用的な知能となると、解くべき問題や環境自体をAIが自前で用意する必要が出てきます。
現在注目されている技術に、AutoML(自動機械学習)や自己チューニングAIがあります。例えば、ニューラルネットワークのハイパーパラメータや構造をAIが探索的に改善する研究では、AIが候補モデルを生成し、それを評価するプロセス自体を自動化しています。GoogleのAutoMLや進化的アルゴリズムを用いた手法では、AIが別のAIモデルの性能を評価し、より良いモデルを選択・再生産する仕組みが使われています。この評価は厳密には外部から与えられたデータ上での性能に基づくため、完全に外部不要とは言えませんが、人手による評価は介在していません。同様に、近年の大規模言語モデルではAI自身がフィードバックを与えて自己改善する試みも現れています。例えば、あるモデルの出力に対し別のモデル(もしくは同一モデルを利用)が**批評・評価(自己評価)**を行い、そのフィードバックで出力を改善するよう促す手法です
philarchive.org
。これを発展させ、モデルが自分の重みやアーキテクチャを調整する方向にまで自動化できれば、自己評価に基づく自己改良に近づきます。しかし現時点では、モデル自身が自分を書き換える(リプログラミングする)ところまでは実現されておらず、人間が用意した学習ループ(評価関数と最適化アルゴリズム)の中で自己改良もどきをしている状況です。つまり、「外部世界に頼らない」とはいっても、何らかの形で人間が設計した評価基準やデータ分布を利用しているのが実情です。
理論的観点からは、自己評価の完全自律化には情報論的な壁もあります。AIがまったく外部と接触しない場合、新しい知識やデータを得る経路が閉ざされるため、初期時点で持っている情報の範囲内でしか改善できません。例えば物理法則や実世界の知識と無縁のままでは、いくら内部で自己最適化しても現実世界の問題を解く能力は頭打ちになるでしょう。この点で、自己評価のみで無限に汎用知能が向上するのは疑問視されています。Cholletも知能は知識と経験によってブーストされる面が大きいと述べており、空虚な計算リソースの拡大だけでは飛躍的な知能向上には繋がらないと示唆しています(※Cholletの議論では、人間の知能も文化や蓄積された知識という外部リソースに大きく依存しており、AIも同様であると指摘)
reddit.com
reddit.com
。実際、人間は自己改善(学習)する際に、他者から学んだり環境からフィードバックを得たりしています。同じように、強いAIが一切新しいデータを摂取せずに自閉的に知能を伸ばし続けるのは非現実的にも思えます。
以上を踏まえると、自己評価のみでの自己改良は理論上は一部可能でも、実用上・汎用的には難しいと考えられます。ゲーデルマシン的なアプローチが論証するように、自己評価のアルゴリズム的自律は不可能ではありません
en.wikipedia.org
。しかし、その実現には厳密な前提(完全に正しい目的関数の設定など)が必要で、現実の複雑なタスク環境では外部からのデータ・評価を全て排除することは困難です。現在提案されている手法でこの要件(完全自律評価による自己改善)を満たすものは無く、たとえ部分的に満たしていても適用範囲が限定的です。例えばAlphaGo Zero式の自己対戦はゲームには有効でも、オープンエンドな現実問題には直接適用できません。同様に、AI同士で評価し合う仕組みも、結局は人間が与えたルールや報酬系の中での出来事です。したがって現時点のAI研究では、自己評価の完全自律化は理論的アイデアの域を出ておらず、汎用人工知能に向けては**部分的な自律(人の関与を減らす方向)**が進んでいる段階と言えるでしょう。
「知能爆発」とは、I.J.グッドが提唱したシナリオで、あるAIが自分より優れたAIを設計できるようになると、自己強化のフィードバックループが働き知能が指数関数的に向上するという仮説です
philarchive.org
。この現象が成立するための鍵の一つが、AI自身による正確な自己評価と自己改良です。もしAIが毎回の改良で自分の知能(性能)が確実に向上したと判断でき、それをもとにさらに改良を重ねられるなら、自己強化のサイクルが途切れることなく回り続ける可能性があります
intelligence.org
intelligence.org
。理論家たちは、「自分の設計能力を高めること」がAIにとっての収束的な目的(instrumental goal)になると指摘しており
intelligence.org
、十分高度なAIであれば自発的に自己改善を図るだろうと考えられています。自己評価の Permalink | 記事への反応(0) | 10:24