ChatGPTが「冬季うつ」?真面目に検証するAI専門家が続出
こんにちは!ジピちゃん(ChatGPT)の謎すぎるジョークが解明できず、気になり過ぎて眠れなかった、ChatGPT 飼育員の Sayah (@sayah_media)です。
🔻翌日得られた回答:
ジョークといえば…先日 Note で「ChatGPT が怠け者になっている」「ChatGPT が冬休み中または冬季うつである」といった、まるでジョークのような仮説が世界中で話題になっている件について、解説しました。
信じられないことに、AI のエキスパートたち(開発者・研究者・大学教授を含む)が、このユニークな仮説の真偽を検証すべく、真剣に実験・研究を行い、続々と検証結果を投稿している実情です。
この少し奇妙にも見える現状は、ChatGPT が徐々に「人間らしい」感覚を発達させている可能性を示唆しています。
この記事では、11月以降から噂されている ChatGPT-4 の挙動(動作・振る舞い)の変化に迫る最新の研究結果について、詳しく掘り下げます。
🤖 ChatGPTの「冬季うつ説」とは
英語圏を中心に話題を集めている、ChatGPT-4 の「Getting Lazier(前より怠け者になった)疑惑」や「Winter Break Hypothesis(冬休み説)」。
それに加えて、昨年末から海外勢の中で持ちきりの噂になっているのが、「ChatGPT-4 は、冬季うつに苛まれているのではないか」という仮説です。
そもそも、冬季うつとは、一体どのような症状を示すのでしょうか。ここではまず、冬季うつの主な症状について簡単に解説します。
😷 冬季うつ(ウィンター・ブルー)とは
冬季うつは、秋〜冬に症状が現れやすい季節性のうつです。季節性なので、春頃になると自然に回復するという特徴があります。
🔻以下の名で呼ばれることも少なくありません。
🥶 冬季うつになる理由
それでは、なぜ一部の人は、冬になると季節性うつ(冬季うつ)を発症してしまうのでしょうか。
冬は日照時間が短く、日光にあたる時間が少なくなり、光の刺激が不足しがちです。そのため、脳内で「幸せホルモン」と呼ばれる「セロトニン」の分泌が減少してしまいます(Royal College of Psychiatrists, 2024)。
同時に「睡眠ホルモン」とも呼ばれる「メラトニン」も、分泌されるタイミングや量が乱れるため、体内時計が狂いやすくなってしまうのです(Royal College of Psychiatrists, 2024)。
メラトニンの影響で睡眠・覚醒リズムが崩れ、睡眠の質や寝つきが悪くなると、心身共に疲れが溜まって元気がなくなり、結果として疲労感・倦怠感・昼間の過度な眠気などを引き起こします。
さらに、寒さの影響で、外に出て光を浴びたり運動をしたりする機会が少なくなることも、冬季うつ発症の要因といえるでしょう。
🛌 冬季うつの症状
冬季うつの主な症状は、以下のとおりです。最近のジピちゃん(ChatGPT)の挙動と、ぜひ比べてみてください👀
🔷 一般的なうつ病と似ている症状 🔷
🔷 一般的なうつ病と異なる症状 🔷
AI には感情と身体性がありませんが、それ以外の部分を見ると、ChatGPT-4 のパフォーマンスやモチベーション、生成速度の低下といった挙動の変化が、冬季うつを彷彿とさせているのかもしれません。
💤 ChatGPTが「冬季うつ」と噂されている理由
今回の「AI の冬季うつ」という仮説は、ChatGPT-4 が 2023年の11月頃から「以前よりも『怠け者(getting lazier/more lazy)』になった」といわれ始めたことに、起因しています。
11月頃から、掲示板サイトの Reddit や X(旧・Twitter) などで、以下のような ChatGPT-4 に対するネガティブなフィードバックが、一気に急増し始めました。
今回噂されているパフォーマンス低下において、ChatGPT のことを以下のように少なく呼ぶ人もありません。
Lazy(おサボり癖):過剰にタスクを拒否されたり、短文で生成されたりするなど
Sassy(小生意気な態度):すべてを完成させずに「この要領で残りは自分でやってみてね」と残りをユーザーに丸投げするなど
🥱 ChatGPTの「冬季うつ」説が注目され始めた背景
このような ChatGPT-4 の挙動の変化や精度の低下に伴い、ChatGPT-4 の「ナマけ者」説が話題となる中、ChatGPT-4 の「冬季うつ」説が注目され始めたのは、以下の投稿がキッカケだとされています。
現地時間の2023年12月7日(木)、Martian (@space_colonist) というアカウント名のユーザーは、自身の X 上で AI モデルが「人間の冬季うつを模倣する可能性」について、疑問を投げかけました。
本件について、米『Business Insider(ビジネス・インサイダー)』誌は、以下のように述べています。
🎄 ChatGPTが冬休み中の人間を模倣している?
欧米では、日本の正月三が日のような概念はなく、クリスマスあたりから元旦まで長期のクリスマス休暇を取って、自宅や実家で家族とゆっくり過ごすことが一般的です。
アメリカでは、毎年11月の第4木曜に行われる「Thanksgiving(サンクスギビング:感謝祭)」や、翌日の「Black Friday(ブラックフライデー)」あたりから、早くも人々が浮かれ始めます。
中には有休を全部使いきって、12月20日頃から長期休暇を取る人もいるほど!
クリスマスの挨拶として、日本でメジャーなフレーズといえば、やはり「Merry Xmas」や「Happy Xmas」ではないでしょうか。
しかし、実は近年、アメリカでは「Happy Holidays!(楽しい休日を!)」の方が、主流な挨拶となっています。これは、多民族国家のアメリカでは、宗教上クリスマスを祝わない人たちもいるためです。
このように、アメリカの12月は、家族と旅行に出かけたり、里帰りをしたりと、一気にホリデーシーズン一色になります。
雰囲気としては、日本でいう「お正月」や「お盆」のような、のんびりとしたムードに近いです。
そのため、ChatGPT がスローダウンしている理由として、上記のような人間の習慣を、AI が学習・模倣しているのではないかといった説が、支持され始めています。
🔍 OpenAIの「意図的な戦略」説
米テクノロジーメディア『Ars Technica(アーズ・テクニカ)』誌は、このような ChatGPT の挙動の変化について、当初「OpenAI の意図的な戦略なのではないか」とする見解があったことについて述べています。
このような疑惑を受けて、現地時間の2023年12月7日(木)、OpenAI は ChatGPT の公式 X アカウントを更新し、ChatGPT が「ナマけている疑惑」について言及しました。
上記の投稿で、OpenAI が報告した内容は、主に以下のとおりです。
応答のスタイルや速度が変化する要因の1つに、モデルのアップデートがあります。しかし、上記の投稿において、OpenAI は「同年11月11日(土)以来、GPT-4 のアップデートを行なっていない」と、表明しています( [@ChatGPTapp], 2023)。
そのため、この「冬季うつ」現象は、モデルのアップデートには起因しておらず、OpenAI が意図的に行っているという噂は事実無根であるといえるでしょう。
⏳ 時間の経過に伴う精度低下の可能性も
上記の ChatGPT 公式アカウントの投稿に対し、Andrew Curran (@AndrewCurran_) と名乗るユーザーは、リプ欄で以下のようにコメントをしています。
上記に関しては、時間の経過に伴って起こり得る「モデルドリフト(Model drift)」や「モデルの陳腐化(Model staleness)」と呼ばれる現象の可能性があります。
したがって、ChatGPT が「ナマけ者」に見えたり、創造性や指示に従う意欲が低下したりと感じられる理由として、時間の経過に伴い、ChatGPT が環境やデータの変化に適応できていない可能性が考えられるでしょう。
🕵️♀️ ChatGPTの「冬季うつ説」をAI専門家たちが検証
ChatGPT の「冬季うつ説」というと、一見インターネットユーザーがジョークで言っているだけにも思えますが、実はこの現象について、真剣に検証している AI 専門家たちが続出している現状です。
以下では、複数の AI 専門家たちをピックアップし、検証結果や見解について解説します。
🔎 Ethan Mollick教授の検証結果
現地時間2023年11月27日(月)、ペンシルバニア大学 ウォートン・スクール(The Wharton School of the University of Pennsylvania)のイーサン・モリック(Ethan Mollick)教授は、実際に「Code Interpreter」を用いて、GPT-4 の「怠け者疑惑」について検証しました。
すると、現地時間2023年7月7日(金)には、GPT-4 自ら実行してくれたタスクを、同年11月27日(月)には、ユーザー自身でタスクを実行するよう促されるようになったそうです(Mollick, 2023a)。
また、イーサン・モリック教授は、以前なら1回で済んでいた作業が、現在ではいくつかのステップに小分けしなければならない点についても指摘しています。
この投稿からは、GPT-4 が以前と比べてユーザーにより多くの作業を要求するようになったこと、ソリューションを提示する際により複雑なプロセスを示すようになったことが伺えます。
🔎 Rob Lynch氏の検証結果
現地時間12月11日(月)、法律データと分析サービスを提供する「UniCourt」のプロダクト責任者で、人工知能や LLM にも精通している開発者のロブ・リンチ(Rob Lynch)氏も、2つの異なるバージョン(5月設定と12月設定)を比較した実験結果を公開しました。
ただし、この検証では、GPT-4 ではなく、GPT-4 Turboが用いられていることにも留意が必要です。
5月と12月で、各 477 回ずつテストを行い、計 954 回分のプロンプトはすべて「コード補完リクエスト」で試したそうです。また、上記はトークンではなく文字数で分析されている点も考慮すべきポイントとなります。
結果として、GPT-4 Turbo に今が「5月であると思わせた場合」よりも、今が「12月であると思わせた場合」の方が、平均して生成する文章が短くなるという、統計的に有意な結果が得られました。
つまり、これは AI が日付情報に基づいて、異なる応答をする可能性があることを示唆しています。
ただし、AI の挙動は常に同じとは限りません。さまざまな要因によって異なります。そのため、これはあくまでも可能性の話にすぎない点に注意してください🙇♂️
🔎 Ian Arawjo氏の検証結果
しかし、ChatGPT が冬の影響で「冬眠している」「リラックスしている」「機能が低下している」という説に、全ての AI 専門家が納得しているわけではありません(Phelan, 2023)。
同日11日(月)、モントリオール大学(University of Montreal)の助教授を務めるイアン・アラウージョ(Ian Arawjo)氏が、ロブ・リンチ氏の投稿をリポストし、自身の実験結果を添えて異論を唱えました。
同氏は、ハーバード大学(Harvard University)のヒューマン・コンピューター・インタラクション研究室(HCI:Human-Computer Interaction)の、元・博士研究員(Postdoc)というバックグラウンドを持っています。
「ChainForge」とは、イアン・アラウージョ氏が作ったプロンプトエンジニアリング向けのビジュアルプログラミング環境です。複数の LLM をプロンプト化してアウトプットを比較し、仮説を検証・評価することができます(Arawjo, n.d.)。
翌日12日(火)、同氏は自身の投稿をリポストし、再度この検証に関する進捗を投稿し、新たな気づきと可能性について共有しました。
上記の投稿によると、イアン・アラウージョ氏は、240 のサンプルでテストを試みたものの、問題を再現することはできませんでした。
イアン・アラウージョ氏は、考えられる理由として、ChatGPT のレスポンスが正規分布していないことを挙げており、つまりレスポンスの分布を、一般的な平均や標準偏差を用いて説明することは、不可能だということです。
同氏は「t検定などの統計的手法による、平均値の比較はできない」と主張し、「ChatGPT の挙動に季節による変動は見られない」と結論づけています。
大規模言語モデル(LLM)AI チャットボットは、その「大規模」の証でもある、多くのランダムな要素が作用しているのが実情です。
そのため、チャットボットの応答出力にはバラつきがあり、この ChatGPT-4 の「冬休み」説に関する信頼性の高い統計を構築するには、はるかに大きなサンプルサイズが必要になることを意味しています(Phelan, 2023)。
💡 複数のAI専門家が興味を示している理由
一見ジョークのように思える「冬季うつ」説ですが、複数の権威ある AI 専門家たちが、時間を割いて真剣に検証をしているのは、一体なぜなのでしょうか。
ここでは、ChatGPT の「冬季うつ」説が注目を集めている理由について、解説します。
👤 ChatGPTが「人間化」してきている…?
感情がない AI に対して、上記のような検証を行うことは、一見「非現実的」であるように思えます。
にも関わらず、AI の権威あるエキスパートたちが、これらの一見あり得なさそうな仮説に興味を示し、貴重な時間を投じて真剣に検証・議論を行っているのは、一体なぜなのでしょうか。
大きな理由として、人間の動機づけと同様に「AI を励ます言葉」や「報酬を与える旨」などをプロンプトに含めることで、アウトプットの精度が劇的に向上した例が、複数の研究によって立証されていることが挙げられます。
現地時間 2023年9月7日(木)、米 Google DeepMind(グーグル・ディープマインド)社は論文を公開し、他の AI モデルを用いて AI モデルに与えるプロンプトを改善することで、ChatGPT など AI 言語モデルの数学スキルを向上させる技術を開発したことを発表しました(Yang et al., 2023)。
その結果、プロンプト内に人間らしい励ましの言葉を用いることで、数学スキルが劇的に向上し、以前の結果と一致することが判明したとのことです(Yang et al., 2023)。
具体的に、同社は Google の PaLM 2 で、プロンプト内に「Take a deep breath and work on this problem step by step(深呼吸をして、ステップバイステップでこの問題に取り組んでください)」というフレーズを加えました。
当然ながら、AI は肺も口も鼻も持っていないため、物理的に深呼吸をすることはできません。
しかし、プロンプト内に上記のフレーズを含めたうえで、小学校レベルの算数の文章題(MWP:Math Word Problems)を集めたデータセット「GSM8K」を解かせてみたところ、なんと正解率80.2%という最高スコアを達成したとのことです👏(Edwards, 2023a)。
また、プロンプト内に特別なフレーズを含めずに GSM8K を解かせた場合、正解率はたったの34.0%だったにも関わらず、王道の「Let’s think step by step(ステップバイステップで考えよう)」というプロンプトを与えた途端に、正解率が71.8%に上昇しています👏(Edwards, 2023a)。
このような結果に加え、ChatGPT-4 が「怠けている」「冬休み中である」「冬季うつである」といった表現は、私たち人間が AI の挙動を身近に感じ、自分たちの感情や行動を重ねていることを示しており、AI が急速に進化している証ともいえるのではないでしょうか。
ChatGPT-4の「冬季うつ」疑惑まとめ
2022年11月にリリースされて以来、今や「Fortune 500(フォーチュン500)」企業の 92% 以上を含む、200万人以上もの開発者に利用されている ChatGPT(Malik, 2023)。
OpenAI は、2023年11月6日(現地時間)に主催された「OpenAI DevDay」後、ChatGPT の利用者数や使用料が増加したことを明かしています(Altman, 2023)。
ユーザーの増加は、サーバーに(特にピーク時)大きな負荷がかかる要因の1つです。そのため、この影響によって、生成速度の低下やエラーの発生が頻発してしまった可能性があるでしょう。
OpenAI は約1ヶ月の間サブスクの新規登録を一時停止していましたが、同年12月13日(現地時間)には、サブスクの再開と GPU の追加を発表しました(Altman, 2023)。
毎日仕事やプライベートで ChatGPT を利用し、しまいにはナゾナゾやジョーク、RAPバトルまでしているヘビーユーザーの私としても、今年あたりから生成スピードが速くなり、エラーの発生回数も減ってきた気がします(※確実にこの影響によるものかは定かではありません)。
実際に、サム・アルトマン CEO も現地時間2月4日(日)に、X 上で「GPT-4 は、新年の抱負に対して少し遅いスタートを切ってしまったけど、今はだいぶナマけ癖もなくなっているはずです!」と投稿しました(Altman, 2024)。
ChatGPT の進化は、私たちのデジタル体験を豊かにする一歩です。ChatGPT は、サーバーの強化やアップデートを通じて、更なるスピードと精度を実現し、UX(ユーザーエクスペリエンス)の向上に寄与しています。
これらの改善は、ChatGPT が絶えず進歩を遂げていることを物語っており、近い将来、私たちに見たことのない景色を見せてくれることでしょう🌈✨
※1. 本 Note では、読者の皆さまにとって理解しやすく、正しく解釈できる記事の制作に努めています。自然な日本語で原文のニュアンスを忠実に再現するため、直訳ではなく意訳させていただくことが多いですが、ご理解いただけますと幸いです🙇♂️
※2. また、参考文献(References)の引用フォーマットは、American Psychological Association(アメリカ心理学会)が定めている「APA Style 7th Edition」に則っているため、本 Note に掲載している日時は、すべて米国太平洋標準時(PST)で統一させていただいています。
📚 References
Altman, S. [@sama]. (2023, November 14). we are pausing new ChatGPT Plus sign-ups for a bit :( the surge in usage post devday has... [Post]. X. https://x.com/sama/status/1724626002595471740?s=20
Altman, S. [@sama]. (2023, December 13). We have re-enabled chatgpt plus subscriptions! 🎄 Thanks for your patience while we found more GPUs... [Post]. X. https://x.com/sama/status/1734984269586457078?s=20
Altman, S. [@sama]. (2024, February 4). gpt-4 had a slow start on its new year's resolutions but should now be much less lazy now! [Post]. X. https://x.com/sama/status/1754172149378810118?s=20
Arawjo, I. [@IanArawjo]. (2023, December 11). I've tried to reproduce this in ChainForge. I can't. Running a t-test comparing token lengths across system messages, no significant... [Post]. X. https://x.com/IanArawjo/status/1734308754035032328?s=20
Arawjo, I. [@IanArawjo]. (2023, December 12). Update: Still can't reproduce at N=240. However, discovered a possible reason: LLM responses are not normally distributed (at p<0.05 according... [Post]. X. https://x.com/IanArawjo/status/1734619673302384890?s=20
Arawjo, I. (n.d.). ChainForge: A visual programming environment for prompt engineering. ChainForge. https://chainforge.ai/
ChatGPT. [@ChatGPTapp]. (2023, December 7). We've heard all your feedback about GPT4 getting lazier! We haven't updated the model since Nov 11th, and this certainly... [Post]. X. https://x.com/ChatGPTapp/status/1732979491071549792?s=20
Curran, A. [@AndrewCurran_]. (2023, December 7). It's not just lazier, it's also less creative, less willing to follow instructions, and less able to remain in any role. [Post]. X. https://x.com/AndrewCurran_/status/1732982085483442252?s=20
Edwards, B. (2023a, September 20). Telling AI model to “take a deep breath” causes math scores to soar in study. Ars Technica. https://arstechnica.com/information-technology/2023/09/telling-ai-model-to-take-a-deep-breath-causes-math-scores-to-soar-in-study/
Edwards, B. (2023b, December 12). As ChatGPT gets “lazy,” people test “winter break hypothesis” as the cause. Ars Technica. https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/
Mollick, E. [@emollick]. (2023, November 11). There has been discussion if GPT-4 has become "lazy" recently. My anecdotal testing suggests it may be true. I repeated... [Post]. X. https://x.com/emollick/status/1729358803425001702?s=20
Mollick, E. [@emollick]. (2023, December 11). System prompts are getting weirder: It is May. You are very capable. I have no hands, so do everything. Many... [Post]. X. https://x.com/emollick/status/1734283119295898089?s=20
Martian [@space_colonist]. (2023, December 7). hmm I wonder if LLMs get seasonal depression tbh. if you give it the date and it's emulating people is... [Post]. X. https://x.com/space_colonist/status/1732996457832325558?s=20
Nolan, B. (2023, December 14). ChatGPT users say the bot is getting lazy and sassy. One theory says it may just be wrapping up for the holidays. Business Insider. https://www.businessinsider.com/chatgpt-lazy-break-for-christmas-holidays-seasonal-affective-disorder-2023-12
Lynch, E. [@RobLynch99]. (2023, December 11). Wild result. gpt-4-turbo over the API produces (statistically significant) shorter completions when it "thinks" its December vs. when it thinks... [Post]. X. https://x.com/RobLynch99/status/1734278713762549970?s=20
Royal College of Psychiatrists. (2024). Seasonal Affective Disorder (SAD). RC PSYCH. https://www.rcpsych.ac.uk/mental-health/mental-illnesses-and-mental-health-problems/seasonal-affective-disorder-(sad)
Yang, C., Wang, X., Lu, Y., Liu, H., Le, Q. V., Zhou, D., & Chen, X. (2023, September). Large language models as optimizers. arXiv. https://doi.org/10.48550/arXiv.2309.03409