はてなキーワード: ニューラルネットワークとは
AI使ってますか?Xで翻訳ボタン押すと海外のポストでも日本語で読めるの便利ですよね。
機械学習から連綿と続いた先にある生成AIの隆盛、大変エモいものがあります。
自分はまだニューラルネットワークと呼ばれていたころからこの分野で細々と研究をしており、趣味は主に写真です。絵はたしなむ程度。
今の反AI運動は、誰に対して何を反対しているのか良くわからなくなってしまっているので、正しく反対するのが良いと思っています。
結論から、なぜそうなるのか、どうしたら良いのかと整理しておきます。
(Xの利用規約がいつ変更され、どのように利用されるかについては、他の方の記事に詳しいため略します)
たいていの場合、人間が利用可否を判断できる程度には高解像度な写真と、ストックフォト社のロゴ、撮影者の名前、管理IDが入っています。
もちろん商業印刷に使える高解像度は購入後にしか手にすることはできません。ただサンプル画像ですが、機械学習用途では十分です。
ロゴなどを取り除くのは難しくありませんし、学習用途では十分なイメージサイズがあり、機械学習に十分使えます。
しかし、実際にはそういった事例は見聞きしません。(個人で学習されている方もほぼいないでしょう)
なぜならば、もしも利用が発覚した場合に使用料を請求されるからです。
同様に、無償の用途であっても、例えば軍用機や戦車など、IDやサインを写真に入れる方は少なくありません。
これは、端的にはパクられた時に自分の写真だと主張する為です。
現行法下では、いわゆる"無断学習"を止めることはできません。
機械的に大量の学習が行われるのが問題であるという論建ても見聞きしますが、あまり良い筋論とは思えません。
なぜならば、少ない学習量で良い結果を出すというのは、機械学習的にはかなり昔から熱心に研究されているテーマだからです。
(例えばコンピュータ将棋に新風を吹き込んだBonanzaは、たった6万局の棋譜を学習させることで評価関数を作成しています)
実用的にも、事前に学習させたモデルを準備しておき、少ないサンプル画像(数枚~数百枚)で、不良品検査に使えるモデルを作成する、などは熱心に行われています。
現状でも、対象となる絵を人間が模写して、模写側を学習させるだけで、十分に元画像に近似した画像を出力できます。
人間が目で見て判別できる程度のノイズやウォーターマークは、前述の通り除去にさほど手間はかかりません。
Xを利用する以上、利用規約に同意しなければ使えないので、これについて学習を防ぐことはできません。(非公開ポストについては学習されませんが、これもXの利用規約変更が無いことが前提です)
例えばpixivは機械的な画像収集がガイドラインで禁止されています。また、画風を模倣した作品の投稿についても一定の制限のもとで禁止されています。
対価を取る旨の明記とは、例えばpixivFANBOXのメンバー限定コンテンツを、無断で転載されてしまった場合、損害を負ったと外部に対して明確に説明が出来ます。
これらを行ったうえで、故意に学習され、似た作風の生成AI画像を公開されるという嫌がらせを受けた場合は、上記の旨を前提として、嫌がらせであると都度対応する必要があります。
これは知らなかった、うっかりしていたでは起こりえない状態にしたうえで、きちんと嫌がらせに向き合うということです。
生成AI画像をそもそも見たくない、というものは、現行では防ぎようが無く、どちらかというとロビー活動に近いものになります。
こいつは画像生成AIで絵を出力している!というのは、指摘として正しいか否かは別として、あまり意味をなしません。
ただ、自分の趣味である写真でも、いわゆる加工をどこまで許容するかは人やコンテストによって異なる為、そういった住み分けの話になってくると思っています。
例えば、ある画家が自分の画風を学習させた生成AI画像を出力して販売したとしても、それを咎める理由は思い当たりません。
現状でもまだ過渡期であり、人間の目で判別不能な画像を出力するようになるのは、時間の問題です。(既に人間が書いた絵であっても生成AI絵だと誤認される事例は数多くあり、指摘できる人間の数は減っていきます)
どちらかと言えば、作画過程のタイムラプス動画に価値を見出すような、違った付加価値の話になってくると思います。
生成AI画像技術を禁止する、学習を禁止するなどは、現行法下ではできません。
法改正もしくは法解釈の変更が必要なためロビー活動を行うしかありません。
しかし、自分の絵を商用利用を禁止し、それを許容するプラットフォームで発表することはできます。
Xでは非公開ポストにしない限り、機械学習に利用されることを防ぐことはできません。利用規約で既に利用が可能になっているからです。
露悪的に言えば、Xを利用するのに学習されたくないのは虫が良い、と言えます。ただし、Xに対して一定の金額を払うことで対象から除外してもらうように働きかけることはできるかもしれません。
ウォーターマークやサイン、ノイズを機械学習を防ぐ目的に使う効果はとても薄いです。ロゴやウォーターマークの除去もテーマとしては昔からあるものであり、難易度はそれほど難しくありません。
ただし、意図して除去していることは明確になるので(Xには規約で学習されてしまうが)X以外の例えば悪意ある第三者に学習された場合に、悪意ある行動だ、と指摘することが出来ます。
この場合、対価を取って公開している場合、損害が明確になるので、アクションを取りやすくなります。
X社に学習されるのは諦めて、小さくても良いのでトリミングで取り除かれない位置にサインを入れてポストするのが最もベターです。ウォーターマークである必要はありません。
(取り除かれて転載された場合、タイムスタンプを基に悪意ある転載だと指摘できるため。逆に言えば別に大きくいれてもさして違いは無いので自分の好みで入れれば良い)
また、自分の画風のAIモデルを開発中である、これの対価はAI陣営には買えないくらいとても高い、とプロフィールに書くだけでも十分抑止になります。
生成AIに反対する為に、自分でAIモデルを作り高額で販売するつもりである、と表明すれば良いからです。
嫌がらせで自分の画風を真似たモデルが作られて販売もしくはそれを使った出力画像が出た際に、自分は損害を負ったと主張できます。
また、第三者のゲームのスクリーンショットに勝手に透かしやサインを入れるのは止めましょう。適切なガイドラインのもとで適切に利用するのが最も大切です。
既に法律でも、利用規約でも、生成AIや機械学習側がリードしている状態です。
Xが学習するというのを妨げるのは、プラットフォームを利用する側としてはどちらかと言えば非難される側になってしまいます。(規約にあり、利用しており、それでいて相手を妨害する為)
脳に電子回路みたいに電流が流れているわけではなかった気がする。
ニューロンは大量にあって、お互いに化学物質のやり取りをすることで脳は動作している。
その制御は複雑で、別のニューロンから出る化学物質の放出量を増やすとか、減らすとか、そんなことすらやっている。
だから、ここからは予測だけど、例えば電極から脳にそのまま電流を放出しても、細かな制御は出来ないだろう。
頑張っても、体のどこかがくすぐったくなるとかマヒするとか、そのレベルの大雑把な制御しかできないんじゃないか。
多幸感を得るとかだったら、その化学物質の制御をどうこうする麻薬を使うとか、そういう話になるんじゃないかと。
この細やかでアナログな制御は、電子回路よりもむしろニューラルネットワークとかそっちに近いイメージなんだろう。
いや、ニューラルネットワークの側が神経の挙動を真似して作ったものではあるんだけど。
プログラマーも結局は「読み方も分からない0と1の羅列に変えてくれるコンパイル機能を持った高級言語」を使ってるだけだろ?
お前の普段向き合ってる文字の羅列は、結局はお前にとってのブラックボックスに送られ、そしてお前はそれが最終的にどうやって動作しているのかを分かってない。
パンチカードの時代、パソコンはクソデケー電気仕掛けのそろばんだった。
「電卓」ではない。
何故ならあれを置ける卓はないから。
嘘だと言うなら科博にでも行ってこい。
それでもなお「でもよお、俺はイギリスでアーサー王が使ってたという100人用の円卓を見たが、アレぐらいなら乗るぜ?」と返すならもう俺は何も言わない。
電卓の化け物だった頃のパソコン相手に原始時代の言語で「ウホウホ!1+1は10!俺!0を発見!(BGM『レクイエム』より、第2楽章「キリエ」)」してた頃は、パソコンはブラックボックスではなかった。
だが、その時代はとうに過ぎ去った。
その昔はパンチカードを目視で読める人間バーコードリーダーみたいなことをしてる奴らもいたが、今はもう宴会芸にしかならない。
プログラミングとは高級言語を用いてやるものであり、コンパイルしたあとの機械語とは「人間が目で読むことを想定していない精霊界の言語」だ。
「プロンプトエンジニアリング」はよく呪霊操術や精霊魔術にたとえられる。
よく分からんけど召喚獣に魔法を使わせ、召喚獣がどうやって魔法を打ってるのかは知らないという世界だ。
だが待ってほしい。
それと対比して語られる「古典的プログミング」も結局は「途中の過程はよく分からんけど最終的に機械がなんとかする」で同じではないのか?
ニューラルネットワークの構成する離散的なモザイクと、コンパイルされた機械語の解読不能な01の羅列、それらにどれほどの違いがあるんだ?
どう違うんだ。
教えてくれ。
とっ散らかった思い出話?で失礼します。
当時はLLMなんて影も形もなく、人工知能といえばなんかちょっと賢いくらいのアルゴリズムをさしていて、
理論的にはニューラルネットワークもSVMもあったものの機械学習が注目されるちょっと前の時代。
(ちなみに設定上はマルチはニューラルネットワークではなく、ニューロネットという似た何か)
今のような計算機もないし、理論的な話もフレーム問題みたいなやる気のない議論しか無く。
とりあえずプログラミングは勉強したものの、なんかちょっと賢いアルゴリズムくらいしか学ぶものがなかった。
機械学習(SVM)が流行ったのが大学に入った頃でこれはと思って飛びついたものの、まぁ大したことはできず。
対話ボットとしてでも再現できればと思っても、まともな生成は夢のまた夢だった。せめて対話の分析ができればと思っても、言葉の意味とか全然扱えない状態で、
対話の分析なんかしても、定型文に近いパターンが扱えるかどうか。当時のペースだと100年経ってもマルチどころか、
イカリヤ(ハンドメイドメイ)も厳しい状況で、よく博士課程なんか進んだな。この当時から、こつこつ対話の研究を
続けていた方々には、本当に頭が下がります。で、対話は難しすぎるので、目先を変えたタスクで博士課程を取る。
このころには、長瀬源五郎になれないということには気が付いてきてはいたものの、誕生に関わる可能性のある
博士とった後くらいで、 Mikolov がLLMの遠い祖先といってもよいRNNLM とみんな大好き word2vecを作った。
この時点ではまだ、言葉の意味をベクトルで表せるって程度で、その後のBERTくらいまではまだ性能があがってすごいくらいで、
まだマルチっぽいものも作れないしまだまだ遠いな、とちょっと高を括っていた。そろそろ対話を研究する時期じゃないかとは思いつつも、手は動かず。
そして気が付いたら、GPT-2 が簡単なコードを書けるようになっていた。この時点で、なぜ他のものは投げ捨てて飛びつけなかったか、
今でもちょっと考える。その時点ではチェリーピッキング的なものでも、精度の問題ならいずれ勝手に解決されることは分かっていたのになぁ。
で、結局今はLLMのプロンプトエンジニア。これはこれで面白いのだけど・・・、マルチが作りたかったはずなのに、随分離れたとこに流れ着いてしまった。
今となってはマルチ風に会話できる対話ボットぐらいすぐに作れるんだが・・・、なんかもうそういうことじゃないんだよな。。。
例えOpenAIに転職してたとしても、マルチに近づけるわけではないんだが。なんか、大作の構想練り続けてうん十年みたいだなー。
コンテンツ集合Xがあります。各々の要素x∈ Xは特徴量f_1(x)∈Y_1 を持っています。
同様にユーザーu ∈ Uが存在し、特徴量f_2(u)∈Y_2を持っています。
コンテンツには単価P(x)が存在し、ユーザーuがコンテンツをm回消費することをg(u, x, m)=m*P(x)_uで表し、全てのユーザーU, 全てのコンテンツXに対して行列M∘P = g(U, X, M) が存在します。
回答
この問題は、コンテンツとユーザーの特徴量を考慮して、ユーザーがコンテンツを消費する回数を最大化するものです。このような問題は、推薦システムの分野で広く研究されており、協調フィルタリングと呼ばれるアプローチが一般的に使われています。
協調フィルタリングアルゴリズム
協調フィルタリングには、以下のようなアルゴリズムが考えられます。
1. 行列因子分解 (Matrix Factorization)
行列因子分解は、ユーザー・コンテンツ行列を低ランク近似することで、ユーザーとコンテンツの潜在的な特徴を抽出します。具体的には、ユーザー行列Uとコンテンツ行列Vを求め、その内積U^TVで元の行列を近似します。この手法は、Netflix Prizeで優れた成績を収めました。[1]
2. ニューラルコラボレーティブフィルタリング (Neural Collaborative Filtering)
ニューラルネットワークを用いて、ユーザーとコンテンツの非線形な関係を学習します。入力としてユーザーIDとコンテンツIDを与え、出力として評価値を予測します。この手法は、従来の行列因子分解よりも高い精度が期待できます。[2]
3. 階層的ベイズモデル (Hierarchical Bayesian Model)
ユーザーとコンテンツの特徴量を階層ベイズモデルに組み込むことで、より柔軟なモデリングが可能になります。この手法は、Cold-Start問題(新規ユーザー・コンテンツの推薦が困難)の解決に有効です。[3]
4. 強化学習 (Reinforcement Learning)
ユーザーの行動履歴を環境として捉え、報酬最大化のためのアクションを学習します。この手法は、長期的な利益最大化に適しています。[4]
これらのアルゴリズムは、ユーザーとコンテンツの特徴量を考慮しながら、目的関数を最大化するように設計されています。実装の際は、データセットの特性やモデルの複雑さ、計算リソースなどを考慮する必要があります。[5]
Citations:
[3] https://sproutsocial.com/insights/social-media-algorithms/
[4] https://surferseo.com/blog/the-new-algorithm-for-content-analysis/
なんで?チラシには文字データとして食材の情報が全部載ってるんだから、
アプリから画像認識で十分でニューラルネットワークなんてもってくる意味がわからない
現状既にできてること
最近の「AI」はMLの中でもニューラルネットワーク、ディープラーニングあたりを使うやつを言う
そっちというのはパラメーターとして一々入れられるならという事
そもそもどのようなパラメーターがあるのかさえ分からない画像はニューラルネットワークじゃないと無理だよ
正直shufooというのを初めて知ったけど
パラメーター決めて入れられるならそっちのがいいことは普通にあるよ
ただレシピは曖昧なとこ多いからAI(ニューラルネットワーク)が得意な分野かもね
NVIDIAと、インテル・IBMはどうして差がついたのか、疑問に思う。
AIはニューラルネットワークを模倣していると言われ、ニューロモーフィックというチップを、IBMは作り、その後、メンバーが移籍してインテルも作った。
現在、ニューラルネットワークとは違うものになったが、勝っているのはNVIDIAになっている。
先日、1.58bitのBitNetが話題になったが、LLMではないが昔BinaryConnectで0.68bitまで下げる案を出したのもIBMのメンバーだ。
ハッカーニュースでBitNetについてIBMだった人がコメントしている。IBMはそれなりに早かったはずだ。
https://news.ycombinator.com/item?id=39544500
普通のGPUの会社だと、ゲーム用のGPUボードだけを作っていたと思うが、NVIDIAは色々と手を出している。
データ プロセシング ユニット (DPU)、InfiniBand、NVIDIA MetroXなど、
HPC向けで、インテルやAMD、IBMの方が得意だろうという分野まで手を出した。
RTX 4090はゲームするにはバカ高いがAI向けには性能不足で、単価が高いAI向けボードを売るという差別化も出来ている。
ファブレス企業だから、というだけでは説明不足で、TSMCにNVIDIA向けのカスタムプロセスを作らせることが出来ている点が差別化要因の1つだろう。
TSMCから出てくるデザインルールの通りにしか作らないと、どこの会社も似たりよったり性能になってしまう。
物理限界を他社(TSMC)に投げてしまうというのも、経営としては効いているのだろう。
そして物理限界のチップサイズを攻める。電力も物理限界を攻める。
日本の会社だと、電力のバカ食いで怒られるが、そこも攻めている。
インテルはGPUカードに参入したが、AI向けだけに限定した方が良かったのではないだろうか。
中国GPUメーカーがコケているのに対して、動いているだけでも流石インテルなのだが、競争力のあるGPUとは言えず、参入した意味とは?になってしまっている。
量産ではない先端プロセスは持っているし、特殊なチップも作れている。
CPUについてはPower関係の資産もあり、AI向けもユニークなのが作れているのに、ぱっとしなくなった。
RISC-Vが上手くいくのであれば、OpenPowerも上手くいくと思うのだが、そういう話も聞かない。
そもそも米中関係で、オープンソースのCPU/GPUが禁輸されそうな感じもしている。
結局、量子コンピュータについてもまだまだ先になりそうな雰囲気だ。