統計・機械学習なら、平均・分散までしか使わない。SVM・ディープラーニングなんて言葉は避ける。可能な限り高校生でも知っていそうな言葉だけ使うようにした。そうすると参考文献を書く必要もなくなり全体的にスッキリした体裁になった。といいつつ専門用語まったくないのも薄っぺらい気がしたので、確実に解説できる１語だけを記載して、その１語には参考文献の番号振って、ページ末端に小さいフォントで参考文献を記載した。

あと、提案手法の評価方法だけはすごい意識した。このあたりは"研究計画書の書き方"で、グーグル検索してもらったほうが詳しい。

小論文

会場は大きめのホールで受験生は３０名ほど。多くの受験生はスーツだったが、Tシャツジーンズの受験生もいた。試験当日の座席配置と合格発表の番号を見るに私服の受験生も受かっていた。

問題は２問でた。

必答１問 A4 1枚

"研究科で何を学んで何に活かすか"みたいなテーマだった。私は具体的な志望業界があるので、データ分析に関する研究をして、その業界の研究職でこういう仕事がしたいということを書いた。

選択１問 A4 1枚

４テーマから選ぶ

あなたは企業でデータ分析業務の立ち上げをすることになった、社内で人を集めるか or 外注するかどちらか選びその理由を書け
データ収集-データ処理-アルゴリズム-可視化を通じて、社会課題をどう解決するか。
生体情報が普及した場合に医療現場はどう変わるか
企業が情報漏えいをなくすためにはどうするべきか

私は２を選んだ。具体的なシチュエーションを想定したうえで、下記のような観点で、ストーリーを作った。AI ビジネス/ビッグデータビジネスの事例の本で読んだことを項目にあてはめて回答した。

どうやってデータを集めるか（センサから得る、アンケートを取る）
どうやって処理するか（手書きの資料なら電子データにしないといけない）
どのアルゴリズムを使うか（予測するのか分類するのか）
どう可視化する（ひと目で確認できるようにする）

口頭試問

待合室として教室に移動させられる。１人３０分で、口頭試問は３会場あって１人ずつ呼ばれる。試験時間は当日に案内があった。一番遅い人は４時間待ちだと思う。待合室は比較的出入り自由。待合室にスタッフがいるわけでもない。自分の試験時間に待合室にいればよいと案内あったが、途中、試験時間の時間変更があった。受験生は各々スマホいじったり、トイレにたったり、おそらく外出もしていた。すごい暇なのでスマホの充電は十分にしていったほうがいいと思う。

試験会場は少し狭めの教室。希望をだした先生+3~4名の先生方が長机に並んでいて、その前にパイプ椅子がおかれているような形式。先生方はおそらくコース混合だったと思う。

希望の先生から、研究計画書に書いた統計用語から発展した内容の用語について説明できるかという質問があり、教室の黒板を使って説明した。たまたま口頭試問対策でヤマはってた質問だったが、対策していなければ答えられない用語だった。必修講義の統計基礎レベルではでてこない用語で、統計応用レベルの教科書でこんなこと書いてたなという内容を説明した。といっても決して"専門書"レベルの範囲ではないので、私が勉強不足なだけかもしれない。分からないことは分からないで通して、しどろもどろになりつつ自己採点100点満点中40点ぐらいの説明になった

そのあと他の先生方も含めて、いろいろ質問を浴びせられた、なぜこの研究科を選んだのかとか、なぜこのテーマをやるのか、どうやるのかとか面接に近い感じ、研究計画書に書いた、これまでの研究・希望進路についてはとくに聞かれなかった。終始、なごやかな雰囲気ではあった。

こんな雑多なメモだが、役に立つと嬉しい。

Permalink | 記事への反応(1) | 19:12

2020-08-25

■いずれ雪かきをする私へ

お前は浅学非才無能怠惰であるが、親の教育の賜物で国立大学に入れた。

しかしデータサイエンティストになりたいなどと夢を見たせいでお前のスキルはボロボロである。まず、お前の学部で学ぶ、経済学であるが、経済学はマクロ経済学もミクロ経済学もテスト問題を解けるようにしただけで本質は掴めず、データサイエンスに少しでも近づこうと取った計量経済学の講義はコーディングのテストは余裕でクリアしたが、面接で理論を答えられず落単した。

プログラミングは学部のまわりのやつらよりは多少できたが、それでも1番ではなく、当然外の世界を見れば、底辺もいいところである。

数学。離散数学はなにもわからず、落単した。

肝心の機械学習についてであるが、情報学部のパターン認識の講義をとったものの、ただコードが動くように書き、手書きの数字を識別できるようになっただけで、SVMの理論的背景もNNがなんたるかということも理解できぬまま、C評価の単位がきたのみである。

かといって努力せず、まわりの人と交流することもなければ、無理やり実績を作ってインターンに行くようなこともしなかった。

よくて数行のコードとGoogle Analyticsを使う程度の仕事しかできないお前はそうして雪かきをして一生を終えるだろう

Permalink | 記事への反応(4) | 03:40

2019-04-27

■anond:20190427231513

じゃあ例えばSVMでどうやってそいつ自身より性能いいアルゴリズム作るんだよ

結局人間が重み付け職人するだけだろそれ

Permalink | 記事への反応(2) | 23:17

2018-07-16

■anond:20180714173946

AIだろ。ばかかよ。

クソアルゴリズムでも、SVMでも、NNでも、DNNでもAIに決まってんだろ。

Permalink | 記事への反応(0) | 03:37

2017-11-06

■ではどうやって"AI 人材"を選考すればよいのか

AI 人材の採用が局所的に話題になっている。

http://aiweeklynews.com/archives/49678692.html

・Excelはがっつり使える
・Pythonのnumpyやpandasでデータの処理ができる
・SVMや重回帰分析は普通に使える（数式も少しは分かる）
・Chainerを触っている（pipでインストールのみでもOK）
これくらいできると、AI 人材の平均レベル(と相手に思って貰える)なので採用見込みはかなりあると思います。

例えばですが、pythonを自分のパソコンに環境構築して、「Hello,world!」と表示できるようになったら、面接に申し込んで、「少しはpythonできます」と言ってみるのも一つの方法かもしれません。

実際に見分け方がわからなくてこれに引っかかって採用してしまう場合もあるんだろうな、とも思う。

自分がこの手の人材（エンジニア）を採用する場合にどうやって質問をすれば見極められるのかエンジニアの採用にも関わっている身としてを考えてみた。

AI 人材という呼称自体がぞわぞわするけど、一旦そこは我慢する。

取りたいロールをはっきり認識/確認する

まず採用を行う前に、AI 人材を取って何をしてもらいたいのかをチームないし採用意思決定者としっかり確認する。

エンジニア系のAIの仕事と大雑把に言っても

1.画像/映像認識系技術を活用したい
2.大量のデータを対象として分析や予測を行いたい
3.上記大量のデータを貯めたり一括処理したりするための基盤システムを作りたい

など、あとは案件ベースなのか自社開発なのかそれぞれ必要となる能力がオーバーラップしつつも異なっているため。

（以下、今回の目的が1や2だったと仮定する。）

バックグラウンドの確認

・あなたと機械学習の関わりを教えてください
・機械学習で経験のある分野 / 得意な分野 / やってきたことを教えてください（実務でなくてもok）

バックグラウンドを確認する。実務や研究の経験の話が出てくるのがメジャーだと思うが、エンジニアとしてのバックグラウンドがあれば独学勢でも野良kagglerなどレベルの高い人はいるので実務経験に絞らなくても良いと思う

全般 知識の確認

機械学習全般の基本的なところから確認していく。質問としてはこんな感じだと思う

・教師あり学習と教師なし学習の違いを説明してください
・分類問題と回帰問題の違いについて説明してください
・過学習ってなんでしょうか

イメージとしては非エンジニア職でも必要になる「この辺りの言葉が通じないと絶対困ったことになる」一般常識を確認する感じ。

ディープラーニングについて

画像や映像の認識などディープラーニング系の業務が多い想定の場合

・普段使うディープラーニングのライブラリは何ですか

から始まって

・あなたの組んだモデルについて教えてください
・どうやって訓練したのですか？
・どうしてそのような構成にしたのですか？

と突っ込んでいく。

きちんと自分で考えて組めているかを確認するのがメイン。

ディープラーニング以外の機械学習について

・フィッシャー情報量から何が分かるか
・共役事前分布についてどのように用いるものか
・MCMC法で事後確率の近似を取る時に気をつけることを教えてください

確認したいことはディープラーニング「しか」できない人かではないかという点。

ある程度統計やベイズ法周りの知識が無いと詰むため。逆にディープラーニングが不要な業務ならこっち一本でも可。

手法の詳細・原理の説明

・この問題で最尤推定をしてみてください（簡単な文章題）
・勾配降下法について説明してください
・畳み込みニューラルネットワークについて仕組みを説明してください

盲目的にライブラリを使ってるだけでないかという点を確認したい。

SVMを入力に適用するだけならsklearnで5行書くだけで誰でも出来る。手法の背景や対象データの特性をきちんと考えて使っているかを見たい。

・kaggleのコンペに参加したことはあるか
・あればその時の課題と手法をできるだけ詳しく
・メダルの取得状況

kaggleに参加した経験があればnote からその人の手付きを直接評価できるし、メダルという他メンバからも客観的に評価できる定量指標もある。

その他

学習意欲とか普段の姿勢を確認したい。もしかするとここが一番重要かも。

・分からない項目をはっきり分からないと言えるか
・普段何を参考に勉強しているか / 論文を読む習慣があるか(最近読んだ論文があれば教えてください）
・今興味のあること

こういう観点も必要、とか○○なんてもう古いよ、みたいなツッコミどころ満載だと思うのでコメント/トラバで突っ込んで欲しい

Permalink | 記事への反応(1) | 20:50

2016-05-27

■自慢気にDeep Learning使ってるやつは大体クソ

色んなライブラリが出てるから、Deep Learningを使うこと自体は全然難しくない。

おかげで暇人がDeep Learningをちょっと試してみたみたいな記事がよくホッテントリに上がってくる。ブクマをつけてるやつらは大抵、自分で試してみる気力とか能力のない残念な人たち。

ところが、記事の内容を見てみるとマジで単に使ってみてるだけなんだよな。なんでDeep Learningを使わなきゃいけないのかさえ考えてない思考停止。ほとんどの場合は、昔からある3層のニューラルネットとかSVMで十分な性能が出る問題になんとなくDeep Learningを当てはめているだけ。

あのな、Deep Learningみたいに膨大なパラメータを持ってる学習モデルは簡単に過学習を起こすから、素人が下手に扱うとむしろ精度が落ちるもんだ。そこそこ難しいタスクに対して上手く学習するには、とんでもない量の訓練データが必要になる。しかも、Deep Learningは手動で設定する必要があるハイパーパラメータの数も膨大で、学習率とかノード数、正則化のパラメータみたいなやつらを地道に調整しなけりゃいけない。はっきり言ってめちゃくちゃ泥臭い作業だ。

なんでGoogleとかがDeep Learningで成功しているか、少しでも考えたことあるか？あいつらは過学習なんて関係なくなるほど、無茶苦茶たくさんのデータを手元に溜め込んでるんだ。しかも、ハイパーパラメータ設定の勘所を掴んでる職人みたいな技術者を金の力でどんどん集めている。

Deep Learningは理論的な下支えがほとんどなくて、勘と経験則で成り立ってる世界だ。数年前の定説が簡単にひっくり返ることが多いし、正直なところあれは研究と呼べるものではないと思う。「なぜかは知らんがやってみたらうまくいった」みたいな事実が羅列されてるだけ。思いついた手法が上手くいくかが運任せという意味では、ガチャを引いてるのとだいたい同じ。無課金勢がいくら知恵を絞っても廃課金勢には勝てない世界。