週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。 参加の動機 目標感: 頑張りすぎずに上位10%以内に入る 試行錯誤 AthenaとRedashによる探索的データ解析 ベンチマークをまず超える 線形分類器でシンプルな特徴量 時系列要素を忘れていて過学習発生 特徴量エンジニアリン
あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。 こういう話で「あーその手があったかー!」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。 大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。 必要なものリスト ナウいデータサイエンス/機械学習プロジェクトの中には(経験上、ぱっと思い浮かぶだけでも)次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。 ソースコード 役割がいろいろある: 前処理(こ
本記事では、機械学習コンペなどでよく見られる勾配ブースティング決定木(gradient boosting decision tree)を説明します。勾配ブースティング決定木は、MNISTデータに対して、ニューラルネットの最高精度と同等の精度を出したり、また高速な実装xgboostなどで有名な手法です。ライブラリを使用している方も多いと思いますが、意外とどのような構造になっているかを知らない人もいるかもしれません。 そこで、本記事では、決定木とは何か、というところから始めて、アンサンブル学習、勾配ブースティング決定木について見ていきます。 決定木 情報利得 アンサンブル学習 バギング ブースティング 勾配ブースティング決定木 各反復での訓練 モデルの複雑性 最適解の導出 実装例 まとめ 参考 決定木 決定木(decision tree)は、データに対して一連の質問を与えることによって、目標に
NMF(Non-negative Matrix Factorization)とK-meansが等価であるという話を聞いたので参考論文を基にメモ書き程度に残しておきます。 なお、本稿では簡単な対称NMFについてしか記述しないので、それ以上を求める方は参考論文を辿って下さい。 NMF(Non-negative Matrix Factorization) 各成分が非負であるデータ行列$X=[\boldsymbol{x}_1 , ..., \boldsymbol{x}_n] \in \mathbb{R}^{p \times n}$であるとする(画像の各ピクセル値がデータ数分の行列となっている状態)。NMFではSVDやPCA等と異なり、この行列を非負行列で近似する。要するに下のようになる。
さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub(https://github.com/ShoKosaka/Suumo)に上げておきますので興味ある方は参照ください。 最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。 データ探索 まず、23区の中でどこが物件数が多いのかを
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト Kaggleにおいて、人によってはソリューションを書いてくれているものがあります。特徴量エンジニアリングやアルゴリズムなど業務での参考になるだろうと思われるので、仕事で関わりそうなデータという観点から4つほどですが事例を集めてみました。このような事例のまとまった本とかあったらいいのですが。 基本的に各事例ごとに ・目的 ・どんなデータセット ・どんな特徴量エンジニアリング ・どんなアルゴリズム ・リンク を記していきます。 Walmart Recruiting – S
本記事の趣旨 見せ掛けの回帰と見せ掛けの相関(擬似相関)は違います。 時系列(というか、ランダムウォークする系列 ランダムウォーク - Wikipedia )の場合、相関係数は比較的高い値になりやすく、また有意な相関が出やすいので注意。 あと高橋洋一の議論を擁護する話題が混じっていますが、これについては、金融緩和はブタ積み上等。金融緩和賛成。消費税増税反対。 - 廿TT を参照してください。 「時系列 相関」 「時系列 相関」でググったところ以下のような記事がヒットした. 時系列データの相関係数はあてにならない: ニュースの社会科学的な裏側 現時点では Google 検索で上から 6 番目 R - 時系列データ分析の初心者に必ず知ってもらいたい重要ポイント:回帰分析 ・相関関係分析を行う前に必ずやるべきこと(データの形のチェックと変形) - Qiita 現時点では Google 検索で上か
どうも、「電ファミ」では競馬担当になりつつある、長谷川リョーです。 前回は北海道まで出張取材をした「リアルダビスタ」の記事をお届けしました。「将来の夢は馬主になることだ」と競馬への愛についても触れさせていただきましたが、馬券の方も嗜みます。週末は重賞を中心に、平場のレースまで手広く買うことが多いです。 (Photo by Getty Images) 1度だけ万万万馬券を当てたことがあり、生涯収支は間違いなくプラスなのですが、あの大当たりがなければ間違いなく回収率は100%を下回っていたことと思います。(僕だけではなく、おそらく多くの人が同じ現状だと思います……) 普段はAI(人工知能)、IoT、VRのようなテクノロジー周りの取材記事を書くことも多く、「ディープラーニングのような技術を元に、競馬予想をするプログラムを作ることができるのでは?」と夢想したことも一度や二度ではありません。IT企業
新規作成:2017年05月16日 最終更新:2017年05月16日 ここでは、時系列データを手にした際に、どのような手順で回帰分析をかけていけばいいのか、フローチャートを交えて解説します。 時系列データは特殊でして、普通の回帰分析を行うと、p値がおかしくなり、正しく検定ができなくなることがよくあります。これを見せかけの回帰と呼びます。 シミュレーションを通して、見せかけの回帰という現象を確認したうえで、それらに対応する手法としての単位根検定・共和分検定・一般化最小二乗法(GLS)の基本的な考え方とRでの実装方法について説明します。 ソースコードはまとめてこちらに置いてあります。 スポンサードリンク 目次 時系列データへの回帰分析フローチャート 単位根と見せかけの回帰 データチェック1 単位根検定とADF検定 解決策1 差分系列への回帰分析 差分系列への回帰分析の問題点 データチェック2 共
とりこぼし 様々なデータを分析し最適価格を推奨することで、競合価格やイベント情報の変化をタイムリーに取得できないことによる取りこぼしを防ぎます 情報収集の効率化 競合価格/イベント情報/クチコミなど、価格設定に必要な情報をまとめて確認できます 属人化の解消 AIによる分析と最適価格の推奨で、特定の社員に頼りがちなレベニューマネジメントの標準化を実現します 見える化 ブラックボックスになりがちなレベニューマネジメント業務を、データと分析ダッシュボードで可視化します 稼働率 価格による機会損失を少なくしながら稼働率の向上を⽬指します 人材育成 簡単な操作で、経験の浅いスタッフも短期間で操作でき、多能⼯化を促進します
Exploratory Desktop provides a Simple and Easy-to-Use UI experience to access various data sources, clean and transform data, visualize and analyze data to gain deeper insights, communicate your discoveries with Notes, and monitor your business metrics with Dashboards. You can quickly extract data from various built-in data sources such as Redshift, BigQuery, PostgreSQL, MySQL, Oracle, SQL Server,
次元削減とは データの次元削減(Dimensionality reduction) + データの可視化(Data Visualization) PCA Principal Component Analysis(PCA) randomized PCA Online Robust Principal Component Analysis(OR-PCA) 多様体学習 t-Distributed Stochastic Neighbor Embedding(t-SNE) Multidimensional Scaling(MDS) Isomap Locally Linear Embedding (LLE) Laplacian Eigenmaps(LE) Semidefinite Embedding (SDE) Latent Dirichlet Allocation(LDA) Labeled LDA P
第7回目の理論記事では競馬をどのように機械学習問題に落とし込むのか、また学習した予測モデルの性能評価方法について説明していきます。 教師あり学習と教師なし学習 機械学習の問題は**教師あり学習(Supervised Learning)と教師なし学習(Unsupervised Learning)**の大きく2つに分類されます1。 教師あり学習とは、特徴ベクトル $ \mathbf{x}_i $ に対する望ましい応答 $ y_i $ の組 $ {(\mathbf{x}_i, y_i) } $ を訓練データとして与え、それをガイドにして関係 $ y = f(\mathbf{x}) $ を学習をします。そのようにして得られた予測モデル $ f $ に未知の特徴ベクトルを与えることで未来の現象を予測します。予測モデル $ f $ は、線形モデル、ニューラルネットワーク、決定木、サポートベクターマシン
by ERIC TASSONE, FARZAN ROHANI We were part of a team of data scientists in Search Infrastructure at Google that took on the task of developing robust and automatic large-scale time series forecasting for our organization. In this post, we recount how we approached the task, describing initial stakeholder needs, the business and engineering contexts in which the challenge arose, and theoretical an
藤森 勇介=NTTデータ経営研究所 デジタルイノベーションコンサルティンググループ コンサルタント AI農業とは、「暗黙知」となっている熟練農家の優れた農業技術・ノウハウを、ICT技術を活用して「形式知化」することで、他の農業者や新規参入者に短期間で継承したり農業を高度化したりすることを目的とした新しい農業です。 ICTを活用した農業の高度化については、官民が連携して多方面で検討が進められており、AI農業はその中でも、熟練農家の農業技術・ノウハウの継承といった人材育成にも着目した取り組みです。 AI農業の「AI」は、人工知能を指す言葉である「AI:Artificial Intelligence」ではなく、日本語で農業情報科学を指す「AI:Agri Informatics」の略です。 農業情報科学とは、高度な農科学の知見と、最先端の情報科学(ICT)を組み合わせて、農業の高度化などを実現する
マイクロソフトが、データサイエンスの方法論などをまとめた「Team Data Science Process(TDSP)」を発表。データサイエンスのためのガイドラインやツールをGitHubで公開した。 米マイクロソフトは2016年10月11日(米国時間)、データサイエンスにチームで協力して取り組むための方法論/事例集「Team Data Science Process(TDSP)」を発表。TDSPのガイドライン、プロジェクト構造、ツールをGitHubで公開した。 TDSPは、データサイエンスにおけるコラボレーションやチーム学習を改善する「アジャイルで反復的な方法論」。以下の要素で構成される。 データサイエンスライフサイクルの定義 標準プロジェクト構造 分散共有型の分析インフラ データサイエンティスト用のツール/ユーティリティー データサイエンスライフサイクル データサイエンスライフサイクル
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く