[B! data_science] gandenのブックマーク

ganden id:ganden

data_scienceに関するgandenのブックマーク (43)

CodaLab
ganden 2018/12/30
data_science

kaggle
リンク
GitList -GitList
ganden 2018/12/30
data_science

kaggle
リンク
KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog
週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。参加の動機目標感: 頑張りすぎずに上位10%以内に入る試行錯誤 AthenaとRedashによる探索的データ解析ベンチマークをまず超える線形分類器でシンプルな特徴量時系列要素を忘れていて過学習発生特徴量エンジニアリン
ganden 2018/03/19
data_science
リンク
GitHub - facebook/prophet: Tool for producing high quality forecasts for time series data that has multiple seasonality with linear or non-linear growth.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
ganden 2018/03/05
data_science

forecasting

time_series

facebook
リンク
データサイエンスプロジェクトのディレクトリ構成どうするか問題
あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。こういう話で「あーその手があったかー！」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。必要なものリストナウいデータサイエンス/機械学習プロジェクトの中には（経験上、ぱっと思い浮かぶだけでも）次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。ソースコード役割がいろいろある：前処理（こ
ganden 2017/12/18
data_science
リンク
勾配ブースティング決定木を理解する - hiyoko9t’s blog
本記事では、機械学習コンペなどでよく見られる勾配ブースティング決定木(gradient boosting decision tree)を説明します。勾配ブースティング決定木は、MNISTデータに対して、ニューラルネットの最高精度と同等の精度を出したり、また高速な実装xgboostなどで有名な手法です。ライブラリを使用している方も多いと思いますが、意外とどのような構造になっているかを知らない人もいるかもしれません。そこで、本記事では、決定木とは何か、というところから始めて、アンサンブル学習、勾配ブースティング決定木について見ていきます。決定木情報利得アンサンブル学習バギングブースティング勾配ブースティング決定木各反復での訓練モデルの複雑性最適解の導出実装例まとめ参考決定木決定木(decision tree)は、データに対して一連の質問を与えることによって、目標に
ganden 2017/12/06
gbdt

machine_learning

data_science
リンク
非負値行列因子分解(NMF)とK-meansが等価である話 - Qiita
NMF(Non-negative Matrix Factorization)とK-meansが等価であるという話を聞いたので参考論文を基にメモ書き程度に残しておきます。なお、本稿では簡単な対称NMFについてしか記述しないので、それ以上を求める方は参考論文を辿って下さい。 NMF(Non-negative Matrix Factorization) 各成分が非負であるデータ行列$X=[\boldsymbol{x}_1 , ..., \boldsymbol{x}_n] \in \mathbb{R}^{p \times n}$であるとする(画像の各ピクセル値がデータ数分の行列となっている状態)。NMFではSVDやPCA等と異なり、この行列を非負行列で近似する。要するに下のようになる。
ganden 2017/11/27
nmf

factorization

data_science

data_mining

clustering
リンク
機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界
さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub（https://github.com/ShoKosaka/Suumo）に上げておきますので興味ある方は参照ください。最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。データ探索まず、23区の中でどこが物件数が多いのかを
ganden 2017/11/09
data_science
リンク
Kaggleで使われた特徴量エンジニアリングとアルゴリズムまとめ – かものはしの分析ブログ
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリスト Kaggleにおいて、人によってはソリューションを書いてくれているものがあります。特徴量エンジニアリングやアルゴリズムなど業務での参考になるだろうと思われるので、仕事で関わりそうなデータという観点から4つほどですが事例を集めてみました。このような事例のまとまった本とかあったらいいのですが。基本的に各事例ごとに・目的・どんなデータセット・どんな特徴量エンジニアリング・どんなアルゴリズム・リンクを記していきます。 Walmart Recruiting – S
ganden 2017/07/27
data_science

kaggle
リンク
時系列データの相関係数はあてにならない……のか？　教えて下さい - 廿TT
本記事の趣旨見せ掛けの回帰と見せ掛けの相関（擬似相関）は違います。時系列（というか、ランダムウォークする系列ランダムウォーク - Wikipedia ）の場合、相関係数は比較的高い値になりやすく、また有意な相関が出やすいので注意。あと高橋洋一の議論を擁護する話題が混じっていますが、これについては、金融緩和はブタ積み上等。金融緩和賛成。消費税増税反対。 - 廿TT を参照してください。「時系列　相関」「時系列　相関」でググったところ以下のような記事がヒットした. 時系列データの相関係数はあてにならない: ニュースの社会科学的な裏側現時点では Google 検索で上から 6 番目 R - 時系列データ分析の初心者に必ず知ってもらいたい重要ポイント：回帰分析・相関関係分析を行う前に必ずやるべきこと（データの形のチェックと変形） - Qiita 現時点では Google 検索で上か
ganden 2017/07/27
data_science

time-series
リンク
AIが競馬予想で回収率180％突破の快挙！『電脳賞』優勝のITエンジニアが語る戦略が鮮やかすぎて目からウロコ
どうも、「電ファミ」では競馬担当になりつつある、長谷川リョーです。前回は北海道まで出張取材をした「リアルダビスタ」の記事をお届けしました。「将来の夢は馬主になることだ」と競馬への愛についても触れさせていただきましたが、馬券の方も嗜みます。週末は重賞を中心に、平場のレースまで手広く買うことが多いです。（Photo by Getty Images）　1度だけ万万万馬券を当てたことがあり、生涯収支は間違いなくプラスなのですが、あの大当たりがなければ間違いなく回収率は100%を下回っていたことと思います。（僕だけではなく、おそらく多くの人が同じ現状だと思います……）普段はAI（人工知能）、IoT、VRのようなテクノロジー周りの取材記事を書くことも多く、「ディープラーニングのような技術を元に、競馬予想をするプログラムを作ることができるのでは？」と夢想したことも一度や二度ではありません。IT企業
ganden 2017/05/22
keiba

machine_learning

data_science

data_mining
リンク
時系列データへの回帰分析 | Logics of Blue
新規作成：2017年05月16日最終更新：2017年05月16日ここでは、時系列データを手にした際に、どのような手順で回帰分析をかけていけばいいのか、フローチャートを交えて解説します。時系列データは特殊でして、普通の回帰分析を行うと、p値がおかしくなり、正しく検定ができなくなることがよくあります。これを見せかけの回帰と呼びます。シミュレーションを通して、見せかけの回帰という現象を確認したうえで、それらに対応する手法としての単位根検定・共和分検定・一般化最小二乗法(GLS)の基本的な考え方とRでの実装方法について説明します。ソースコードはまとめてこちらに置いてあります。スポンサードリンク目次時系列データへの回帰分析フローチャート単位根と見せかけの回帰データチェック1　単位根検定とADF検定解決策１　差分系列への回帰分析差分系列への回帰分析の問題点データチェック２　共
ganden 2017/05/22
statistics

data_science

analytics

time-series
リンク
ホテルのレベニューマネジメントをAIで効率化|メトロエンジン
とりこぼし様々なデータを分析し最適価格を推奨することで、競合価格やイベント情報の変化をタイムリーに取得できないことによる取りこぼしを防ぎます情報収集の効率化競合価格/イベント情報/クチコミなど、価格設定に必要な情報をまとめて確認できます属人化の解消 AIによる分析と最適価格の推奨で、特定の社員に頼りがちなレベニューマネジメントの標準化を実現します見える化ブラックボックスになりがちなレベニューマネジメント業務を、データと分析ダッシュボードで可視化します稼働率価格による機会損失を少なくしながら稼働率の向上を⽬指します人材育成簡単な操作で、経験の浅いスタッフも短期間で操作でき、多能⼯化を促進します
ganden 2017/05/22
revenue_management

machine_learning

data_science
リンク
Selected R Packages, from RStudio
ganden 2017/05/20
data_science

dashboard

R

visualization
リンク
Exploratory
Exploratory Desktop provides a Simple and Easy-to-Use UI experience to access various data sources, clean and transf orm data, visualize and analyze data to gain deeper insights, communicate your discoveries with Notes, and monitor your business metrics with Dashboards. You can quickly extract data from various built-in data sources such as Redshift, BigQuery, PostgreSQL, MySQL, Oracle, SQL Server,
ganden 2017/05/20
data

visualization

R

data_science
リンク
データの次元削減に関する資料集 - めも
次元削減とはデータの次元削減(Dimensionality reduction) + データの可視化(Data Visualization) PCA Principal Component Analysis(PCA) randomized PCA Online Robust Principal Component Analysis(OR-PCA) 多様体学習 t-Distributed Stochastic Neighbor Embedding(t-SNE) Multidimensional Scaling(MDS) Isomap Locally Linear Embedding (LLE) Laplacian Eigenmaps(LE) Semidefinite Embedding (SDE) Latent Dirichlet Allocation(LDA) Labeled LDA P
ganden 2017/05/05
algorithm

data_science

dimensionality_reduction
リンク
第7回競馬予測を機械学習で解くための方法と評価方法
第7回目の理論記事では競馬をどのように機械学習問題に落とし込むのか、また学習した予測モデルの性能評価方法について説明していきます。教師あり学習と教師なし学習機械学習の問題は**教師あり学習（Supervised Learning）と教師なし学習（Unsupervised Learning）**の大きく2つに分類されます1。教師あり学習とは、特徴ベクトル $ \mathbf{x}_i $ に対する望ましい応答 $ y_i $ の組 $ {(\mathbf{x}_i, y_i) } $ を訓練データとして与え、それをガイドにして関係 $ y = f(\mathbf{x}) $ を学習をします。そのようにして得られた予測モデル $ f $ に未知の特徴ベクトルを与えることで未来の現象を予測します。予測モデル $ f $ は、線形モデル、ニューラルネットワーク、決定木、サポートベクターマシン
ganden 2017/05/05
keiba

data_science
リンク
Our quest for robust time series forecasting at scale
by ERIC TASSONE, FARZAN ROHANI We were part of a team of data scientists in Search Infrastructure at Google that took on the task of developing robust and automatic large-scale time series forecasting for our organization. In this post, we recount how we approached the task, describing initial stakeholder needs, the business and engineering contexts in which the challenge arose, and theoretical an
ganden 2017/05/04
google

time-series

analytics

forecast

data_science
リンク
AI農業
藤森勇介＝NTTデータ経営研究所デジタルイノベーションコンサルティンググループコンサルタント AI農業とは、「暗黙知」となっている熟練農家の優れた農業技術・ノウハウを、ICT技術を活用して「形式知化」することで、他の農業者や新規参入者に短期間で継承したり農業を高度化したりすることを目的とした新しい農業です。 ICTを活用した農業の高度化については、官民が連携して多方面で検討が進められており、AI農業はその中でも、熟練農家の農業技術・ノウハウの継承といった人材育成にも着目した取り組みです。 AI農業の「AI」は、人工知能を指す言葉である「AI：Artificial Intelligence」ではなく、日本語で農業情報科学を指す「AI：Agri Informatics」の略です。農業情報科学とは、高度な農科学の知見と、最先端の情報科学（ICT）を組み合わせて、農業の高度化などを実現する
ganden 2016/12/26
data_science

machine_learnning

agriculture
リンク
データサイエンスを加速させる「TDSP」とは何か？
マイクロソフトが、データサイエンスの方法論などをまとめた「Team Data Science Process（TDSP）」を発表。データサイエンスのためのガイドラインやツールをGitHubで公開した。米マイクロソフトは2016年10月11日（米国時間）、データサイエンスにチームで協力して取り組むための方法論／事例集「Team Data Science Process（TDSP）」を発表。TDSPのガイドライン、プロジェクト構造、ツールをGitHubで公開した。 TDSPは、データサイエンスにおけるコラボレーションやチーム学習を改善する「アジャイルで反復的な方法論」。以下の要素で構成される。データサイエンスライフサイクルの定義標準プロジェクト構造分散共有型の分析インフラデータサイエンティスト用のツール／ユーティリティーデータサイエンスライフサイクルデータサイエンスライフサイクル
ganden 2016/10/14
data_science

microsoft

knowledge
リンク
1 2 3 次のページ