前回の記事では計量時系列分析とは何ぞや?みたいなところをやりましたので、今回はいろはのイともいえるARIMAまわりから始めていこうと思います。 ということで改めて、使用テキストはいつものこちらです。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人 クリック: 101回この商品を含むブログ (6件) を見る 以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。 必要なRパッケージ {forecast}をインストールして展開して下さい。Rそのものの初心者向け説明はここでは全面的に割愛するので、適宜何かしらの初心者向け説明をご参照あれ。 今回のモデルで目指すもの 前回の記事では、要は「自己相関が大事よー」という話を何度もしました。ということは、時系列モデリング
携帯端末の普及にともない,ユーザの状況に応じて様々な情報をリアルタイムに提供するサービスに注目が集まっている.そのため,GPSから取得した位置情報や,マイクロブログの投稿内容からユーザの行動を推定する研究が行われている.著者らは,これらに加えて,新たにユーザの習慣的な行動に着目した推定手法について検討を行った.本研究では,マイクロブログにおけるユーザの投稿内容と投稿数の変化から行動のパターンを抽出し,指定した時間帯における習慣的な行動を推定する手法を提案する.この手法により,マイクロブログの投稿内容には行動に関する記述がない場合でも,指定した時間帯におけるユーザの行動を推定できる.実証実験では,投稿内容のみを用いた手法と習慣行動もあわせて考慮する本手法とを比較し,提案手法の有用性について検証した. Services to provide variety of information in
元ネタのブログは「10 R packages every data scientist should know about」と「10 R packages I wish I knew about earlier」です。紹介されているパッケージはどれも良いのでメモしておきます。私が「取得した方がいいだろうなー」と思う順番に並べ替えてます。サンプルコードは後者の記事に載ってます。 randomForest:超強力な汎用予測モデル RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの接続 plyr:データ集約 reshape2:データ加工 forecast:時系列予測 stringr:文字列操作 lubridate:日付操作 sqldf:SQLライクなデータ操作 ggplot2:綺麗なプロットを描く qcc:品質管理 個人的には、下の3つは
はじめに 今回紹介する本は玄人向けではなく「データ分析が重要そうだけど、なんだかよくわかんないと思っている人」向けです。 昨今ではデータマイニングという単語がエンジニアやマーケティング担当者のものだけでなく、経営レイヤーでも重要視されてきています。 ビッグデータというバズワード的なものも頻繁に言われ始めて、めんどくさい上司とかはとにかく口にし出すような状況ではないでしょうか?(想像です) 勉強しないと!と思いはするものの、統計やらHadoopやらRやら、それにまつわるものが多すぎて何から手をつけていいのかわからないもの。 というわけで、私が最近読んだ中でも「何ができるものなのか」という浅く広いテーマについて触れている本をいくつか紹介します。 統計学 統計学が最強の学問である 作者:西内 啓ダイヤモンド社Amazon cakesの連載をまとめた本ですが、統計学がどういった分野に使われているの
データセクションさんのご好意でTwitterやFacebookに投稿された内容の時系列データをいただいたので、今日は選挙だしソーシャルメディアの情報からいろいろと分析をしてみました(最下部に今回分析したデータの元データも公開しています)。 データについて データの集計対象は12月3日〜15日までにTwitter/Facebookに投稿されたデータで集計の関係上直近一週間のデータは集計の関係上一部サンプリングされたデータが使われています。分析結果はTwitter/Facebookに投稿された投稿内容のテキスト情報を元に作成しています。 例えば、自民党のデータであれば「自民党 選挙」という文字列が含まれているテキスト情報に分析を行っています。またTwitter/Facebookを使っている人たちの平均的な傾向として「。」という文字が含まれたデータを平均値として用いています。さらに今回は総選挙の
概要 ここしばらく某社でデータの解析基盤を構築する仕事に携わっています。一からの構築になるので打てる手が多く楽しい一方で、適切な判断を下すのは難しいと実感しています。 解析基盤というのはもちろん解析を行うためのものですので、どう解析を行うかによってどういう基盤を構築していけばよいかが決まります。 ところで、データ(構造や収めているDBなども含めて)というのは寿命の長いもので、初期の設計を間違えてしまうと、その時点で戦略的な敗北は決まってしまいます。その後は運用しながら変更可能なところでゲリラ的に対応していくしか手を打てません。 そのため、実際に構築を行う前に、求められている解析がどのようなものかを十分に吟味した上で、適切なハードウェア、ミドルウェア、データ構造を選択し基盤を構築していくことが大変重要です。 着目すべき点 では解析のどのような点に着目すればよいかというと、私は次の5点を考えて
総合研究大学院大学 複合科学研究科 情報学専攻 卒 博士(情報学) 自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 周期的に発生するburstの予測と抑制 藤木稔明 奥村学 東京工業大学 人工知能学会 第73回知識ベースシステム研究会, 2006 しかし、我々の手法では周期的に注目状態になる単語が、毎回獲得されてしまうという問題がある。例えば、「クリスマス」のような単語が毎年注目されていると考えるのはある意味では正しいのだが、ある年の12月にはどんな話題があったのかということを考えたときに「クリスマス」という単語が得られるのは望ましくない。 そこで本稿では、我々が従来提案しているburst 検出手法を用いて、このように周期的に注目
頻出パターンマイニング(Frequent pattern mining)は,頻出するアイテムの組み合わせを抽出する一連の手法を指します.頻出パターンマイニングの代表例として相関ルールのマイニングがありますが,この手法を用いるとPOSデータからビールとおむつを一緒に購入する消費者が多いことなどの知見が得られます. 一方で,頻出パターンマイニングでは,順序性のあるパターンは抽出できません.例えば,ビールを購入した消費者がその後おむつを購入する傾向があることは,頻出パターンマイニングでは分かりません. このように順序性のあるパターンを抽出する手法は,系列パターンマイニング(Sequential pattern mining)と呼ばれており,1995年にIBM研究所のR.AgrawalとR.Srikantによって提唱されました. RのarulesSequencesパッケージを使用すると,系列パター
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く