ビッグデータの衝撃―巨大なデータが戦略を決める という本を読みました。 ビッグデータとは何か、どのように使われているのか、データサイエンティストとは、といったことが事例と共にとても分かりやすく説明されており、入門者レベルの私でも理解できました。 photo credit: JD Hancock via photopin cc そのなかで出てきたひとつのワード。それについておもしろいなーと思ったので取り上げてみたいと思います。 「データアグリゲーター」 まだあまりなじみのない言葉かもしれないが、データアグリゲーターとは、消費者とデータ活用事業者の間に入り、データの収集、分析、最適化を実施し、そのデータを事業者に提供する中間事業者のことです。 クックパッドとアイディーズ 具体的な事例としてクックパッドとアイディーズの話があげられていました。 日本最大のレシピサイトであるクックパッドと、全国のス
日本人3人がシリコンバレーで起業した「トレジャーデータ」は、データの収集・保管・分析を一貫して行うクラウド・ソリューション「Treasure Data Service」をエンタープライズ向けに提供する企業だ。分散処理を行うミドルウェア「Hadoop」や自社開発のデータベースを組み合わせたプラットフォームは、素早い実装と拡張性、安定性が評判を呼び、創業から約3年で100社以上に導入されている。 ビッグデータという言葉はビジネス用語として定番となりつつあるが、データの管理の負担が大きいなど、フルに活用できている企業はまだ少ない。世界でも注目されるスタートアップの1つである同社を率いる創業者の1人、CTOの太田一樹さんにビッグデータビジネスの今後の展望などについて聞いた。 データ解析をもっとシンプルに 「Treasure Data Service」の導入先は現在120社程度、そのうち約4割が日本
ビッグデータ活用がイノベーションを生む鍵の一つと期待されている。 クラウドを利用して大量のデータを収集、 その分析によりビジネスにとって価値ある情報を得る。 このとき重要になるのが人材や組織づくりに関わる マネジメントの役割である。 ビッグデータ活用のためにマネジメントは何をすべきなのか、 考え方、取り組み方、プロセスを5回にわたって解説します。 (1)ビッグデータ活用とビジネスの変化 -コマツで起こったこと- 前回は城崎温泉の事例から、ビッグデータ活用の本質を明らかにし、さらにこの活用を進めるには目的の明確化、マネジメントが参画した意思決定と活用効果の検証が重要であるという話をしました。 では、ビッグデータ活用でビジネスはどのように変わるのでしょう。これに関しても素晴らしい事例があります。建設機械大手のコマツです。同社の建設 機械には、車両の状態や稼働状況をチェックするセンサーやGPS装
米セールスフォース・ドットコムはベンチャー企業に対する投資も活発だ。2014年10月13日から16日(現地時間)に米・サンフランシスコで開催された同社のイベント「Dreamforce 2014」で発表されたデータ分析プラットフォームの「WAVE」にも、同社が買収した企業が開発に関わっているという(関連記事:セールスフォースが「分析クラウド」投入、DWHとBIツールを一体化して提供)。日本でも多くのBtoBベンチャーに出資しており、その中から米国に進出する企業も現れた。同社の投資案件に関わるExecutive Vice President、Corporate Development & Salesforce Venturesのジョン・ソモルジャイ氏に聞いた。
#今回は知財ではなく純粋にITの話です。なお、SoftbankのCMとも関係ありません。 データウェアハウスを構築する上で重要な処理にETL(Extract Transformation Load)があります。文字通り、データソースのシステムからデータを「抽出」し、「変換」し、データウェアハウスに「ロード」する処理のことです。 「変換」処理では、複数ソースのデータを統合して、データの形式をそろえたり、不正データを排除したりします。いわゆるデータ・クレンジング(洗浄)と呼ばれる処理です。これによってデータウェアハウスにロードされるデータの品質を向上できます。 しかし、ビッグデータの世界ではこのデータ洗浄をしてからロードするという考え方が必ずしも適切ではなくなってきます。データ品質とは一義的に決まるものではなく、分析の文脈によって変わってくるからです。データ管理者ではなくデータサイエンティスト
先日、有志で集まって「BigQuery Analytics」という書籍の読書会をやった。その名の通り Google BigQuery について書かれた洋書。 BigQuery を最近仕事で使い始めたのだが、BigQuery が開発された背景とかアーキテクチャーとかあまり調べもせずに使い始めたので今更ながらその辺のインプットを増やして以降と思った次第。 それで、読書会の第1回目は書籍の中でも Overview に相当するところを中心に読み合わせていった。それだけでもなかなかに面白かったので少しブログにでも書いてみようかなと思う。 BigQuery の話そのものも面白いが、個人的には Google のインフラが書籍『Google を支える技術』で解説されたものが "Big Data Stack 1.0" だとして、BigQuery は Big Data Stack 2.0 の上に構築されており
This blog post is authored by Chris Burges , Principal Research Manager at Microsoft Research, Redmond. Hi, I’m Chris Burges. Over my last 14 years at Microsoft, and my previous 14 at Bell Labs, I’ve spent much of my time dabbling with machine learning (ML), with some of that time spent on solving industrial strength problems. Since interest in ML, especially in industrial settings, has blossomed
3. 会社紹介 株式会社 Preferred Infrastructure l 略略称 PFI l 代表者 ⻄西川 徹 l 設⽴立立 2006年年3⽉月 l 社員数 26名 l 所在地 〒113-‐‑‒0033 東京都⽂文京区本郷2-‐‑‒40-‐‑‒1 l 事業概要 l 検索索/分析分野での製品開発, 販売, サービス提供 l ⼤大規模分散分析エンジンの共同研究開発 最先端の技術を最短路路で実⽤用化 リサーチとエンジニアリングの融合 世の中に必要とされる中で特に重要で困難な課題に対し解を提供 3 4. Preferred Infrastructure メンバー構成 l フルタイム26⼈人中23⼈人がエンジニア/研究者 l 以下の情報/理理/⼯工学博⼠士 l ⾃自然⾔言語処理理/機械学習/計算量量理理論論/データマイニング/
From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ(1分16秒)を作ってみた: From The Speed of Google BigQuery これは速すぎる。何かのインチキである(最初にデモを見た時そう思った)。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。 価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く