Tokyo.SciPy #2 にて発表した、数式(あるいは数式入りのアルゴリズム)から実装に落とす場合、何に気をつけるのか、どう考えればいいのか、というお話。 対象は、どうやって数式をプログラムすればいいかよくわからない人、ちょっとややこしい数式になると四苦八苦してしまい、コードに落とすのにすごく時間がかかってしまう人、など。 ここでは実行速度についてはひとまずおいといて、簡潔で間違いにくい、ちゃんと動くコードを書くことを目標にしています。 Read less

私は最近のバグの傾向、キーワードを組み合わせて連想したネタでバグを見つけることが多いです。見つけないことも多いけど。 これを機械にやらせたらおもしろそう。 https://github.com/seki/Drip/blob/master/sample/tw_markov.rb オフレコなんだけど、githubのDripのsample/に、自分のツイートのログからマルコフ連鎖つかって自分っぽいツイートを生成するスクリプトがあるじゃん?この自分のツイート風文章作成の辞書をバグ票から作ればそのシステムに出てきそうなバグが作れるはず。 んで、やってみた。(あまりに短いのでスクリプトは載せません) うちのRWikiに入ってる数万のストーリーから直近の数千のバグっぽいチケットを集めてきて辞書を作って、バグ報告風文章を作成するシステムを書いてみたですよ。確かにそれらしいバグ報告が生成されます。次はそのバ
本日の日記は音声の母音についてのどうでもいい話である。専門用語多め。 しばしば母音を語るときに第一フォルマントと第二フォルマントの二つで表すことを前提として話が進められることがあるが、このところ母音をいろいろと触っていて日本語五母音をたった二つのパラメータで表すのは無理なんじゃないかという気がしてきた。フォルマントという概念が悪いとかいうことではなく、「たった二つのパラメータ」というところがポイントである。 文系でも理系でも多くの研究で第一・第二フォルマント平面の図が使われており、物理モデルを考えてみても長さ20cm程度の管なら共振点の数はそれくらいでいいだろうということになっているが、私の感覚ではそれでは弁別のためのパラメータが足りない。 このところスペクトルから日本語の母音を読み取る作業をしているのだが(その作業が目的ではなくほかの目的のためにしている)、「あ」と「お」は非常に区別がつ
Augmented Realityといえば、カメラで撮影した画像上にピンや吹き出し、テキストなどの情報を重ねて表示していくものだと、いろいろ出ている製品を見て思いがちですが、ドイツで発表されたDiminished Rea […] Augmented Realityといえば、カメラで撮影した画像上にピンや吹き出し、テキストなどの情報を重ねて表示していくものだと、いろいろ出ている製品を見て思いがちですが、ドイツで発表されたDiminished Reality(ディミニッシュト・リアリティ)は、そこにあるはずのものを見えなくする技術だそうです。 左が机の上を直接見た状態で、キーボードの手前にホッチキス等が置いてあります。右側がタブレット越しに見た映像で、小物が消え去っています。 動画を見ると、カメラから取り込んだ画像をリアルタイムで加工して、タブレットの方角が変わっても隠した物体が見えることは無
(※非常にマニアックな話です。) (※また、まだ確証の得られていない話です。) (※「その2」はいつになるか分かりません。) 本日の日記は音声の話題である。特に子音の弁別についての話題であり、その中でも表題のとおり日本語の/b/と/d/と/g/の違いの話題であり、さらに母音が/e/のときに限るというマニアックな話題である。これは私が本気で研究しているメインのテーマである。 表題のとおり、「べ」と「で」と「げ」の違いを明確にすることが私の研究の目標なのだが、すでに研究に着手してから二年半が過ぎた。おそらくそれくらいは何も得られずに過ぎるだろうと覚悟していたが(五年経って何も出てこなかったらこのテーマを諦めようと思っていたくらいの長期計画である)、それでも見えてきたものがある。そして、その見えてきたものこそが、「べ・で・げ」の違いを見つけることの難しさを物語っている。 私は、この研究目標を設定
2枚の画像をかなり高精度に合わせこむ、最近注目の方法ということで作ってみました。 やっていることはシンプルなんですが、よく考えてあるな、という感じです。 平行移動のずれを求める場合と、回転角のずれを求める場合(回転不変位相限定相関RIPOC)を 作ってみました。 【平行移動の場合(従来方法)】 通常、2枚の画像の位置ずれを求める場合は、画像の相関をとることがよく行われます。 この場合、2枚の画像をずらしながら相関値を求めてもいいですが、 FFTで周波数空間に変換して、両者の積をとって、逆FFTしても計算できます。 例) 例えばこの2枚の画像の相関マップ(相関が高いほど明るい)は次のようになる。 位置ずれ量はこの相関値のピークを求めることで特定できます。 サブピクセル精度で位置ずれを求める場合は、最大値付近を2次曲面等で当てはめて求めます。 【平行移動の場合(POC)】 これに対して、位相限
本日の話はたわごとであるが、それなりに面白いような気がするので書く。音声認識とインタフェースに関する話である。 とある人に音声認識についていろいろと聞かれた。その人はほとんど音声認識について技術的な知識がなく、質問は「今どこまで音声認識はできているのか」という抽象的なところから始まった。その後、話はいろいろと飛んだのだが、最後にその人ならではの視点からの質問が来た。こんな質問である。 「パソコンのキーボードはとても打ちづらい配置になっているが、人はそれに適応した。つまり、人が道具に合わせた。音声認識でも人が道具に合わせることは可能なのか? つまり、音声認識に合わせた人工言語を作ることは可能なのか?」 最初私は直感的に不可能だと感じたが、数秒考えて「あるといえばある」ということを答えた。音声認識が苦手なのは、子音と子音に伴う無音区間の扱いである。無音区間というのは単語と単語の間とかいう意味で
本日のお題画像: *1 非常に分かりにくいのですが、お題画像の左側、 この画像、左に0.8度くらい傾いています。ウソだとお思いなら、分度器で測ってみてください。 大量のスキャン画像を処理する場合、その都度、分度器で測定するわけには行きません。 そこで登場するのが、今までに何度か登場しているHough変換(ハフへんかん)です。 すでに、http://d.hatena.ne.jp/denshikA/20100420で確認したとおり、「赤枠内の交差点の位置だけで、緑枠内に線が、どのあたりに、どんな傾きであるのか、分かってしまう」わけです。 今日は、傾きに注目してみましょう。とりあえず、以下の4つを見てください。 うすうすお分かりのように、緑枠の縦っぽい線が左に45度づつ傾くと、赤枠内の交差点が右に1/4づつ進みます。 つまり、赤枠内の横軸は、ゼロから180までをあらわしていて、交差点の位置から、
SIGGRAPH2009で発表された"Moving Gradients: A Path-Based Method for Plausible Image Interpolation"という論文*1では、2枚の連続する入力画像を与えると、その間のフレームを極めて自然に補間生成する新たな手法を提案している。 図1 図1は両端の入力画像A, Bから間の3フレームを生成した例を示している。生成する補間フレーム数は任意で何枚でも生成可能であり、極めて自然な補間が実現できている。この例の驚くべきところは、制約条件を有する複雑で柔らかな局所変形を含む自然な補間画像が、全自動で生成されている点である。モーフィング処理では対応点を一点一点指定する必要があるが、ここで必要なのは2つの画像を選択するだけだ。 生成される補間画像の品質は素晴らしく、またアイデアもシンプルで興味深いので、原論文を参照して本手法の概要
本日の日記は音声認識についての話である。とにかくシンプルに音声認識アルゴリズムを設計したらどういうことになるのかという実験について語る。 目標は自動単語音声認識である。現在の音声認識というのは大抵「文」の音声認識なのであるが、それよりも一段階難易度の低い「単語」の音声認識を目標とした。単語音声認識というのは、入力音声がどの候補単語に最も近いのかを当てるというものである。例えば、候補単語が「トマト」と「バナナ」の二つだけでも立派な「単語音声認識」である。 この問題は、「入力音声とトマト」「入力音声とバナナ」の類似度を測って近い方を回答とするのが、きっと最もシンプルな解法である。つまり、どのように音声信号間の類似度を測るか、あるいは、どのように入力音声と単語モデルの類似度を測るかが、話の中心となる。今回は音声信号間の類似度を測ることにする。最近傍法的な考え方である。 まず、入力音声と候補音声の
公共の場に設置された防犯カメラが撮影した人を瞬時に棒状の記号に置き換える画像処理システムを、京都大などの研究グループが開発した。 プライバシーに配慮することで、防犯カメラの映像をインターネットで公開したり、買い物客の行動を分析してマーケティングに生かしたり、多くの分野での応用が可能になるという。 開発したのは、美濃導彦京都大教授(情報工学)ら。新システムではカメラが通行人の動きを感知すると、人を棒に置き換え、事前に撮影していた無人の背景画像に重ねて表示する。 観光施設にあるカメラの活用も検討中。収集したデータをもとに来場者数を駅に掲示し、訪れた人に混雑情報を事前に知らせることも目指す。7月末から京都市内の商業施設で5カ月間の実証実験を行う。
相変わらず、子音について興味がある。本日の日記は、「b,d,g」の違いがスペクトログラムやその亜種を見ても分からなかったのでスペクトログラムを見ても分からないところに違いがあるのではないかという感想と、DFTによるスペクトログラム以外にも時間周波数分析法はあるので自己流で時間周波数分析をしていたけどその分析法でも子音の調音位置が見えなかったという報告である。前者の「感想」は単なる感想である。後者の分析法はそこそこ面白いかもしれない。 まず、問題のない話からである。私の把握している限りでは音声の母音は何を解析すれば弁別できるのかが比較的はっきりしている。帯域ごとのパワーの分布である。のどから唇までは、太さの異なる管が縦続接続されていると近似的に見なすことができ、接続されている管の太さと長さを方程式にあてはめれば、パワーの分布が出てくる。人が母音を発するときには管の太さを舌などによって変化させ
Mac、iPhone、iPod、歌声合成、DTM、楽器、各種ガジェット、メディアなどの情報・雑感などなど NEW:20分で理解するSekai Camera〜セカイカメラ関連記事のまとめに、新たな関連記事まとめを作りました。 追記(2009-10-31):仮想現実に関するTwitterアカウント「ar_onetopi」をOneTopiで始めました。セカイカメラをはじめとするAR関連の最新トピックを追いかけています。まとめページはこちら。 これはきょうのAppleの発表もぶっとぶほどすごいことなのかも。世界カメラ「Sekai Camera」。SekaiCameraとの表記もありCEOの井口氏はセカイカメラと言っているので、日本語表記は「セカイカメラ」かな? まずはYouTubeの動画をどうぞ。 TechCrunch 50で、日本企業のTonchidot(頓智・)がプレゼンテーションして絶賛され
また面白いことをやっている人が。凹凸のある壁面等について、同じ場面の写真を2枚撮る(1枚はフラッシュ有り、もう1枚は無し。)だけで3次元再構成が出来るという話。 Capturing 3D Surfaces Simply With a Flash Camera Wednesday, August 27, 2008 - by Daniel A. Begun HOT HARDWARE (追記:論文を読むと下のパラグラフの説明は正確ではなかった。ごめんなさい。論文へのリンクは下に。) 仕組みは単純。フラッシュ無しで写真を撮ると、手前にあるものはより明るく、奥にあるものはより暗く写る。これだけではある場所が暗いのがそういう色だからなのか奥にあるからなのかは判らないけれど、この情報とフラッシュ有りの写真で得られる実際の色の情報とを比較することで、ピクセル単位での奥行きマップ(depth map)を得る
以前、この日記で穴に興味があるということを書いた。後日、本屋で「穴と境界」という本を見つけた。穴と境界について哲学の存在論の観点から考察した本である。私は存在論についてはほとんど知らなかったのだが、穴についての存在論の考察は工学的なパターン認識のアプローチと共通するものがある(境界については共通していなかった)。 この本には、穴には三種類あると書かれている。くぼみ型とトーラス型と球の中の空洞部分である。この三つ目を穴に含めるべきかどうか私は迷っていたのだが、存在論の学者たちが穴について研究をするときには、この三つ目を穴と見なすらしい。ここでさらっと「存在論の学者たちが穴について研究をする」と書いたが、本書の穴についての考察の部分のほとんどは、著者が考えたものではなく、文献の紹介である。穴についての存在論的研究の代表的な論文が平易な言葉で解説されている。どうやら、穴というのは存在論の中でも重
その4です(動画内でのタイトル間違ってました、すいません)。画像ビューワ編。マイリスト mylist/6527130ソース公開しました。http://wahwahhawah.web.fc2.com/ardesktop祝!10000再生!(2009/05/21)
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く