サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Switch 2
www.mlab.im.dendai.ac.jp/~yamada
Twitter API 有料化 Twitter API は、そのほとんどが有料化されました。 ツイートの取得が可能な "Basic" アクセスは $100/月です。 無料の "Free" アクセスでは、ツイートの投稿しかできません。 Getting started (Twitter Developer Platform) Twitter API有料(Basic)・無料プラン利用開始手順 (Programming ZERO) 以下の情報は、$100/月を支払う人のために残しておきます。 Twitter 社は多様な API を公開しており、ユーザが Twitter のページでできることは API でもほぼできるようになっている。 ただし、API の場合にはリクエスト数(頻度)の制限が厳しく、したいことが現実的に可能かどうか見極めが必要となる。 Twitter の API は仕様変更が多く、We
Java ライブラリ(*.jar)のインストール Java のクラスライブラリは、*.jar というファイルで提供されていることがあります。 これは Java のクラスファイル *.class を集めて圧縮したものです。 コンパイル時や実行時に Java の処理系がこのライブラリを参照するようにするには、 以下の方法があります。 コンパイラがクラスを探しにいく場所のリストである classpath に含める。 環境変数 CLASSPATH の設定をする (すでにあれば追加をする) javac/java コマンド実行時に -classpath オプションで指定する eclipse のプロジェクトのビルド・パスに追加する システム標準の *.jar 置き場にコピーし、何も設定しなくても参照されるようにする。 方法例1: eclipse のビルド・パスに追加 eclipse のプロジェクトでは、
日本語形態素解析システム。C++ で書かれている。 公式ページ: MeCab 作者による解説 (GREE Labs における講演) 本体のほかに辞書が必要。いくつか選択肢があるが、茶筌と同じIPAの辞書を利用するのが標準的。Windows版では同梱されている。 さまざまな言語から呼び出すことができる。(binding)。 インストール 本体および辞書 Ubuntu および Vine Linux では、 本体、辞書ともパッケージが提供されているが、 最新版ではないことがある。 Windows 用は本体と辞書が一体で配布されている。 辞書や連接表は元ファイルがテキスト形式なので、 内部に興味がある人は覗いてみるとよい。 Windows 配布されているものを開きインストール。 ダウンロード Ubuntu $ sudo apt-get update $ sudo apt-get install l
日本語文を単語に分割することができれば、 情報検索システムにおける索引語の抽出などに応用が可能である。 日本語は欧米の言語と違い、単語と単語の間に空白がないため、 単語の切り出しは容易ではない。 日本語文を単語に分割するためには形態素解析 (morphological analysis) が必要となる。 形態素解析システム 形態素解析システムと呼ばれるソフトウェアを用いると、 日本語文が単語辞書と文法規則によって正しく単語に分割される。 また、各単語の品詞情報が得られるほか、 用言 (動詞、形容詞など) の活用形を基本形(原形、終止形)に戻してくれる。 日本語形態素解析システムのリスト 形態素解析システムのうち、日本語に対応していて、 オープンソースのものを挙げる。 MeCab 最も知名度のある形態素解析システム。下記の茶筌を設計し直したもの。茶筌より高速だが、一部機能が限定されている。C
Javaにおける正規表現 Javaには正規表現に関する機能を実現するためのパッケージ java.util.regex があります (Java SDK 1.4 で導入)。 このパッケージにより、強力な正規表現の機能を持つ Perl とほぼ同等の機能が実現されています。 クラス java.util.regex.Pattern が正規表現を表すクラスで、このクラスの matcher メソッドによって、実際にマッチングを行うクラス java.util.regex.Matcher のインスタンスを生成します。 クラス Pattern は new ではなく、compile という static メソッドによりインスタンスを生成します。なお、static メソッドはクラスに属し、インスタンスがなくても呼び出すことができます。通常のメソッド呼び出しは「インスタンス名.メソッド名」ですが、static メソ
これまで扱ってきたXML文書は、単一のスキーマに基づくものでした。 例えば注文書のXML文書では、 注文書のスキーマで定義されている要素だけが現れます。 実際の場面では、1つのXML文書内で、複数のスキーマの要素を混在させて使いたい場合があります。 例えば、品物を記述するためのスキーマを用意しておくと、 注文書や在庫管理票など、品物の情報の記述を必要とするさまざまな場面で使えそうです。 また、既存のものをベースに新たな文書を作りたい場合があります。 例えば、XHTMLの要素と独自の要素を組み合わせる、 XHTMLとMathMLを組み合わせる、などです。 ここでは、複数のスキーマに基づくXML文書の作成方法を紹介します。 いま、スキーマaとスキーマbの2つのスキーマに基づいたXML文書を考えます。 スキーマが2つあるということは、 それぞれのスキーマで定義されている要素が1つの文書内に混在す
XMLの枠組みでは、スキーマをつくることが言語を設計をすることです。 ここでは、スキーマを記述するための言語である XML Schema を取り上げ、 その記述方法を概観します。 概要 XML Schema は、DTD に代わる新しいスキーマ記述言語です。 DTD と比較すると、以下の特徴があります。 名前空間のサポート 豊富なデータ型 XML文書での記述 入門 以前、以下のXML文書を例に挙げました。 <?xml version="1.0" encoding="utf-8"?> <挨拶状> <宛先> <名前>電大牛男</名前> <所属>東京電機大学</所属> </宛先> <本文> <段落>ようこそ!</段落> </本文> </挨拶状> このスキーマを記述することを考えます。 以下のようなルールを記述できればいいわけです。 root要素は「挨拶状」とする その子要素として、まず「宛先」が1
Sen は Java で書かれた日本語形態素解析システム。 C++ で開発されている MeCab を Java に移植したもの。 辞書は MeCab、茶筌と同じIPAの辞書を利用。 Sen配布ページ 辞書の構築に Apache Ant が必要。 このページは Sen version 1.2.2.1 用である。 インストール Apache Antのインストール Sen は辞書を構築するのに Apache Ant というビルドツールを使う。 これをあらかじめインストールしておく必要がある。 Apache Ant のインストール Senのインストール パッケージはSen配布ページから sen-1.2.2.1.zip をダウンロードしておく(mirror)。以下では ~学籍番号/Desktop/ にダウンロードしたものとして話を進める。 展開 /usr/local に展開し、ディレクトリ名を se
Web サービス (Web Service) とは Web サービス (Web Service) / Web API とは、 クライアントアプリケーション(ソフトウェア)とサーバが情報の受け渡しをする仕組みのことをいう。 Webアプリケーションとして構築される人間向けのサービスが Webサービスと呼称されることがある(もともとは誤用)。 それとは異なる。 仕様 SOAP(Simple Object Access Protocol): XMLでデータのやり取り。 REST(REpresentational State Transfer): HTTP の GET などでリクエスト。レスポンスの形式は XML, JSON, JSONPなど。 一般に公開されている Webサービスは REST の枠組みで提供されている。 レスポンス(サーバからの応答)の形式は XML か JSON で提供されている
プログラムを実行する際のパラメータを指定する方法は、何通りかあります。 ソースに書いておく コマンドライン引数で与える 環境変数を設定して与える 設定ファイルを用意して与える 独自形式のデータファイルを用意して与える ソースに書いておくのは、 パラメータの値が変わるごとに再コンパイルが必要になってしまうので論外です。 コマンドライン引数で与えるのが最も簡便ですが、 パラメータ自身を保存する仕組みがないという欠点があります。 プロパティファイルによる情報の外部保存 Java ではプロパティファイルという仕組みにより、 キー(key)と値(value)の組による情報をファイルに読み書きすることができます。 プロパティファイルは、「キー=値」の形式で記述されたテキストファイルです。 id=mlab url=http://www.mlab.im.dendai.ac.jp/ プロパティファイルはアプ
言語表現によるコメントの分類とフィルタリング 発表 SBM研究会 第3回 [発表スライド] 過去、NLP2009, WI2 で発表 スパマーのブックマーク行動の特徴に基づくスパム検出 発表 最新は「ソーシャルブックマークにおけるスパム検出のための特徴とその評価」 FIT2009.
Javaにおけるデータ入出力の考え方 オブジェクト指向言語であるJavaでは、データの入出力にもクラスを使います。 データの流れをクラスInputStream/OutputStreamのインスタンスとして扱い、 それらに対して読み書きをするのにクラスInputStreamReader/OutputStreamWriterを用います。 上記の図は入力を行う際の概念図ですが、実際にデータ入力を行う際には、 対象とするデータの種類やデータのある場所によって、行うべき処理内容が異なってきます。 例えば、ローカルのディスクに存在するファイルからの読み込みと、 ネットワークを介したサーバの応答の受信では、明らかに処理が異なります。 Javaではオブジェクト指向の特徴を生かし、 入力データ全般に成り立つ性質をクラスInputStreamに持たせ、 それを継承する形で様々な種類の入力データに対応するよう、
HTML Parser (Java) 概要 HTMLの構造を解析する Java のクラスライブラリ。 内容の抽出、構造の変換が可能。 HTTP接続の機能を含む。 簡単な特徴のまとめ (MYCOMジャーナル) 公式ページ / ダウンロード 公式ページ (sourceforge) ダウンロードは公式ページの左のメニュー -> Downloads -> Current 正式リリースでは htmlparser1_6_20060610.zip が最新 (2007年9月28日現在) ダウンロード元は jaist など近いところを選ぶ。 Vine Linux 3.1 を使用している場合は Firefox をインストールして、それを使ってダウンロードすること。 インストール htmlparser1_6_20060610.zip が ~/Desktop/ に保存されているものとする。 インストール先は ~/
ソートされたデータのためのTreeMap 単語の頻度が求まったら、頻度順にソートしてみたくなる。 HashMap は key (=単語)に順序を与えることはできない。 TreeMap は HashMap と同様、key と value の組を保持することができるデータ構造 java.util.TreeMap は key 同士の値を比較して、その順序を木構造で表したデータ構造。 key の順序づけには、key 同士を比較するためのクラスを用意する。そのクラスは Comparator インタフェースを実装する。 ソート自体は Java であらかじめ用意されたアルゴリズムで実行される。 TreeMap のコンストラクタ TreeMap<K,V>(Comparator c) 指定の Comparator (比較のためのクラス)に従ってソートされる、新しい空のマップを作成する。 TreeMap のメ
単語のカウントとHashMap 単語が切り出せたら、どの単語が何回出現しているか統計が取れる。 (単語, 出現回数)の組を記憶するデータ構造が必要。 Map は key と value の組を保持することができる。 java.util.HashMap はハッシュ関数を用いて key から value を高速に求めることができるデータ構造。 JDK 1.4 以前では、key も value も Object クラスなので、値を取り出すときにはキャストが必要。 HashMap<K, V> のメソッド boolean containsKey(Object key) マップが指定のキーのマッピングを保持する場合に true を返す。 V get(Object key) この識別情報ハッシュマップで指定されたキーにマップされている値を返す。 Set<K> keySet() マップに格納されているキー
概要 科目概要と履修案内 講義スライド 情報アクセスと知的処理 - 概論 (スキップ) 情報推薦のアルゴリズム 情報検索の基礎 情報検索とは / 情報検索システムの評価指標 検索対象の表現と索引付け 検索モデル 自然言語処理の基礎 自然言語処理とその応用 自然言語処理の基盤技術 演習問題 a を押すとスライド全ページを 1ページとして表示させることができます。 実習テキスト この演習で作成するシステムの全体像 この演習で作成するプログラム プログラミングの準備 プロジェクトの作成 Maven: プロジェクト管理ツール の使用 (任意) 2年次科目「データ記述とWebサービス」の内容 (復習) 以下は抜粋 Feed (RSS/Atom) の利用 Feedとは Feedの例 Webサービスの利用 Webサービス Webページの利用 HTML文書と DOM 動的なページの取得 Selenium:
お知らせ 2023年度以降は「データエンジニアリング」のページを参照してください。 科目の位置づけ この科目は選択科目です。 プログラミングの演習があります。後半に時間かけて作成する課題があります。 本科目ではプログラムで扱うデータの形式とその取り扱いについて学びます。 さらに応用として、Web上の情報を取得して組み合わせるマッシュアップの演習があります。 3年次科目「情報アクセスと知的処理」の前提科目です。 この科目はWebや言語処理や情報推薦に興味がある人が履修する科目です。 テキスト データとデータ記述 データとは データ構造とデータ記述 プロパティファイルによる情報の外部保存 [参考] XMLの基本 XMLの概要 XMLの文法 - HTMLとの比較 XML文書の作成方針 XMLによる言語の設計 スキーマ言語とは スキーマ言語 XML Schema [参考] 名前空間の利用 XMLと
インタラクティブなスタイルの変更 XSLTでは、条件を設定してデータの抽出をしたり、 並び替えをしたりすることができます。 そこで、1つのXML文書に対して、 条件を替えてデータ抽出などを行いたいという要求が当然出てきます。 そこで、とりあえずの解決方法は次のようになります。 XSLTのファイルを変更したい条件の数だけ用意し、それぞれ異なる条件を指定する。 元のXML文書を条件の数だけ複製し、それぞれスタイルシートの指定(xml-stylesheet)だけ変更する。 それぞれのXML文書にリンクを張っておけばOk。 たしかにこうすれば切り替えることができますが、 似たようなファイルをいくつも用意しなくてはならないところがいかにも無駄です。 スタイルシートを動的に指定したり、条件を動的に指定したりできないのでしょうか。 実は、サーバ側でXSLTプロセッサを動かすときには、 これらの問題は容易
このページを最初にブックマークしてみませんか?
『www.mlab.im.dendai.ac.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く