2007年2月のエントリー 一覧

お手伝い

  • 更新日:
  • 大学生活

今日はひたすらお手伝いをする日でした。とはいっても、自分にも多少は関係がある話なので、学ぶべきことがなかったというわけではないのですが。。。

まずお昼に学校に行くと、待っていたのは企業の方とのミーティングです。自分自身はひたすらメモを取るだけなので、特に大変だというわけではないんですが、ここから卒論提出日まではもう一回論文を書くくらいのお手伝いをしないとやばそうです。なんといっても、担当のB4がこれから実験+執筆という強行スケジュールなもんですから…。さすがに書けないまま終わってしまうのは非常にまずいので、明日からは必死で手伝います!

ミーティングが終わった後は、某H氏の研究に関するお手伝い。なにやら、ニューラルネットワークを使って、実験データからモデルを作れるか調べたいらしいです。僕自身は実験データからモデルを作ったことはなかったんですが、昨日使い方をちょっと知ったばかりのWEKAというツールを勧めてみました。助手の先生の助言もいただきつつ、なんとか実験できるとこまできました。

そんなわけで、自分自身の勉強する時間がないまま終了。こんなんで大丈夫か!?

WEKAで多層パーセプトロン

WEKAでは、非常に多彩なマイニングアルゴリズムを試すことができます。ここでは、WEKAを用いて多層パーセプトロン(multilayer perceptron)を試す方法を示します。

まず、WEKAを起動させ、「Explorer」を選択します。するとExplorerが起動するので、「Open file...」を選択し、訓練データを選択します。その後、「Classify」タブを選択→「Choose」を選択して現れる分類器の「functions」→「MultilayerPerceptron」を選択します。

「Test Options」では、「Cross-validation」(交差検定)を選択します。Foldsでは、推定する回数(訓練データの分割数)を指定できます。また、多層パーセプトロンの出力属性は、「Start」の上のプルダウンメニューで選択することが可能です。設定し終わったら「Start」をクリックして、モデルを生成します。このモデル生成には時間がかかる場合があります。

モデルを生成したら、今度はテストデータを設定します。「Test options」で「Supplied test set」を選択し、「Set」ボタンをクリックしてファイルを指定します。もし複数のファイルに分かれている場合は、「Set」でそれぞれ指定することで、同じデータファイルのように扱うことができます。

テストファイルを指定したら、「Result list」の項目を選択して右クリックしてください。現れたメニューの中から、「Re-evaluate model on current test set」を選択します。すると、テストを行った結果が右側に現れます。

arffファイルフォーマット - WEKA

データマイニングツールWEKAに与えるデータは、CSV形式のほかにarff形式のファイルを指定することもできます。(むしろ、こちらのほうがよく対応しています。)CSV形式とよく似ていますが、データの情報を追加できる点が違います。

まず、arff形式の具体的なサンプルを示したほうがイメージしやすいと思うので、以下に例を示します。

@RELATION iris

@ATTRIBUTE sepallength  NUMERIC
@ATTRIBUTE sepalwidth   NUMERIC
@ATTRIBUTE petallength  NUMERIC
@ATTRIBUTE petalwidth   NUMERIC
@ATTRIBUTE class        {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa

この例は、ワイカオ大学のウェブページから引用したものです。実際のデータは、「@DATA」以降に書かれます。ちなみに、「@XXX」の部分は大文字と小文字を区別しません。

@relationには、データの名前を指定します。また、@attributeにはそれぞれの列のデータ形式と名前を指定します。フォーマットを以下に示します。

@relation <relation-name>
@attribute <attribute-name> <datatype>

<datatype>には、以下のデータ形式を指定します。

numeric (数字。つまり整数か実数)
<nominal-specification> (有限の記号。例えば、YESとNOとか。)
string (文字列)
date [<date-format>] (日時。<date-format>は省略可能。省略した場合は、"yyyy-MM-dd'T'HH:mm:ss")

nominal-specificationは、中カッコ「{ }」で囲んで、コンマで区切ります。例は上記にある通りです。YESとNOなら、{YES,NO} といった感じです。

[web] Weka 3
[web] Attribute-Relation File Format

マイニングツール WEKA

データマイニングを手早く利用したい人のために用意されたツールとして、WEKAというものがあります。cvs形式ファイルでデータを読み込み、準備されたマイニングスキーマで処理をさせることができます。

[web] WEKAの日本語情報
[web] Machine Learning Project(WEKAの本家)

WEKAはもともとニュージーランドの大学(ワイカト大学)で開発されているツールです。そのため、ダウンロードしてきてそのまま起動させると、英語のメニューが現れます。ちょっと使いづらいですが、我慢しましょう。(日本語パッチに期待。。。)

簡単な使い方については、「weka」で検索することでいろいろと出てきますが、とりあえず下のURLなんかが役に立つでしょう。

[web] How to use Weka tool box

続きを読む

統計学の勉強

  • 更新日:
  • 大学生活

研究テーマが変わってよく思うようになったのが、「もっと統計学の勉強しとけばよかった」ってこと。高校の時から確率は苦手な分野だったけど、それを専門として扱うからにはそれなりの前提知識が必要なのだと実感してきました。今日のミーティングは、特にそれを強く感じました。

なんといっても、勉強した範囲を簡単に理解できないのはつらいものです。前提知識となる部分がないから、今やってることの理解が深まらない。だから、ミーティングで質問が増える→時間がかかるということで、もう少し効率よく行きたいものです。一応それなりに時間はあるんだし、有効に勉強することも可能だと思うんですが。。。

さて、明日は企業の方とのミーティングです。たぶん、これで今学期は終了かな?うまくまとまるといいのですが。

日本語訳終了…

  • 更新日:
  • 大学生活

研究の一環で英語の本を訳すんですが、それがやっと終わりました。専門用語もたくさん出る中、1日6ページはよく頑張ったほうだと思う。自分で自分をほめたい気分です!≧∇≦

でも、英語の参考書を訳して思うのが、同じことが何回も出すぎてるんじゃないかってこと。もう何回$P(w|R)$って書いたか分からないよ(>Д<;)めっちゃ疲れました。

これからは、変な訳がないかチェックします。さっさと終わらせて、家に早く帰りたいです。。。

eps形式に変換するアプリケーション

TeXを使っていると必ず図を挿入する場面に出会うと思います。そんなとき、画像ファイルをeps形式に変換して挿入するのもひとつの方法です。ここでは、僕が使っているeps形式への変換アプリを紹介します。

TeX Wikiにも紹介されているので、いろいろ試してみればいいのですが、とりあえずは「EPS-conv」と「wmf2eps」を利用しています。ESP-convはさまざまな形式に対応しているのが利点です。wmf2epsは、PowerPointのスライドをeps形式に変換するときに便利です。

[web] EPS-conv
[web] WMF to EPS Graphics Converter
[web] 変換ツール - TeX Wiki

EPS-convはインストーラもついているので、導入は簡単です。変換も、表示されたウィンドウにドラッグ&ドロップで可能です。wmf2epsは、ちょっと初期設定が面倒です。幸いなことに、詳しく紹介されているページもあるので、そちらを参照されるとよいでしょう。

[web] PowerPointからEPSに変換:WMF2EPS

はてな RSSリーダを使ってみた

  • 更新日:
  • 日記

前から気になっていたRSSリーダを使ってみることにしました。せっかくなんで、最近注目している「はてな」のRSSリーダを選んでみました。

で、今までMozilla Thunderbirdに登録していたRSSをパッパと登録。そしてしばらく放置。。。とりあえず、毎日チェックしているんですが、どうも他の読者があまりいないブログには巡回が頻繁に行っていないようで、更新が微妙な感じ…。あの高木さんの日記でさえも4日前に巡回したっきりRSSが読まれてないみたいです。さすがに4日はダメでしょう!ヘルプでは数時間って書いてあるのにな。

そんなわけで、さてどうしようかと再考中。別のやつもとりあえず使ってみるか…。

読む速度

  • 更新日:
  • 日記

ここ最近、本を読む速度がちょっとだけ上がったように感じます。確かにこの数ヶ月間、小説とかを読めるだけ読もうとしてるんで、速度が上がるととても助かります。まだ読みたい本はたくさんあるしね。

いろんな本にも紹介されていると思いますが、たぶん速く読むためのコツをここにメモしておきます。ただし、これは小説みたいに全体に流れのある本に限られます。参考書とかは、ちゃんと定義とかを読まないと訳が分らなくなると思うので。

1.地の文(会話分以外の場所)は、単語をおっかけようとせずに雰囲気をつかむようにする。
2.頭の中で文章を言葉にしない。
3.前半の、登場人物の紹介が出てくるあたりは、どんな人かをイメージする。

わりとありがちな注意点なんですが、たぶんこれだけでもけっこう速くなると思われます。目標は、3日に1冊くらい読めるようになること。だいたい今が1週間で1冊なんでほぼ倍なんですが、たぶんできるんじゃないかと思ってます。

小説「手紙」

昨年映画化もされ、非常に注目を浴びた作品の1つでもある東野圭吾著の小説「手紙」。強盗殺人犯の弟というレッテルを張られ、世間に幾度も裏切られた直樹に「犯罪者の兄を持つ」罪を償いきれるときが来るのか。加害者家族の心情を描いた作品です。

で、読んでみた感想ですが、これは読んでいくとだんだんへこんできます(>_<) 直樹の境遇があまりに可哀想なんで、世の中にはひどい人ばかりしかいないんだろうかと思えてきます。仕事に就くときも、音楽で暮していこうと決意した時も、彼女と出会った時でさえも。彼が感じた苦痛や諦めの心境を考えると、こんな報われない人生があっていいのかと感じずにはいられません。

服役中の直樹の兄からは、毎月のように手紙が送られてきます。全く変化のない刑務所の中では、兄は弟が苦労しながらも普通の生活が送れているとばかり思っています。でも本当は裏切られてばかりの直樹が、兄に対して憎悪にも近い感情を抱くのは想像に難くないです。事実、この手紙のせいで幸せを逃したエピソードも書かれていて、兄は刑務所からも彼を苦しめているようで、とても可哀想でした。

でも、実際に自分自身にそんな感じの境遇の人がいたとして、普通に接することができるかと言われると、なかなか難しいものかもしれません。僕は、これに出てくる直樹ほどは世間を知っているわけではないので、その時になってみないと分らないですね。

そんなわけで、後半になるまでは暗い展開なんですが、最後にどうなるか興味がある人は読んでみてください。直樹が「犯罪者の兄を持つ」罪をどうやって償うか。現実的で非情な結末なのかもしれないですが、最後の1ページで直樹が何を感じたのかを想像すると、すごく人間的な終わり方だと思いました。


このページの上部へ

About

tetsuの日記・雑記です。
日々経験したことを記録していきます。

広告

サイト内検索

最近のピクチャ

  • リアディレーラ

月別アーカイブ

最近のコメント