Deep Learning Tutorial

chainer and python

実践 機械学習システム

4章  トピックモデル

wikipediaのダンプファイルをダウンロード とてつもなく時間がかかります!(約13G) 以下をターミナル上で実行。 wget http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 wget http://www.cs.princeton.edu/~blei/lda-c/ap.t…

6章  クラス分類 II:感情分析

まずはツイートデータを取得します。 しかし、ここでつまずきました...いろいろ調べてツイートをダウンロードするコードを書きました。 tweepyというモジュールをダウンロードします。 以下のサイトが参考になりました statsbeginner.hatenablog.com しかし…

5章  クラス分類:悪い回答を判別する

本書では37GBのデータをダウンロードするなどと言っていますが、サイズデカすぎです。 なので、今回は"unix.stackexchange.com"のデータだけを使用することにします。データダウンロードダウンロードしたデータを回答するとPost.xmlというファイルが出てくる…

2章 実例を対象とした分類法入門

アイリスデータセット データの中身はアイリスという花に関するもの。 アイリスデータセットは3つの種類の品種のデータに分類されます。 がく片の長さ(Sepal length) がく片の幅(Sepal width) 花弁の長さ(Petal length) 花弁の幅(Petal width) とい…

3章 クラスタリング:関連のある文書を見つける 

前処理(preprocessing)過程 共通する単語の出現回数を類似度として計算する テキストデータをトークン化する 頻出もしくはその逆の単語を除く 残りの単語について出現回数をカウント 単語の出現回数からTF-IDFを計算する 本書で与えられているデータセット…

1章 Pythonで始める機械学習

まずはデータを読み込みます。 自分の場合は、'BMLS/ch01/data/web_traffic.tsv'にデータファイルを保存しています。 適宜ファイルパスは変更してください。 import numpy as np import scipy as sp import matplotlib.pyplot as plt data = sp.genfromtxt('…