にほんごのれんしゅう

日本語として伝えるための訓練を兼ねたテクログ

2019-01-01から1年間の記事一覧

自作レコメンドで最適な読書体験をしたい

最適な読書体験をしたい アマゾンなどでレコメンドされる本を上から見ていても読書体験がそんなに良くありません。 本の売り上げランキングなどは、大衆に受ける本がほとんどであり、少々独特なセンスを持つ人たちにはそんなに受けが良くないです。 結果とし…

Pythonで100万ドキュメントオーダーのサーチエンジンを作る(PageRank, tfidf, 転置インデックスとか)

検索エンジンを何故作ってみたかったか もともとこのブログのコンセプトのNLP的なことで、情報を整理してなにか便利にしたかった(Googleと同じモチベーションの世界の情報を整理する) 4年前にほぼ同じシステムを作ろうとしたとき、500万を超える大量のインデ…

アメブロでの流行語大賞のその後、各デモグラで使用する単語の違いなど

序 国内最大級の自然言語のデータ・セットが一般ユーザがアクセスできる範囲であるものは2chとアメブロなどがあります。 アメブロは広大で数千万の投稿があると思われますが、全てをパースし切ることはできませんでした。(またしなくてもサンプルサイズ的に…

不動産価格分析とモデルの作成とクローム拡張

序 機械学習で不動産を予想する意味 特徴量から重要度を知ることができる EndUserにとって嬉しいことは? 線形モデルならばChrome ExtentionなどJavaScriptなどにモデルを埋め込むこともでき、意思決定の補助材料などとして、不動産の情報の正当性を推し量る…

Excelの光と影 ~Excelデータ分析を超えていけ~

Excelは便利なソフトで、あらゆる企業で使われている表計算ソフトウェアですが、国内ではその役割が拡張されドキュメント作成的な意味もあります。 まともな使い方としてのExcelもあり、分析してと渡されることが多いフォーマットでもあります。 私自身のい…