Hatena::ブログ(Diary)

Solr, Python, MacBook Air in Shinagawa Seaside RSSフィード

2017-09-15

[] で Extract N-Gram Features from Text 使えない

Azure Machine Learning Studioテキスト分析モデルを作成する

https://docs.microsoft.com/ja-jp/azure/machine-learning/machine-learning-text-analytics-module-tutorial


上を参考に日本語文章の分類をやってみたが上手くいかない

どうも原因は Extract N-Gram Features from Text が日本語対応できていないことにあるよう


汎用の Fature Hashing に変更すれば実行できるようになるが

TF-IDFが組み込まれていないのでちょっと残念


日本語自然言語処理IBM Watson の方が進んでいるような気がする

現時点では、日本語未対応の機能も多いけれどそれでもましだ

2017-08-25

[] Request Timeout after 30000ms になったときにやったこと

タイムアウト値を伸ばす

# vi /etc/kibana/kibana.yml

#elasticsearch.requestTimeout: 30000
elasticsearch.requestTimeout:  60000

2017-08-24

word2vec インストール メモ

git clone https://github.com/svn2github/word2vec.git
cd word2vec
make
./demo-word.sh

sudo mv word2vec /usr/local
vi .bash_profile
PATH=$PATH:/usr/local/word2vec
export PATH

2017-08-04

[] API を使って Python から操作

ポイントは "Content-Type":"application/json" するところ

これに気づかなくって少しハマりました

# -*- coding: utf-8 -*-
import urllib.parse
import urllib.request
import json
TeamUrl= 'https://hoge.qiita.com/api/v2/'
headers= {"authorization":"Bearer 9999999999999999999999999999999999999999",
          "Content-Type":"application/json"}

# 投稿の一覧取得
def getitems (page=1, per_page=20):
 command = 'items'
 values = { "page":page,"per_page":per_page}
 data =  urllib.parse.urlencode(values)
 req = urllib.request.Request(url=TeamUrl + command + '?' + data,
        headers=headers, method='GET')
 res = urllib.request.urlopen(req)
 return json.loads(res.read().decode('utf8'))

if __name__ == '__main__':
 json_dataList = getitems( per_page=10 )
 for json_data in json_dataList:
  print( json_data['id'], json_data['title'])

2017-08-02

Python sklearn と gensim をインポート して セグメンテーション フォルトになったときにやったこと Anaconda

インポートの順序を逆にすれば治った


NG の場合

$ python
Python 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:09:58)
[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import sklearn
>>> import gensim
Segmentation fault

インポートの順序を逆にするとOK

$ python
Python 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:09:58)
[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import gensim
>>> import sklearn
>>>