日本語の形態素解析器。 同機能を持つChaSenの3-4倍はやい。 また、はてなキーワードの抽出をTRIE を使って1600倍早くするPerl(&C++)スクリプトを公開している。 http://chasen.org/~taku/blog/archives/2005/09/post_812.html 近頃ではMysqlの全文検索ソフトSennaへの組み込みや、 作者の工藤氏によるAJAXによる日本語変換など、何かと話題になることが多い。
こんにちは。ふらうです。 今回、Doc2Vecというものに触れていきたいと思います。 使用環境 OS Windows 10 Home Anaconda(windows) Python 3.7.16 CPU Intel(R) Core(TM) i9-10900 CPU @ 2.80GHz 2.80 GHz GPU NVIDIA Geforce RTX 3070 メモリ 32GB gensim 3.8.3 Doc2Vecとは Doc2Vecの2種類のアーキテクチャ PV-DM(Distributed memory Model of Paragraph Vectors) PV-DBOW(Distri…
RMeCabをMac、しかもUTF-8環境で使いたいという条件で色々やって大変だったので、過程をメモしておきます。 ついでにcondaをメインで使っている都合上、Homebrewはインストールしないものとして環境を構築します。また、前提としてXcodeからコンパイラーはインストールされているものとします。 さらにインストールするMeCabは本体が「mecab-0.996.tar.gz」、辞書が「mecab-ipadic-2.7.0-20070801.tar.gz」とします。 MeCabのインストール 1. MeCabのダウンロードとインストール 2. 辞書のインストール 事前にnkfコマンドを…
はじめに: 『R環境で小説のテキストマイニング』の連載シリーズです。 連載シリーズの目次 実行環境 形態素解析と辞書設定 mecabを使った形態素解析 MeCabの辞書設定 辞書による形態素解析結果の違い デフォルトのipadic辞書を使った場合 neologd辞書を使った場合 unidic辞書を使った場合 jumandic辞書を使った場合 RMeCabで辞書設定を変更する方法 RMeCab形態素解析 + neologd辞書を用いた「坊ちゃん」の第1章テキストの形態素解析 RMeCab形態素解析 + neologd辞書を用いた「坊ちゃん」の第2章以降のテキストの形態素解析 まとめ テキスト処理…
はじめまして。キュービックでWebエンジニアを担当しているthと申します。 本年(2022年)は梅雨をすっ飛ばして突然真夏に突入してしまいましたが、みなさんいかがお過ごしでしょうか。 背景・概要 さて、早速ですが今回のお話の概要です。 複数のECサイトにて販売されている商品を一つのサイトにまとめて掲載する、いわゆる「価格比較サイト」のようなサービスの展開を検討しました。 このときに、各ECサイトにてJANコードのような商品が一意に識別できるIDが付与(掲載)されていればそれを元に「同一商品である」と簡単にみなすことができますが、サイトによって付与されているIDがまちまち、またはそもそも掲載され…
おわりんです。 最近、「死ぬまでにやりたい100のリスト」を作りました。 作った理由については、また今度述べたいと思います。 今日、記事にしたかったことは、ワードクラウドを超簡単に、誰でも作れるアプリを作ったことです。自分がやりたいことをワードクラウドで可視化してみました。 どうやら、僕の頭は家族の事がとても多いことがわかりました。 ワードクラウドとは 作成手順 ①エクセルファイルで表を作り、CSVファイルで保存。 ②wordcloud_02を実行する(exeファイルダウンロード) ③アプリが立ち上がる。 ④赤枠の「参照」から、ワードクラウドにしたいCSVファイルを選択する。 ⑤保存したい場所…
データエンジニア兼バックエンドエンジニアの @kazasiki です。 今回は2022年現在のPythonおよびmecabまわりの事情をつらつらとまとめたいと思います。 日本語の自然言語処理(特に形態素解析)を扱う場合はよくお世話になるツールなのですが、mecab自体が歴史のあるツールだったり、辞書データにも栄枯盛衰があったり、ビルドが大変だったり、という感じで、初学者にはやさしくない要素が満載です。 実際に開発に使う際もプロジェクトによって環境構築や利用方法がばらついたりする可能性もあります。実際、社内でも少し問題になったことがあるので、今回ちょっと整理するための記事を書こうと思った次第です…
はじめに NEologdとは NEologdの導入手順 NEologdのインストール 辞書のコンパイル ファイルの移動 mecabrcの編集 PythonでNEologdを動かしてみる 精度を比較してみたらすごかった はじめに NEologdをWindowsに入れてPythonで動かすまでに時間がかかってしまったので備忘録です。 前回はMeCabを入れて動かしたので、今回は辞書を入れて形態素解析の精度を上げてみます。 辞書データを入れることで分割されて、思うように認識されない単語も1単語として認識されるようになります。 NEologdとは NEologdはMeCab用のシステム辞書です。 新し…
形態素解析とは MeCabとは MeCabの導入手順 MeCab 64bit版の導入 MeCab 64bit版をインストール Pathを通す cmdで動作確認 PythonでMeCabを使う手順 MeCabで形態素解析をしてみた MeCabを導入してみて 形態素解析とは 形態素解析は自然言語処理のひとつで自然言語の文章を形態素(品詞や単語ごと)に分解する処理です。 もっと簡単に言うと、文章を品詞ごとに分解します。 例文をMeCabに与えて形態素解析をしてみると以下のように品詞ごとに分解されます。 例:私はMeCabを使って形態素解析の処理を実施した。 私/は/MeCab/を/使っ/て/形態素/…
Python 実践 データ加工/可視化 100本ノック」を購入したので、 一通りやっているところです。今日はノック54を行います。 資料は以下から入手できます。 Python実践 データ加工/可視化 100本ノック|サポート|秀和システム ノック54:形態素解析で単語に分解しよう MeCabを使用して文章を最小単位に分解します。 1.MeCabのインストール方法 MeCabのURLに移動します。 taku910.github.io 下にスクロールするとダウンロードと記載されているので、mecab-0.996.exeをダウンロードします。 MeCab HP mecab-0.996.exeを起動す…
タイトルの通りです。 pythonにはneologdnなど文字列を正規化するライブラリが存在していました。 github.com Rubyでは存在しないようだったので、作ってみました。 github.com String型を拡張していて、簡単に使うことができます。 まずはインストール $ gem install normalize_text normalizeメソッドで文字列を正規化します。 require 'normalize_text' '検索 エンジン 自作 入門 を 買い ました!!!'.normalize => "検索エンジン自作入門を買いました!!!" 自然言語処理前の正規化などに…
オライリー・ジャパンさんの『詳解 システム・パフォーマンス 第2版』が無事刊行されたようでめでたい。 詳解 システム・パフォーマンス 第2版作者:Brendan GreggオライリージャパンAmazon 前職で制作のお手伝いをしていたものの、完成一歩手前である再校まで作成した(電子PDFとEPUBの準備もしておいた)ところで退職となったので、行方を気にし続けていた。 本書は、コンピューティングパフォーマンス分析の第一人者と言える、Brendan Greggの著作。最近だとeBPFの分野で有名か。著者紹介にはNetflixと書いてあるけど、昨年5月にIntelに転職したらしい。 旧版(邦訳版は2…
まずはMeCab公式よりMeCab本体&IPA辞書のインストールです。 本体: mecab-0.996.tar.gz IPA辞書: mecab-ipadic-2.7.0-20070801.tar.gz その後サーバーの/opt/ディレクトリにFIlezilla等を使いアップロードしましたら、以下のコマンドでインストールを実行します。 (本体のインストール) cd /opt sudo tar zxfv mecab-0.996.tar.gz cd mecab-0.996 sudo ./configure --with-charset=utf8 sudo make sudo make check s…
動機 マルコフ連鎖でデタラメな文章を生成したい。 やったこと ・MeCabとmarkovifyを使ってPythonでマルコフ連鎖を実装した ・日記を自動生成し、鑑賞した 1.マルコフ連鎖を実装 この記事を参考にPythonで実装した。markovifyはマルコフ連鎖で文章生成を行うPythonライブラリである。markovifyに読み込ませる文章は分かち書きされている必要があるので、MeCabというソフトを使って分かち書きをする。 MeCabを使う際の注意点として、インストール時に文字コードをUTF-8に設定しないと不具合が起きたので注意。(Python上で動かすときに文字化けした) ラララ …
はじめに 実行環境 dfコマンドの実行例 duコマンドの実行例 まとめ はじめに dfとduという、2つのコマンドを紹介します。 ハードディスクの容量監視をする上で、重要なコマンドなので、ぜひ知っておこう。 dfコマンドはディスクの空き領域を知るコマンド、 一方で、duコマンドはディスクの使用量を出力するコマンドとなります。 各コマンドについて、オプションと具体的な実行例を紹介します。 実行環境 M1 Mac環境です。 macOS Big Sur (バージョン11.5.2) MacBook Air (M1, 2020) チップ Apple M1 メモリ 16GB dfコマンドの実行例 dfコマ…
python code sample output reference 業務の一環でWordCloudをオプションしつつ使ったのでまとめておく。 オプションとしては行動のデータを取りたかったので動詞を加えた。 とはいえ、そのままでは「する」、「ある」、「いる」や「られる」のようなノイジーな単語の頻度の高さが際立ってしまう。 言語学的には状態動詞とでも分類しようか。 そこで正規表現も流用して、平仮名のみの動詞は除いた。 厳密さはやや課題なものの、一般な動詞は漢字で表すので都合がいい。 このあたり、英語でも”kind”, "kindness"のような同じルーツの処理が気がかりだ。 しかしお向かいさ…
pre{color:#fff;background-color:#000} em{color:#000;background-color:#dfd} 最初は動きそうに無かったコードも、「ここをこうして」「あそこを直して」指図すると ちゃんと直したり、機能追加してくれるのすごい人生 初ペアプロ(試してませんが、たぶん 最後まで動かないと思われます。自分が途中で飽きたので) box headroom python でgensim を使い、doc2vec するサンプルコードを教えて下さいGensimはPythonの自然言語処理ライブラリで、Doc2Vecを使用するためのインターフェースを提供していま…
はじめに 去年は「2021年の積み本 - からっぽのしょこ」こんな感じでした。今年も振り返ります。 【目次】 はじめに 振り返り 今年買った本 読んでる本 読んでない本 これまでに買った本 読んでる本 本以外 おわりに 振り返り 今年勉強した内容を思い出します。 今年買った本 読み切った本がなかった、、、でもラストの章の手前までは読んだ本が2冊ありましたよ。 読んでる本 igjit・atusy・hanaori『Rが生産性を高める〜データ分析ワークフロー効率化の実践』技術評論社,2022年. 本の内容をやってみたや、追加で調べてみた記事です。一覧ページを作ってなかったのでカテゴリページを参照くだ…
はじめに 頑張れば、何かがあるって、信じてる。nikkieです。 2022年末はやったことの思い出しをしてから、1年のふりかえりをしました。 ふりかえりはセーブポイントができたようで、なかなかいい感じでした。 年単位のふりかえりは重い面もあるので、月単位でやったことを思い出し、ふりかえってみます。 というわけで、リリースノートに見立てた2022年12月のふりかえり、いってみましょー! 目次 はじめに 目次 技術まわり 毎日ブログ書いた! SpeechRecognition v3.9.0 リリース 12月の登壇 UB Tech vol.5「ユーザベースにおけるアジャイルリーダーシップの実践」 は…
文章を実数値ベクトルとして表現したものを文章ベクトルと呼びます。文脈によっては文章埋め込みや文章の分散表現とも呼ばれます。離散的な文章データを機械学習などに応用するにはベクトル表現が必要なことが多く、「どうすれば文章の特徴をよく表現したベクトルが得られるか?」は伝統的に重要なタスクです。 さて近年では、学習済みモデルやライブラリが整備されているおかげで、大規模なコーパスやハイスペPCを用意しなくても、それなりに品質の良い文章ベクトルが得られます。文章ベクトルがあれば、お手軽に検索したりクラスタリングしたりできるので、とてもありがたいです。 しかし、機械学習ビギナーのわたしには、どのベクトルをど…
平安文学における『源氏物語』における 運命に翻弄された女性紫上の哀しみ テキストマイニングの手法を使って学びなおす 光源氏から惜しみない愛情と教育を受けた紫は、当人の資質的には非の打ち所がない「理想の女性」でしたが、彼女には家柄と子供だけが欠けていました。 紫は「紫の上」と呼ばれますが、葵の上とは違って後見人となる父親がいないため、正式な結婚手続きを踏まえた「北の方(正室)」ではありません。後にあらわれた女三宮にその座を奪われてしまい、結局正妻の地位は得られなかった。 さらに、彼女は光源氏との間に子供ができず、悩んでいました。後に明石の君との間に生まれた姫君を引き取り、優しくて、愛情をこめて、…
キュービックVPoEの後藤です。 今年4月からスタートしてこのCUEBiC TEC BLOGのブログエントリーはこの1年で24となりました。トラフィックも増加しており、多くのエンジニアのみなさんにエンジョイいただいています。 今回はこの1年を振り返り、2022年トップ10エントリーをご紹介します。 10位から6位です 10 OpenSearchの古いインデックスを定期的に削除できるようにした cuebic.hatenablog.com 9 【イベント】クラウド時代のエンジニア像について語ります cuebic.hatenablog.com 8 モニタリング運用をDatadogへ集約しました cu…
【書誌データ】 タイトル:Text Mining Maniax for Python――Pythonによる日本語計量テキスト分析の基礎 発行日:2022年12月31日(コミックマーケット101) 著者:後藤和智(後藤和智事務所OffLine) サイズ・ページ数:A5、40ページ 価格:即売会600円、書店800円(税抜き) 通販取り扱い:メロンブックス https://www.melonbooks.co.jp/detail/detail.php?product_id=1784228 電子版:BOOTH、BOOK☆WALKER、DLsite、メロンブックス、とらのあな、技術書典オンラインショップ…
12/19(月) 午前8時少し前に起床。今日から集中講義である。夜中に降った雪が多少残っていたので、登校に原付を使うのは避けることにした。結構早めに起きたのでそれでも間に合うくらい。 徒歩で大学に向かい、川内北キャンパスのいつもの学食で朝食を摂ったあと、さらに隣のキャンパス、つまり川内南キャンパスに移動。以前場所をチェックしておいた文学研究科棟の講義が行われる教室にたどり着いた。思ったより小さな教室に思ったより沢山の人がいて、始まるころには席が完全に埋まっていた。 文学部のキャンパスに足を運んでみた。集中講義のための偵察である。教務課に突撃して教室がある建物を教えてもらって、実際に足を運んで確…
Pythonで日本語のよみがなを取得するには、以下のような方法があります。 MeCabを使う MeCabは、日本語の自然言語処理を行うためのツールです。MeCabを使えば、日本語のテキストからよみがなを抽出することができます。 まず、MeCabをインストールする必要があります。以下は、pipを使ってMeCabをインストールする例です。 pip install mecab-python3 次に、以下のようにして、MeCabを使ってよみがなを取得することができます。 import MeCab # MeCabのタグを解析するための関数 def parse_mecab_tag(tag): # タグをカ…
// .table-of-contents ul ul { display: none; }この記事は, Acompany Advent Calendar 2022 23日目 の記事です. はじめに 調査方法 調査結果 考察 おわりに はじめに 皆さんはインジェラの作り方をご存じでしょうか.インジェラを作るにはまずテフをオフチョベットします.そしてオフチョベットしたテフをマブガッドしてリットを作り,発酵させたリットにアブシィトを加えて混ぜます.あとはこれを焼いて完成です.???????.このインジェラの作り方は相席食堂という番組で初回されたものです(相席食堂|過去の放送内容|朝日放送テレビ).…