定型化されていない文章の集まりを自然言語解析の手法を使って単語やフレーズに分割し、それらの出現頻度や相関関係を分析して有用な情報を抽出する手法やシステム。主に数値をマイニングするデータマイニングよりも、技術的には高度になるが、データマイニングよりも顧客嗜好に近い分析が可能で、マーケット戦略にはメリットが多いとされている。
この記事は広告を含みます。 仕事の休みにタイトルにネタだけ書いてポケットに携帯を入れたら、公開してしまい、反省です。ブログあるあるなのでしょうか。。 さてさて、今回は、そんな失敗談から始まる記事ですが、ただの反省記ではなく、、 この記事では、Pythonを使った初心者向けのテキストマイニング入門として、具体的な手法や活用例を分かりやすく紹介していきます。 テキストマイニングとは? 初心者にも分かりやすい例 Pythonで始めるテキストマイニング おすすめライブラリ NLTKでの簡単な頻度分析 ワードクラウドで画像化する方法 Pythonでワードクラウドを作成する手順 参考に記事を2つPickし…
矢車さんの台詞をテキストマイニングで分析し、彼に何が起きたのかなどを考えよう。 Q. テキストマイニングって? A. ああ! 超絶簡単に言うと「この単語が何回出てくる」とか「この単語はこの言葉と一緒に使われる」とかそういうのを分析しようということである。 使用ツール 使った台詞について 分析結果を見る 頻出語 共起 やぐるまさん やさぐるまさん 比較しよう ネガポジマップ ナイ まとめ 使用ツール メインウエポン KH Coder: 計量テキスト分析・テキストマイニングのためのソフトウェア サブウエポン AIテキストマイニング by ユーザーローカル 使った台詞について 「仮面ライダーカブト」…
以前こういうブログを書いた。ということでその経過報告である。 当初掲げた目標はこちら。 2024年内に伊沢くんが動画でやっていた頻出単語の解析をしてみる。 追々、自分のブログの文章の解析をしてみる。 では。 【達成】2024年内に伊沢くんが動画でやっていた頻出単語の解析をしてみる。 まだまだ改善の余地ありだが、達成はしている。 自分で楽しむだけのものということで、出力方法とかきちんと整えていないけれど、見たい結果は得られた。※追記※ 動画中の結果と比較するために、解析対象の文章は動画中で使用していたであろうWeb記事を拝借しています。 伊沢拓司の低倍速プレイリスト | QuizKnock 本人…
ちょっとやりたいことができたのでブログを書いて逃げ場をなくしてみようと思う。 最初に言っておくと、こんなタイトルだけど別に技術者向けの記事ではない。 Pythonの気軽さを気に入った 最近仕事でPythonというプログラミング言語を触る機会が増えた。 やっぱりスクリプト言語は「とりあえず書いてみる→とりあえず動かしてみる」が気軽に試せることがいい。 文法面でもNode.jsとかに比べて個人的にはとっつきやすく、結構気に入った。組み込み系ならCやJavaだろうしフロントエンドはJavaScriptだろうといった具合に、プログラミング言語にはそれぞれ得意なものがある。 Pythonって何が得意なん…
品川区は1月31日、「品川区民アンケート結果報告(概要版)」を公表。 2か月前に公表された「速報版」との違いについて、羽田新ルートを中心にザっと整理しておいた。 もくじ 品川区民アンケート結果報告「概要版」が公表された 2か月前に公表された「速報版」との違い 自由意見の記載(2枚)が追加された テキストマイニング分析結果の図が掲載された 雑感(中途半端な分析内容) 品川区民アンケート結果報告「概要版」が公表された 品川区は1月31日、「品川区民アンケート結果報告(概要版)」を公表。 年代別・地域別との集計等を記載した結果報告(詳細版?)は、2月中旬に公表予定。また、自由意見(個人情報等を除く)…
自分のブログ記事をテキストマイニングで分析し、過去の興味やトピックを言葉の出現頻度から探ります。12月のブログ記事の総文字数約4万字を分析し、どのようなキーワードが頻出しているかを調査しました。 先日「叡智の三猿」ブログのスロトレ様が紹介されていた記事があまりにも興味深いものだったので、私もまねしてみました。テキストマイニングを用いたワードクラウドの作成です。スロトレ様のテキストデータは昨年1年分のブログ記事を読み込ませて作成されたとのこと。 紹介されているのワードクラウドは、ブログのテーマである「情報セキュリティー」が大きく表示されていますが、その下に「韓流ドラマ」があります。韓国ドラマには…
どうも、じゅんいちです。 今回はPythonのライブラリを用いてテキストマイニングをしてみます。 堕落論は小説家坂口安吾の作品です。 戦後の本質を洞察した本になります。 NHKの100分d名著で詳しく記載しているので、見てみてください。 下記の画像が結果になります。 堕落論はあくまで一例で取り上げているだけですので、作り方についてフォーカスいたします。 外部から取り寄せたファイルは2つあります。 ・小説のデータ 図書カード:堕落論 テキストファイル(ルビあり)のZIPファイルをダウンロードし、文字コードをUTF-8に変更し保存しなおします。 今回実行する.pyデータと同じフォルダに格納しましょ…
キンプリ平野くんの「思わなんだ...」 すごいファンというわけではないが、King & Prince (を脱退することが発表された)平野紫耀くんは愛知県の出身なのは知っていた。 私が近畿地方以外で(むしろ関西よりも)長い時間過ごした日本の都市は名古屋だ。 だから「ネイティブ」としての日本語が形成される上で大きな影響を受けたのは「名古屋弁/愛知県方言)だと思う。 しかし、友だちは名古屋弁を話す子が多かったものの、名古屋市の中では比較的(私の両親を含め、仕事の都合などで)他の地域から来た人が多いエリアに住んでいた。 また、親は私が「名古屋弁」を使うことを禁止していたため、私は標準語を話しながら名古…
子供たちに「どのように学んだか」という観点のリフレクションをテキストマイニングして、実践(3回分)の全体像を確認してみました。 2校の子供たちの学び方、関係性の変化が大まかに見えました。 1日目は、タブレットや教科書を中心にしていて、あまり子供同士が繋がらなかった印象でしたので、なるほどと感じました。 2日目は、相手を意識し始めて交流が生まれてきたためか、それぞれの校名が大きく表示されるようになっています。(画像では校名を加工)また、話し合うというワードが大きく表示されました。他にも他者、他校の子供との関わり合いが生まれてきた回です。 3日目は、生かす、助ける、繋がるといった語句のほかにも、楽…
婦人民主クラブの全国協議会東京南部支部が品川区に情報開示請求した羽田新ルートへの苦情・相談実績が8月22日、羽田問題解決プロジェクトHPで公開された。598件(20年2月14日~22年6月6日)の苦情・相談は約7万文字と膨大な量なので、全体像を把握すべく、テキストマイニング手法を駆使し可視化してみた。 ※婦人民主クラブは、1946年に結成された共産党系の組織。 もくじ 苦情・相談件数の推移 苦情・相談の属性 地区 年齢層 性別 受付方法 共起ネットワーク分析 品川区が開示した羽田新ルートへの苦情・相談実績は598件(20年2月14日~22年6月6日)。 開示された情報には通し番号が付けられてい…