定型化されていない文章の集まりを自然言語解析の手法を使って単語やフレーズに分割し、それらの出現頻度や相関関係を分析して有用な情報を抽出する手法やシステム。主に数値をマイニングするデータマイニングよりも、技術的には高度になるが、データマイニングよりも顧客嗜好に近い分析が可能で、マーケット戦略にはメリットが多いとされている。
どうも、じゅんいちです。 今回はPythonのライブラリを用いてテキストマイニングをしてみます。 堕落論は小説家坂口安吾の作品です。 戦後の本質を洞察した本になります。 NHKの100分d名著で詳しく記載しているので、見てみてください。 下記の画像が結果になります。 堕落論はあくまで一例で取り上げているだけですので、作り方についてフォーカスいたします。 外部から取り寄せたファイルは2つあります。 ・小説のデータ 図書カード:堕落論 テキストファイル(ルビあり)のZIPファイルをダウンロードし、文字コードをUTF-8に変更し保存しなおします。 今回実行する.pyデータと同じフォルダに格納しましょ…
キンプリ平野くんの「思わなんだ...」 すごいファンというわけではないが、King & Prince (を脱退することが発表された)平野紫耀くんは愛知県の出身なのは知っていた。 私が近畿地方以外で(むしろ関西よりも)長い時間過ごした日本の都市は名古屋だ。 だから「ネイティブ」としての日本語が形成される上で大きな影響を受けたのは「名古屋弁/愛知県方言)だと思う。 しかし、友だちは名古屋弁を話す子が多かったものの、名古屋市の中では比較的(私の両親を含め、仕事の都合などで)他の地域から来た人が多いエリアに住んでいた。 また、親は私が「名古屋弁」を使うことを禁止していたため、私は標準語を話しながら名古…
子供たちに「どのように学んだか」という観点のリフレクションをテキストマイニングして、実践(3回分)の全体像を確認してみました。 2校の子供たちの学び方、関係性の変化が大まかに見えました。 1日目は、タブレットや教科書を中心にしていて、あまり子供同士が繋がらなかった印象でしたので、なるほどと感じました。 2日目は、相手を意識し始めて交流が生まれてきたためか、それぞれの校名が大きく表示されるようになっています。(画像では校名を加工)また、話し合うというワードが大きく表示されました。他にも他者、他校の子供との関わり合いが生まれてきた回です。 3日目は、生かす、助ける、繋がるといった語句のほかにも、楽…
婦人民主クラブの全国協議会東京南部支部が品川区に情報開示請求した羽田新ルートへの苦情・相談実績が8月22日、羽田問題解決プロジェクトHPで公開された。598件(20年2月14日~22年6月6日)の苦情・相談は約7万文字と膨大な量なので、全体像を把握すべく、テキストマイニング手法を駆使し可視化してみた。 ※婦人民主クラブは、1946年に結成された共産党系の組織。 もくじ 苦情・相談件数の推移 苦情・相談の属性 地区 年齢層 性別 受付方法 共起ネットワーク分析 品川区が開示した羽田新ルートへの苦情・相談実績は598件(20年2月14日~22年6月6日)。 開示された情報には通し番号が付けられてい…
資産所得倍増プランとは? NISA恒久化と投資枠拡充 一体、何が変わるの? Twitter解析結果! テキストマイニングの可視化① 結果① テキストマイニングによる可視化② 結果② テキストマイニングによる可視化③ 結果③ 資産所得倍増プランとは? 資産所得倍増プランに関しては以前からおよそ20年以上から言われていましたが、全く進んでいない試みでした。 しかしながら、政府も色々試していましたが、むしろ私たちの給与は減ってしまっている印象を受けるのでないでしょうか? ただ、もしかするとそれは、政府がかなり頑張った結果で、何も政府がしていなかったらもっと私たちの給与は下がっていたのかもしれません。…
みなさん、こんばんは藤崎です。 日常を取り戻すつつあるとは、コロナウイルス感染者数も増加傾向にありますし、まだ我慢の日々が続いてますね。。。 国会ではコロナウイルス対策として、どのようなことが議論されているのか気になり、調べてみました。 すると、国会で議論されていることが議事録として、公表されているようでした。 以下は厚生労働省のページになりますが、他省庁も同様に議事録が公表されていると思います。 厚生労働省では、1か月に1回のペースで新型コロナワクチンについて議論されているようです。 参加者には製薬会社の方々もいますね。 議題として、「新型コロナワクチン」はもちろん、「副反応」など我々が気に…
みなさん、こんばんは藤崎です。 本日正午に乃木坂46 30thシングルに収録される4期生楽曲「ジャンピングジョーカーフラッシュ」のMVが公開されましたね。 www.youtube.com センターには筒井あやめさん、フロントメンバーには佐藤璃果さん、林瑠奈、賀喜遥香さん、遠藤さくらさんが勤めるフォーメーションとなっています。 佐藤璃果さんは最近「らじらーサンデー」にて偶数週のMCに就任されていたりと活躍が目まぐるしいですね。 メンバーが泡まみれ、水まみれと夏らしいMVとなっています。 みんなの楽しそうな表情満載で、何度見ても飽きないですね。 メッセージ性の強い歌詞になっていたり、踊りも可愛かっ…
はじめに: 『R環境で小説のテキストマイニング』の連載シリーズ 連載シリーズの目次 まずは、実行環境 形態素のワードクラウドに関するイントロダクション RMeCab形態素解析済みの結果の読み込み .Rdsをロードする場合 .txtをロードする場合 ワードクラウドによる形態素頻度の可視化 品詞情報から「名詞」のみ抽出した場合のワードクラウド 品詞情報から「名詞」「形容詞」「動詞」を抽出した場合のワードクラウド 品詞情報から「名詞」と「複合語」を抽出した場合のワードクラウド 坊ちゃん第2章以降のワードクラウドによる可視化 坊ちゃん第2章のワードクラウド 坊ちゃん第3章のワードクラウド 坊ちゃん第1…
はじめに: 『R環境で小説のテキストマイニング』の連載シリーズです。 連載シリーズの目次 実行環境 名詞、接頭辞、接尾辞をくっつける、品詞のルールベースの複合語抽出 pytermextractを使った複合語抽出 ターミナル環境上での、pytermextractを使った複合語抽出 R環境上での、pytermextractを使った複合語抽出 まとめ 補足 テキスト処理の関連記事 R Script - Compound_calc() はじめに: 『R環境で小説のテキストマイニング』の連載シリーズです。 テキストマイニングは、テキストデータを定量的に扱って、有益な情報を抽出するデータマイニング手法の1…
はじめに: 『R環境で小説のテキストマイニング』の連載シリーズです。 連載シリーズの目次 実行環境 形態素解析と辞書設定 mecabを使った形態素解析 MeCabの辞書設定 辞書による形態素解析結果の違い デフォルトのipadic辞書を使った場合 neologd辞書を使った場合 unidic辞書を使った場合 jumandic辞書を使った場合 RMeCabで辞書設定を変更する方法 RMeCab形態素解析 + neologd辞書を用いた「坊ちゃん」の第1章テキストの形態素解析 RMeCab形態素解析 + neologd辞書を用いた「坊ちゃん」の第2章以降のテキストの形態素解析 まとめ テキスト処理…
今回はプライベートの内容です。 自己学習の方法 IT技術を身につけるには実務経験が量・質、共に最善なのですが、その前提となる自己学習や基礎知識は必須です。 今回はその方法について紹介します。 動画 Udemy Pythonの動画を受けてみました。わかりやすかったのですが、後から見返すのが大変でした。 この点は参考書の方が優れていると感じます。 勉強会・セミナー 気軽に参加しやすい 対面の場合、参加者のレベルで勉強会の質が決まります。 周りもレベルが高いと焦ります。講義も全体のレベルに合わせて進むからです。 ただ、簡単すぎると、貴重な休日を使って何も得られないことになりかねませんので、レベル感は…
今回からの内容は,記憶再生マップのような表現物は,その評価が非常に難しいので,その二次的著作物である箇条書きをテキストマイニングすることで記憶再生マップの評価とするというものです.(長文注意) 余談ですが,実践授業では単元の学習後に記憶再生マップを描かせると,確かに評価テストの成績は向上しますし,また観点では,どちらかと言えば「思考力,判断力,表現力等」の成績が上がります.このような傾向は,記憶再生マップを使い始めた当初からみられていました. 記憶再生マップは,学習により記憶した知識を手がかり再生により想起して,それらの関連性について自分なりの結論を出しつつ,概念化した関係のある事項をつなぎ合…
OpenAIでGPTを使ったAPIにembeddingというのがあって、これを使うと文章同士の距離がとれるので、近いエントリを取得したり文章から検索したりができるということで、試してみました。 思いのほかちゃんと動きました。おそらく、GPTで一番実用的なんじゃないでしょうか。 GPTで実際に一番出番がありそうなEmbeddingを使った、近いブログをとってきたり検索したりするやつ。 pic.twitter.com/Vzgy57a7ju— きしだൠ(K1S) (@kis) 2023年3月9日 embeddingとは なんか、文章の特徴を表す多次元のベクトルに変換してくれるらしい。 ようわからん。…
ツイート no_identify @no_identify やっべぇぞ、年度末いっそがしいぞ! 17:50 no_identify @no_identify テキストマイニングがうまくいかない。 13:30 ツイート お気に入り フォロー フォロワー 9853(+2) 2(0) 1(0) 6(0) delivered by Twieve
短絡評価とは CASE式で真になるWHEN句を探索した時点で評価が打ち切られ、残りのWHEN句は無視されること。 対策 WHEN句の条件は排反にする(排他的に書く) 条件が排反でないと、条件を複数書いた場合は最初に書いたWHEN条件のみ結果が出力され、それ以下に書いたWHEN条件は無視されてしまいます。 短絡評価による影響 例えば、SQLで正規表現を使ってテキストマイニングをして、分類をするとします。 複数の条件に該当するデータがある場合、最初に書いた条件のみに分類され、それ以下に書いた条件には分類されなくなってしまいます。 これでは条件を書いた順番が上位かどうかで分類の基準が変わってしまいま…
マーケティングの世界には「イノベーター理論」という考え方がある。 商品やサービスが登場してから世の中に普及していくまでの流れについて、最初は新しもの好きの「イノベーター」が手を出し、次に「アーリーアダプター」が注目し始め、その段階を超えると一気にマジョリティに広まっていくというパターンになると分析したもの。 商品やサービスに限らず、ブームというものもこんな感じで始まって終わっていくことが多い。 四半世紀以上に渡っていろんなサブカルチャーを見ていると、このブームはそろそろマジョリティに届き始めるぞとか、このメディアで扱われるようになったらもう終わりが見えてきたなとか、そんな栄枯盛衰をいくつも目に…
こんにちは。 桑原通夫です。 株式会社プラスアルファ コンサルティング・・ を知っていますか? ビッグデータを活用する ための分析システムを、 クラウド型サービスで 提供している会社です。 上場はしていません・・ 最大の売りは・・見える化エンジン というサービスで、 特に、日本語の文章を解析する テキストマイニング技術に 【在庫限り】人気商品が10品以上入って半額以下♪ Oisix(おいしっくす) PR 「ブラ総入れ替えした」女医開発ブラ爆売れ anynext株式会社 PR 定評がある‥という事です。 ビックデータで、顧客の声を 分析して、 企業が商品やサービスを 改善する支援を行っている コ…
こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.com
いつもお世話になっております。筆者のらっこです。 今回の議題はこちら! HiHi Jetsに演じてほしい役についてH・A・Fが自由に語ってみた イエーイ!!(セルフ拍手) 今回も大好きなアンケート企画です。 私のTwitterアカウントで「HiHi Jetsに演じてほしい役について自由に語ってください」という主旨のアンケートを拡散し、26名のH・A・Fからいただいた回答をまとめてみました!ただそれだけのブログです!ご協力いただいた皆様ありがとうございます! 前書きはこんなもんで早速結果かいていきます。 髙橋優斗君に演じてほしい役 歩く青春なので(?)少年ジャンプに載ってそうな漫画の主人公か、い…
2023年2月19日(日) 2/18(土)13:00~17:00に日本教育心理学会研究委員会企画セミナー「テキストマイニング入門」をZoomで視聴しました。3人の講演で、石田先生(徳島大)がテキストマイニングの歴史、中西先生(桃山学院大)がKHCoder、倉本先生(聖徳大学)がワードマイナーの話題を提供しました。 私が面白いと思ったことをメモしておきます。 ・感情分析という手法ポジティブ/ネガティブについて数値をつけた辞書を使って、文章の数値化を行う。精度は辞書の出来に依存する。 ・著者判別テキストマイニングの初期の研究(20世紀中頃)では、文章の著者を判別するという目的で行われた。そのデータ…
日本教育心理学会研究企画委員会セミナー『テキストマイニング入門』 を受講しながら,テキストマイニングツールのインストールをあれこれ試しています。 第一選択肢と考えていたKH CoderはMacだと多少インストールがややこしいということが再認識できましたので(有料ツールはいちど試してみようかと思います),Rで動くRMeCabのインストールを試してみることにしました。 RMeCabも基本Windows上で動くツールでMacだとインストールがややこしいことがわかってきたのですが,どうにかインストールまでできたっぽいので備忘録として。 手順としては, Homebrewのインストール MeCabとIPA…
いつもお読みいただきありがとうございます. このブログは,記憶再生マップを描かせることの効果を,2021年8月に以前在籍していた学会の年会で発表した内容をもとに説明するために書いています. この数回は,児童の概念形成には時間が必要であることや情動面での刺激が記憶にはよい効果を与えること,授業内容はストーリーを成していること,さらに,誰でも書ける感想からその児童の理解の程度が推測できることなどを書かせていただきました.いずれも本校での実践ですので,一般的な地方の学校でも実践可能です. 記憶再生マップは,その児童・生徒がそれを描いた時点でどのような構成概念を持っているかの凡そを表したユニークな表現…
アンケートこうやって取ってまとめるの、2.5年ぶりらしくてまずそれにビビってしまった。お久しぶりですしおりんです。 「ブリ●アはクソ」というマイナス劇場情報は流れてくるのに最高劇場情報は流れて来ない!!!ってノリで好きな劇場のアンケートを取りました。まあ、普通に考えて見づらかったストレスは明文化されるけど、快適だった記憶って演目の記憶になるから劇場自体の記憶としては残りづらいんだよねそれはそう。それはそうなんだけど、でも劇場のここは良い!の情報を蓄積したら情報解禁時の楽しみも増えるかなって思ったりしてます。幸せの総量が増えるって良いことです。 アンケートが拡散されていく中で「どこかで見たことあ…
どうも、大学生47です。 今回は、最近話題のプログラミングについて書いていきます。その中でも、本記事は「Python」という言語について難易度的なとこから感覚的なところまで書きますので、「プログラミングって実際どうなん?」という人はぜひ読んでいただけると嬉しいです。 Pythonって簡単なの? Pythonに将来性とかあるの? Pythonをやりたいならこれを使うのがおすすめ 独習Python Python1年生 Pythonって簡単なの? 率直に言うと、数あるプログラミング言語の中では比較的簡単な方かと感じます。正直なとこ、プログラミング言語について優劣をつけるのは難しいです。ただ、Pyth…
本稿は2019年に別ブログへ投稿した記事を転載したものです。 テキストマイニング超初心者だったため、調査方法がかなり雑です。結果は真に受けないでください。 要約 声優 岡本信彦さんがリリースした楽曲の歌詞から語句を抽出して遊んだら面白かった。私の考察は載せないので、ぜひご自身で分析結果を解釈してみて。 コンテンツ 1.背景と宣伝 2.目的 3.調査対象 4.調査方法 5.調査結果(いち早く結果を知るにはココ) 頻出語句 共起ネットワーク クラスター分析 まとめ 1.背景と宣伝 "作詞: 岡本信彦”のクレジット表記がつく楽曲は現時点で22曲(新曲を含めると合計25曲)。これだけ数があれば、前々か…