キーワードの重複

http://www.hatena.ne.jp/1093082407


例えば、
[はてなダイアリーFAQ「はてなダイアリー共有フォルダ」]
だと、
・「はてなダイアリーFAQ「はてなダイアリー共有フォルダ」
・「はてなダイアリーFAQ
・「はてなダイアリー
・「FAQ」
・「はてなダイアリー共有フォルダ
・「フォルダ」
・「はてな
を含みます。

ExcelテキストエディタWZ Editor など)を使って調査したいのですが、
その他プログラミング言語C言語Perl など)でも構いません。
手軽に調査する方法を教えてください。

正直、どうしてこんなことがしたいのかよくわからない。
まあ、それをさしおいても、Perl使いなら時間はかかるけどすぐにスクリプトが組めそうな質問だ。
だから、組んでみた。

open ( IN, 'keywordlist.txt' );
my @str = <IN>;
close ( IN );
my $str = join ( '', @str );
@str = split /\|/, $str;
@str = map { lc $_ } @str;
map { s/\\s/ /g } @str;
map { s/\\//g } @str;
open ( OUT, '>keyword.txt' );
while ( @str ) {
	my $str = lc shift @str;
	print "str\n";
	print OUT $str;
	foreach my $in ( @str ) {
		my $substr = lc $in;
		next if ( 0 > index $str, $substr );
		print OUT "\t".$in;
	}
	print OUT "\n";
}
close ( OUT );
  1. http://d.hatena.ne.jp/images/keyword/keywordlist の内容をローカルにkeywordlist.txtのファイル名で保存する。
  2. 同じディレクトリに上記のPerlスクリプトを作成する。
  3. 実行する。(かなり時間がかかるので、茶でも飲んで待つ)
  4. keyword.txtが作られる。

keyword.txtの中身は、キーワード(タブ)それに含まれる他のキーワードをタブ区切りとなっている。
開いてコピーしてエクセルとかに貼り付けるといい。
なお、文字コードはデフォルトではEUC-JPになっているので、気に食わない時は、keywordlist.txtを自分で編集するべし。

病名

id:ma-asa氏。ギラン・バレー症候群を患っておられるとか。
そのことについては(脂肪肝痛風気味の生活習慣病予備軍ではあるけれども)健常者である自分からはなんとも申し上げられないのですが、しかしこの病名……。
すいません、どうしても言いたくなってしまいました。
ゴルゴ13と同じですね!?
……ああ、言っちゃった。もう、患っている本人には何の慰めにもならないオタの脳内独り言でございました。
本当にすいません。

キーワードの重複

http://www.hatena.ne.jp/1093082407


例えば、
[はてなダイアリーFAQ「はてなダイアリー共有フォルダ」]
だと、
・「はてなダイアリーFAQ「はてなダイアリー共有フォルダ」
・「はてなダイアリーFAQ
・「はてなダイアリー
・「FAQ」
・「はてなダイアリー共有フォルダ
・「フォルダ」
・「はてな
を含みます。

ExcelテキストエディタWZ Editor など)を使って調査したいのですが、
その他プログラミング言語C言語Perl など)でも構いません。
手軽に調査する方法を教えてください。

正直、どうしてこんなことがしたいのかよくわからない。
まあ、それをさしおいても、Perl使いなら時間はかかるけどすぐにスクリプトが組めそうな質問だ。
だから、組んでみた。

open ( IN, 'keywordlist.txt' );
my @str = <IN>;
close ( IN );
my $str = join ( '', @str );
@str = split /\|/, $str;
@str = map { lc $_ } @str;
map { s/\\s/ /g } @str;
map { s/\\//g } @str;
open ( OUT, '>keyword.txt' );
while ( @str ) {
	my $str = lc shift @str;
	print "str\n";
	print OUT $str;
	foreach my $in ( @str ) {
		my $substr = lc $in;
		next if ( 0 > index $str, $substr );
		print OUT "\t".$in;
	}
	print OUT "\n";
}
close ( OUT );
  1. http://d.hatena.ne.jp/images/keyword/keywordlist の内容をローカルにkeywordlist.txtのファイル名で保存する。
  2. 同じディレクトリに上記のPerlスクリプトを作成する。
  3. 実行する。(かなり時間がかかるので、茶でも飲んで待つ)
  4. keyword.txtが作られる。

keyword.txtの中身は、キーワード(タブ)それに含まれる他のキーワードをタブ区切りとなっている。
開いてコピーしてエクセルとかに貼り付けるといい。
なお、文字コードはデフォルトではEUC-JPになっているので、気に食わない時は、keywordlist.txtを自分で編集するべし。

病名

id:ma-asa氏。ギラン・バレー症候群を患っておられるとか。
そのことについては(脂肪肝痛風気味の生活習慣病予備軍ではあるけれども)健常者である自分からはなんとも申し上げられないのですが、しかしこの病名……。
すいません、どうしても言いたくなってしまいました。
ゴルゴ13と同じですね!?
……ああ、言っちゃった。もう、患っている本人には何の慰めにもならないオタの脳内独り言でございました。
本当にすいません。

キーワードの重複

http://www.hatena.ne.jp/1093082407


例えば、
[はてなダイアリーFAQ「はてなダイアリー共有フォルダ」]
だと、
・「はてなダイアリーFAQ「はてなダイアリー共有フォルダ」
・「はてなダイアリーFAQ
・「はてなダイアリー
・「FAQ」
・「はてなダイアリー共有フォルダ
・「フォルダ」
・「はてな
を含みます。

ExcelテキストエディタWZ Editor など)を使って調査したいのですが、
その他プログラミング言語C言語Perl など)でも構いません。
手軽に調査する方法を教えてください。

正直、どうしてこんなことがしたいのかよくわからない。
まあ、それをさしおいても、Perl使いなら時間はかかるけどすぐにスクリプトが組めそうな質問だ。
だから、組んでみた。

open ( IN, 'keywordlist.txt' );
my @str = <IN>;
close ( IN );
my $str = join ( '', @str );
@str = split /\|/, $str;
@str = map { lc $_ } @str;
map { s/\\s/ /g } @str;
map { s/\\//g } @str;
open ( OUT, '>keyword.txt' );
while ( @str ) {
	my $str = lc shift @str;
	print "str\n";
	print OUT $str;
	foreach my $in ( @str ) {
		my $substr = lc $in;
		next if ( 0 > index $str, $substr );
		print OUT "\t".$in;
	}
	print OUT "\n";
}
close ( OUT );
  1. http://d.hatena.ne.jp/images/keyword/keywordlist の内容をローカルにkeywordlist.txtのファイル名で保存する。
  2. 同じディレクトリに上記のPerlスクリプトを作成する。
  3. 実行する。(かなり時間がかかるので、茶でも飲んで待つ)
  4. keyword.txtが作られる。

keyword.txtの中身は、キーワード(タブ)それに含まれる他のキーワードをタブ区切りとなっている。
開いてコピーしてエクセルとかに貼り付けるといい。
なお、文字コードはデフォルトではEUC-JPになっているので、気に食わない時は、keywordlist.txtを自分で編集するべし。

病名

id:ma-asa氏。ギラン・バレー症候群を患っておられるとか。
そのことについては(脂肪肝痛風気味の生活習慣病予備軍ではあるけれども)健常者である自分からはなんとも申し上げられないのですが、しかしこの病名……。
すいません、どうしても言いたくなってしまいました。
ゴルゴ13と同じですね!?
……ああ、言っちゃった。もう、患っている本人には何の慰めにもならないオタの脳内独り言でございました。
本当にすいません。