キーワードの重複
http://www.hatena.ne.jp/1093082407
正直、どうしてこんなことがしたいのかよくわからない。
例えば、
[はてなダイアリーFAQ「はてなダイアリー共有フォルダ」]
だと、
・「はてなダイアリーFAQ「はてなダイアリー共有フォルダ」」
・「はてなダイアリーFAQ」
・「はてなダイアリー」
・「FAQ」
・「はてなダイアリー共有フォルダ」
・「フォルダ」
・「はてな」
を含みます。Excel やテキストエディタ(WZ Editor など)を使って調査したいのですが、
その他プログラミング言語(C言語 や Perl など)でも構いません。
手軽に調査する方法を教えてください。
まあ、それをさしおいても、Perl使いなら時間はかかるけどすぐにスクリプトが組めそうな質問だ。
だから、組んでみた。
open ( IN, 'keywordlist.txt' ); my @str = <IN>; close ( IN ); my $str = join ( '', @str ); @str = split /\|/, $str; @str = map { lc $_ } @str; map { s/\\s/ /g } @str; map { s/\\//g } @str; open ( OUT, '>keyword.txt' ); while ( @str ) { my $str = lc shift @str; print "str\n"; print OUT $str; foreach my $in ( @str ) { my $substr = lc $in; next if ( 0 > index $str, $substr ); print OUT "\t".$in; } print OUT "\n"; } close ( OUT );
- http://d.hatena.ne.jp/images/keyword/keywordlist の内容をローカルにkeywordlist.txtのファイル名で保存する。
- 同じディレクトリに上記のPerlスクリプトを作成する。
- 実行する。(かなり時間がかかるので、茶でも飲んで待つ)
- keyword.txtが作られる。
keyword.txtの中身は、キーワード(タブ)それに含まれる他のキーワードをタブ区切りとなっている。
開いてコピーしてエクセルとかに貼り付けるといい。
なお、文字コードはデフォルトではEUC-JPになっているので、気に食わない時は、keywordlist.txtを自分で編集するべし。
目が覚めるとこんな時間
よっぽど寝不足だったのか、この一週間。
キーワードの重複
http://www.hatena.ne.jp/1093082407
正直、どうしてこんなことがしたいのかよくわからない。
例えば、
[はてなダイアリーFAQ「はてなダイアリー共有フォルダ」]
だと、
・「はてなダイアリーFAQ「はてなダイアリー共有フォルダ」」
・「はてなダイアリーFAQ」
・「はてなダイアリー」
・「FAQ」
・「はてなダイアリー共有フォルダ」
・「フォルダ」
・「はてな」
を含みます。Excel やテキストエディタ(WZ Editor など)を使って調査したいのですが、
その他プログラミング言語(C言語 や Perl など)でも構いません。
手軽に調査する方法を教えてください。
まあ、それをさしおいても、Perl使いなら時間はかかるけどすぐにスクリプトが組めそうな質問だ。
だから、組んでみた。
open ( IN, 'keywordlist.txt' ); my @str = <IN>; close ( IN ); my $str = join ( '', @str ); @str = split /\|/, $str; @str = map { lc $_ } @str; map { s/\\s/ /g } @str; map { s/\\//g } @str; open ( OUT, '>keyword.txt' ); while ( @str ) { my $str = lc shift @str; print "str\n"; print OUT $str; foreach my $in ( @str ) { my $substr = lc $in; next if ( 0 > index $str, $substr ); print OUT "\t".$in; } print OUT "\n"; } close ( OUT );
- http://d.hatena.ne.jp/images/keyword/keywordlist の内容をローカルにkeywordlist.txtのファイル名で保存する。
- 同じディレクトリに上記のPerlスクリプトを作成する。
- 実行する。(かなり時間がかかるので、茶でも飲んで待つ)
- keyword.txtが作られる。
keyword.txtの中身は、キーワード(タブ)それに含まれる他のキーワードをタブ区切りとなっている。
開いてコピーしてエクセルとかに貼り付けるといい。
なお、文字コードはデフォルトではEUC-JPになっているので、気に食わない時は、keywordlist.txtを自分で編集するべし。
目が覚めるとこんな時間
よっぽど寝不足だったのか、この一週間。
キーワードの重複
http://www.hatena.ne.jp/1093082407
正直、どうしてこんなことがしたいのかよくわからない。
例えば、
[はてなダイアリーFAQ「はてなダイアリー共有フォルダ」]
だと、
・「はてなダイアリーFAQ「はてなダイアリー共有フォルダ」」
・「はてなダイアリーFAQ」
・「はてなダイアリー」
・「FAQ」
・「はてなダイアリー共有フォルダ」
・「フォルダ」
・「はてな」
を含みます。Excel やテキストエディタ(WZ Editor など)を使って調査したいのですが、
その他プログラミング言語(C言語 や Perl など)でも構いません。
手軽に調査する方法を教えてください。
まあ、それをさしおいても、Perl使いなら時間はかかるけどすぐにスクリプトが組めそうな質問だ。
だから、組んでみた。
open ( IN, 'keywordlist.txt' ); my @str = <IN>; close ( IN ); my $str = join ( '', @str ); @str = split /\|/, $str; @str = map { lc $_ } @str; map { s/\\s/ /g } @str; map { s/\\//g } @str; open ( OUT, '>keyword.txt' ); while ( @str ) { my $str = lc shift @str; print "str\n"; print OUT $str; foreach my $in ( @str ) { my $substr = lc $in; next if ( 0 > index $str, $substr ); print OUT "\t".$in; } print OUT "\n"; } close ( OUT );
- http://d.hatena.ne.jp/images/keyword/keywordlist の内容をローカルにkeywordlist.txtのファイル名で保存する。
- 同じディレクトリに上記のPerlスクリプトを作成する。
- 実行する。(かなり時間がかかるので、茶でも飲んで待つ)
- keyword.txtが作られる。
keyword.txtの中身は、キーワード(タブ)それに含まれる他のキーワードをタブ区切りとなっている。
開いてコピーしてエクセルとかに貼り付けるといい。
なお、文字コードはデフォルトではEUC-JPになっているので、気に食わない時は、keywordlist.txtを自分で編集するべし。
目が覚めるとこんな時間
よっぽど寝不足だったのか、この一週間。