Perlで文字列長（バイト数）を求めるにはパート２ - 小池啓仁ヒロヒト応援ブログ By はてな

約２年前の2007/12/3に以下の記事を書きました。

Perlで文字列長（バイト数）を求めるには

しかし、length関数は、utf8 pragmaするとバイト数でなく、文字数を返すようになるのです。
で、バイト数を求めるにはと…ググると以下のfbisさんのページに遭遇しました！

utf8オンな文字列のバイト数の取得方法

このページでは、学ぶべきことが沢山あったのでメモしときます。

◆引用ソース（多少アレンジさせていただきました）

use strict;
use warnings;

# ポイント１
use utf8;

my $utf8_str = 'シンガー小池啓仁';
my $bytes;

# ポイント２
$bytes = length $utf8_str;
print $bytes, "\n";

# ポイント３
#require bytes;
use bytes();

# ポイント４
$bytes = bytes::length $utf8_str;
print $bytes, "\n";

# ポイント５
$bytes = length unpack('a*',$utf8_str);
print $bytes, "\n";

# ポイント６
{
    use bytes;
    $bytes = length $utf8_str;
    print $bytes, "\n";
}

# ポイント７
use Encode;
Encode::_utf8_off($utf8_str);
$bytes = length $utf8_str;
print $bytes, "\n";
Encode::_utf8_on($utf8_str);

http://d.hatena.ne.jp/fbis/20080126/1201320719

◆実行結果

C:\perltest>length.pl
8
24
24
24
24

『シンガー小池啓仁』の文字列数は８で、バイト数は２４になります。
UTF-8では、漢字１文字を３バイトでエンコーディングします。

Unicodeの概略を理解する

◆ポイント１

use utf8;

utf8 pragmaの宣言です。
これは、大雑把にいってしまうと、文字列をちゃんと文字列として扱います。
utf8 pragma以前は、文字列をバイト列として扱っていた為に、文字化け等の問題がありました。
今のPerlで漢字を扱う場合は、utf8 pragmaを宣言し、ソースの文字コードをUTF-8にするのが推奨です。

◆ポイント２

$bytes = length $utf8_str;

これは、標準の組み込み関数（メインモジュール）のlengthを使用していますが、utf8 pragmaの時は、バイト数でなく文字数を返します。

◆ポイント３

#require bytes;
use bytes();

require bytesとuse bytes()は、ほぼイコールです。
require bytesは、実行時にbytesモジュールを読み込みます。
use bytes()は、コンパイル時にbytesモジュールを読み込み、そして、空リスト()を指定しているので、このモジュールからのインポートは無しです。
もし、空リストを指定しないと（use bytes;）bytesモジュールのlength関数がインポートされて、メインモジュールのlengthがオーバーライドされてしまいます。

◆ポイント４

$bytes = bytes::length $utf8_str;

bytesモジュールのlengthを使用しています。これは、文字数でなくバイト数を返します。

◆ポイント５

$bytes = length unpack('a*',$utf8_str);

unpackで文字列$utf8_strをバイト列に変換して、メインモジュール（組み込み関数）のlength でそのバイト数を返します。

◆ポイント６

{
    use bytes;
    $bytes = length $utf8_str;
    print $bytes, "\n";
}

中カッコの中がスコープになり、この中だけbytesモジュールのlength関数が適用され、バイト数が取得できます。

◆ポイント７

use Encode;
Encode::_utf8_off($utf8_str);
$bytes = length $utf8_str;
print $bytes, "\n";
Encode::_utf8_on($utf8_str);

文字列のUTF8フラグをオフにするとバイト列になり、これをメインモジュールのlengthでバイト数を取得できます。
その後、UTF8フラグをオンに戻します。

小池啓仁 ヒロヒト応援ブログ By はてな