natsuの秘密基地です
カレンダー
10 | 2024/11 | 12 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
カテゴリー
プロフィール
HN:
natsu
性別:
男性
趣味:
酒など
自己紹介:
ここに書かれていることはフィクションです。
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
確実に文字コードを判別する方法は無いにしても、
まっとうなJISは0x7F以下のコードで出来ていて、
まあまあうまくいく。ってな方法はあるんだと思う。
まず、問題を簡単におさめるため、
環境的に日本語と英語しか使わないっていう前提で。
まっとうなJISは0x7F以下のコードで出来ていて、
特定のエスケープシーケンスが含まれている。
エスケープシーケンスが入ってないISO-2022-JPは
2byte文字や半角カタカナが入っていない。
すべてのコードがASCIIのコードで収まっているから、
ASCIIだっ。って言い張っていいと思う。
っていうか、それ以外言いようが無い。
前のエントリの結果から、
ISO-2022-JPかどうかが判断できたなら、
なんとかごまかせそうな気がする。
まずISO-2022-JPかどうか私が調べて、
そうだったらそう読み込めばいい。
ISO-2022-JPのコードがくる可能性が無ければ、
Shift JIS、EUC-JP、UTF-8は
それぞれのコード指定かUTF-16でしか読み込まれない。
UTF-16の読み込みより前にこれらを試行しておけば
まちがって読み込まれる心配が無い。
で、最後に残ったのがUTF-16。
これを最後に試行。
うっかりバイナリを読み込めてしまうかも。
っていうのは今思った。
そんなわけで、とりあえず、
ISO-2022-JPをなんとかできればね。
何とかなりそうな気がするけども、
出来ればNSStringじゃなくて、
私が文字コードを判別したいな、
というのは思う。
なんかね。
文字コードの問題はめんどくさい。
また扱うと思うけど、
ちょっとお休み。
っていうかおまえら。
ヘッダかなんか持て。
次からでいいから。
やりたいことが増えていく。
この一連のはまりはあんがい壮大なのかもしれない。
PR
この記事にコメントする