忍者ブログ
natsuの秘密基地です
はまり
はまり一件ごとのお話の流れです
カレンダー
03 2024/04 05
S M T W T F S
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
プロフィール
HN:
natsu
性別:
男性
趣味:
酒など
自己紹介:
ここに書かれていることはフィクションです。
ブログ内検索
アクセス解析
[1] [2] [3] [4] [5] [6] [7] [8] [9
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

 ああ。ねむい。
酒飲みながらステップ実行ぽちぽちぽち。
 
 
で、すっかり忘れてたんだけども、
UTF-16はNULL文字が平気で出てくるわけで。
 
改行やタブのこともすっかり忘れてたし。
 
 
NULL文字が平気で出るので、
fgetsとかstrlenとかやると痛い思いをする。
 
 
うん。痛かったよ。わりと。
 
 
もはやバイナリを読む気でかからないと。
っていうかcでファイルポインタからファイル読み込むなんて。
何年ぶりですか。ほんと。
 
最近はね。まあ、いろいろ便利になったからね。
 
freadをつかってね。と。
 
 
 
で、微妙な漢字ばかりの4000->4DBF。
日本がどうたら書かれてるんで、
もしかしたら、なじみのやつが含まれているかも。
漢字の拡張文字らしい。
 
これもやはり含めた方が無難か。と思った。
 
なので4E00->9FFFを
4000->9FFFに変更してみる。
 
 
もう少しのんだら寝よう。
 
PR
ISO資料とにらめっこ。
ざっくりと、どんなかんじのカテゴリがあるんじゃろか。
 
めんどくさかったので0xは省略。
 
 
ふつうのアルファベット、
ASCIIで定義されているような奴は、
0020 007E
 
おフランスの香りのする奴
00A0 024F
 
国債音表文字とやら
おフランス風味
辞書とかで発音の所で見たことあるかんじ。
0250 02AF
 
Lettres modificatives、
ってなんだ?
02B0 02FF
 
なんだかよくわからん。
まりも。
0300 036F
 
ギリシャ文字。
ここは欠番多いな。
0370 03FF
 
キリル文字
0400 052F
 
 
ギリシャとキリルは数学かなんかで使うかもだ。
 
 
アルメニア
0530 058F
 
ヘブル。
まりもがここにもいる。
0590 05FF
 
アラブ。
まりもつき。
0600 06FF
 
 
 
まりもは文字の拡張をあらわすのかもと思った。
日本語の濁点みたいな。
マリモの部分に別の文字を入れるのかなぁとか。
 
 
 
シリア。
0700 074F
 
サプリメント アラブ
0750  077F
 
ターナ。
0780 07BF
 
ンコ?
西アフリカ。
07C0 07FF
 
サマリア。
0800 083F
 
Mandaïque
ユダヤ?
0840 085F



 
もはやこの変になるとwikipediaで画面に出ない。
たぶんフォントが無いんだ。
 
 
デバナーガリ。
インド。
0900 097F
 
ベンガル。
0980 09FF
 
Gourmoukhi
インド系っぽい。
0A00 0A7F
 
グジャラート。
インド系。
0A80 0AFF
 
オリヤー。
0B00 0B7F
 
タミール。
0B80 0BFF
 
テルグ。
それにしてもインドは方言多いな。
0C00 0C7F
 
カンナダ
0C80 0CFF
 
マラヤーラム
0D00 0D7F
 
シンハラ
インドおおすぎ。
0D80  0DFF
 
タイ
0E00 0E7B
 
ラオス
0E80 0EFF
 
チベット
0F00 0FFF
 
バーマン。
1000 109F
 
グルジア
10A0 10FB
 
ハングル部首みたいなの。
発音関係?
1100 11F9
 
エチオピア
1200 139F
 
チェロキー
13A0 13FF
 
アボリジニカナダ 音字
1400 167F
 
オガム文字
1680 169F
 
ルーン
16A0 16FF
 
タガログ語
フィリピンのルソン辺り。
多分メジャーな奴
1700 171F
 
ハヌノオ
これもフィリピン
1720 173F
 
ブヒッド。
フィリピン。
1740 175F
 
タグバンワ。
1760 177F
 
クメール。
1780 17FF
 
モンゴル
1800 18AF
 
アボリジニカナダ 拡張
18B0 18FF
 
リンブ族
1900 194F
 
タイルー
1950 19DF
 
クメール
さっきも出てきた気がする
Symboles khmers
らしい。
19E0 19FF
 
ブギス?
インドネシア。
1A00 1A1F
 
タイタム。
ってなに?
タイのへんの文字?
1A20 1AAF
 
 
バリニーズ。
バリ。
1B00 1B7F
 
スンダ語。
1B80 1BBF
 
バタク。
インドネシア、スマトラ島北部。
1BC0 1BFF
 
レプチャ語。
1C00 1C4F
 
サンタル語。
サンタリ語?
インド。
1C50 1C7F
 
ヴェーダ拡張
1CD0 1CFF
 
音声国際音標文字的な何か
1D00 1DBF
 
発音区別符号。
ってなんだ?
1DC0 1DFF
 
ラテン発音関係。
拡張?
1E00 1EFF
 
ギリシャ拡張。
1F00 1FFF
 



 
上の句0x20から記号が多い。
いろいろ区分はあるけど、
私からしてみりゃ記号は記号。
こいつらは読み込めた方がいい気がする。
2E7Fまでは記号なかんじだけど、
後半は漢字の部首みたいなかんじ。
 



 
上の句0x30。
はじめは日本人しか使わないような記号がおおい。
JISマークとか。
3000 303F
 
ひらがなとカタカナ
3040 30FF
 
ボポモフォ。
なんかくせになりそうな名前。
中国語の発音記述のための文字。
3100 312F
 
ハングルの部首みたいなかんじ。
発音関係?
3130 318F
 
㆖㆗㆘とか㆙㆚㆛とかあるけど、
わけてるってことは意味があるのかもしれない
3190 319F
 
拡張ボポモフォ。
ぜひ声に出して読みたい言葉だと思う。
31A0 31BF
 
簡略文字?
中国用だと思う。
31C0 31EF
 
カタカナが少しいてる。
さっきのとだぶってる。
31F0 31FF
 
東アジア人が使いそうな記号。
(株)とかもここにいてる。
3200 32FF
 
一文字でキロメートル。とか書かれてる奴とかここにいてる。
3300 33FF
 
なじみのない漢字が展開されている。
日本で使われる漢字は無いような気がする。
3400 4DBF
 
易の象
文字として使う人いるのか。
4DC0 4DFF
 
 
 
ようやくでてきた普通の漢字
4E00 9FFF
 
 
 
李50音
A000 A48F
 
李50音関連のなにか。
キーって何だ?
A490 A4CF
 
LiSu。
李愬?
A4D0 A4FF
 
ヴァイ族。
A450 A63F
 
キリル拡張。
A640 A69F
 
Bamoun。
昔のカメルーンっぽい。
A6A0 A6FF
 
Lettres modificatives de ton。
わかりません。
A700 A71F
 
ラテン拡張。
A720 A7FF
 
Formes numériques communes indiennes。
インド関係?
A830 A83F
 
パグパ。
チベット。
A840 A87F
 
サウラシュトラ。
A880 A8DF
 
デーヴァナーガリー拡張
A8E0 A8FF
 
カヤー?
ミャンマー?
A900 A92F
 
レジャン族
A930 A95F
 
ハングル拡張。
A960 A97F
 
ジャワ。
A980 A9DF
 
チャム。
AA00 AA5F?
 
バーマン拡張
AA60 AA7F?
 
タイベトナム?
AA80 AADF?
 
エチオピア拡張。
AB00 AB2F?
 
マニプリ。
インド。マニプール。
ABC0 ABFF?
 
ハングル
AC00 D7AF
 
 
 
日中で互換性の高い漢字
F900-FAD9
 
 
 
 
Formes de présentation alphabétiques
プレゼンテーションフォームってなんだ?
FB00 FB4F
 
Formes A de présentation arabes
またプレゼンテーションフォーム。
FDFA、FDFB、FDFDとか文字じゃなくて絵な気がする。
FB50 FDFD
 
バリアントセレクタ。
使わない気がする。
FE00 FE0F
 
Demi-signes combinatoires
組み合わせマークらしい。
使うのは推奨されません。だって。
FE20 FE23
 
たぶん全角記号日本人が使いそうなやつ。
FE30 FE6B
 
Formes B de présentation arabes
わすれたころにプレゼンテーションフォーム。
FE70 FEFC
 
全角の記号やローマ字、半角カタカナなど。
FF00 FF9F
 
ハングルの部首みたいなやつ。
発音関係?
半角なんだと思う。
FFA1 FFDC
 
全角記号か。
セントとか円とかある。
FFE0 FFEE
 
スペシャル。
まあなんか特別なんでしょう。
FFF0 FFFF



 
長かった。軽く気が狂いそうなんですけど。
そして意味不明過ぎ。
 
今回はいつもにも増して大体な感じで書いているのが解る。
 
大体の参考にしてくださいな。
確かなのが欲しいときはISOの資料見てください。
気が狂うから。
 
2003年版から差分差分で発行してるみたい。
 
 
 
で、やっと選別。
 
4byteのUCSは日本で使われる文字が入ってないらしいから、
ここは考えないこととして、
 
 
アルファベットっぽいから最初の方のと、
ギリシャ文字とキリル文字。
Дとかつかうんだよ。きっと。
ギリシャ、キリルと続いてて、
キリルの終わりが052Fだから
0020から052Fの領域。
 
2000からは記号なので大体読む。
最後の方は中国の人向けっぽいのではずす。
2000から2E7F。
 
 
3000からは記号。
使いたいところが分断されているので、
めんどくさいので、
3000から33FF
 
漢字。
4E00から9FA5
互換性の高い漢字ってのもひろう必要があるかも。
F900からFAD9
 
半角カタカナ、全角記号。
FF00からFFEF
 
 
あんまり領域が分断されてると演算が多くなるから
0020から052F
2000から2E7F
3000から33FF
4E00から9FFF
F900からFAD9
FF00からFFEF
の六つが私のターゲットなので、
 
0020->052F
2000->33FF
4E00->9FFF
F900->FFEF
の4つにまとめる。
遅かったら0020->33FFにまとめて再計測するか。
 
 
ビッグエンディアンとリトルエンディアンの
最悪2回やらないといけないから、
どうなることやら。
 


追記。
改行やタブのことすっかりわすれてた。
0x09以上をみないとだめだわ。



UCSなんちゃらのISO資料とにらめっこしてましたが。
まあなんというか。
これをまとめた人はほんと大変だったと思う。
 
だいたい傾向として、
上の句が0x00から0x4D
は普通の文字がいてるらしい。
文字を組み合わせて単語を作って、
意味をつくるタイプだと思う。
 
4Eからはちょっと変わり種の文字。
上の句4Eから9Fは漢字。
中国とか日本。
 
漢字はある意味、ローマ字のアルファベットの次に
世界で使われてる文字なんじゃないかと思った。
まあ、いちばん使ってる国が人おおすぎ、ってのもあるけど。
 
拡張のための予備領域がA0から。
今はもうハングルとかがいてるみたい。
どこまで埋まってるのか知らないけど、
日本人には多分関係がないんだと思う。
DFまで、っていってるけど、
D7からはサロゲート領域としてつかわないだろうから、
ここまでだと思う。
 
E0からFFは外字などを格納する場所らしい。
つまり、ど変態はここにいる。
そう。例えば半角カタカナとか。
それとか全角ローマ字とか。
 
まあ、最後のは文字化け覚悟の領域でしょう。
国内でのみ通用すればいいんだと思う。
 
A領域とかI領域とか区分されてるみたいなんで、
興味のある人は調べてみるといいかも。
私の文章よりきっとわかりやすいから。



 
なんでもいいけど、今見てるこの資料、
おフランス風味。


 
 
どんなやつがいてるか。っていうのは、
ここが解りやすいのかも。
 
 
 
そいつらがどんな奴なのかってのは日本語じゃみつけられなかった。
 
 
英語のもある気はする。
 
 
資料とフランスのWikiとちょっと違いがあるので、
私が見てるのがちょっと古いんだと思った。
Wikiに書いてある方が文字の数が多いから。
 


Copyright (C) 2010 NEST,
All right Resieved.*Powered by ニンジャブログ *Designed by にこるん  / 忍者ブログ / [PR]