natsuの秘密基地です
カレンダー
10 | 2024/11 | 12 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
カテゴリー
プロフィール
HN:
natsu
性別:
男性
趣味:
酒など
自己紹介:
ここに書かれていることはフィクションです。
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
ISO資料とにらめっこ。
追記。
改行やタブのことすっかりわすれてた。
0x09以上をみないとだめだわ。
ざっくりと、どんなかんじのカテゴリがあるんじゃろか。
めんどくさかったので0xは省略。
ふつうのアルファベット、
ASCIIで定義されているような奴は、
0020 007E
おフランスの香りのする奴
00A0 024F
国債音表文字とやら
おフランス風味
辞書とかで発音の所で見たことあるかんじ。
0250 02AF
Lettres modificatives、
ってなんだ?
02B0 02FF
なんだかよくわからん。
まりも。
0300 036F
ギリシャ文字。
ここは欠番多いな。
0370 03FF
キリル文字
0400 052F
ギリシャとキリルは数学かなんかで使うかもだ。
アルメニア
0530 058F
ヘブル。
まりもがここにもいる。
0590 05FF
アラブ。
まりもつき。
0600 06FF
まりもは文字の拡張をあらわすのかもと思った。
日本語の濁点みたいな。
マリモの部分に別の文字を入れるのかなぁとか。
シリア。
0700 074F
サプリメント アラブ
0750 077F
ターナ。
0780 07BF
ンコ?
西アフリカ。
07C0 07FF
サマリア。
0800 083F
Mandaïque
ユダヤ?
0840 085F
もはやこの変になるとwikipediaで画面に出ない。
たぶんフォントが無いんだ。
デバナーガリ。
インド。
0900 097F
ベンガル。
0980 09FF
Gourmoukhi
インド系っぽい。
0A00 0A7F
グジャラート。
インド系。
0A80 0AFF
オリヤー。
0B00 0B7F
タミール。
0B80 0BFF
テルグ。
それにしてもインドは方言多いな。
0C00 0C7F
カンナダ
0C80 0CFF
マラヤーラム
0D00 0D7F
シンハラ
インドおおすぎ。
0D80 0DFF
タイ
0E00 0E7B
ラオス
0E80 0EFF
チベット
0F00 0FFF
バーマン。
1000 109F
グルジア
10A0 10FB
ハングル部首みたいなの。
発音関係?
1100 11F9
エチオピア
1200 139F
チェロキー
13A0 13FF
アボリジニカナダ 音字
1400 167F
オガム文字
1680 169F
ルーン
16A0 16FF
タガログ語
フィリピンのルソン辺り。
多分メジャーな奴
1700 171F
ハヌノオ
これもフィリピン
1720 173F
ブヒッド。
フィリピン。
1740 175F
タグバンワ。
1760 177F
クメール。
1780 17FF
モンゴル
1800 18AF
アボリジニカナダ 拡張
18B0 18FF
リンブ族
1900 194F
タイルー
1950 19DF
クメール
さっきも出てきた気がする
Symboles khmers
らしい。
19E0 19FF
ブギス?
インドネシア。
1A00 1A1F
タイタム。
ってなに?
タイのへんの文字?
1A20 1AAF
バリニーズ。
バリ。
1B00 1B7F
スンダ語。
1B80 1BBF
バタク。
インドネシア、スマトラ島北部。
1BC0 1BFF
レプチャ語。
1C00 1C4F
サンタル語。
サンタリ語?
インド。
1C50 1C7F
ヴェーダ拡張
1CD0 1CFF
音声国際音標文字的な何か
1D00 1DBF
発音区別符号。
ってなんだ?
1DC0 1DFF
ラテン発音関係。
拡張?
1E00 1EFF
ギリシャ拡張。
1F00 1FFF
上の句0x20から記号が多い。
いろいろ区分はあるけど、
私からしてみりゃ記号は記号。
こいつらは読み込めた方がいい気がする。
2E7Fまでは記号なかんじだけど、
後半は漢字の部首みたいなかんじ。
上の句0x30。
はじめは日本人しか使わないような記号がおおい。
JISマークとか。
3000 303F
ひらがなとカタカナ
3040 30FF
ボポモフォ。
なんかくせになりそうな名前。
中国語の発音記述のための文字。
3100 312F
ハングルの部首みたいなかんじ。
発音関係?
3130 318F
㆖㆗㆘とか㆙㆚㆛とかあるけど、
わけてるってことは意味があるのかもしれない
3190 319F
拡張ボポモフォ。
ぜひ声に出して読みたい言葉だと思う。
31A0 31BF
簡略文字?
中国用だと思う。
31C0 31EF
カタカナが少しいてる。
さっきのとだぶってる。
31F0 31FF
東アジア人が使いそうな記号。
(株)とかもここにいてる。
3200 32FF
一文字でキロメートル。とか書かれてる奴とかここにいてる。
3300 33FF
なじみのない漢字が展開されている。
日本で使われる漢字は無いような気がする。
3400 4DBF
易の象
文字として使う人いるのか。
4DC0 4DFF
ようやくでてきた普通の漢字
4E00 9FFF
李50音
A000 A48F
李50音関連のなにか。
キーって何だ?
A490 A4CF
LiSu。
李愬?
A4D0 A4FF
ヴァイ族。
A450 A63F
キリル拡張。
A640 A69F
Bamoun。
昔のカメルーンっぽい。
A6A0 A6FF
Lettres modificatives de ton。
わかりません。
A700 A71F
ラテン拡張。
A720 A7FF
Formes numériques communes indiennes。
インド関係?
A830 A83F
パグパ。
チベット。
A840 A87F
サウラシュトラ。
A880 A8DF
デーヴァナーガリー拡張
A8E0 A8FF
カヤー?
ミャンマー?
A900 A92F
レジャン族
A930 A95F
ハングル拡張。
A960 A97F
ジャワ。
A980 A9DF
チャム。
AA00 AA5F?
バーマン拡張
AA60 AA7F?
タイベトナム?
AA80 AADF?
エチオピア拡張。
AB00 AB2F?
マニプリ。
インド。マニプール。
ABC0 ABFF?
ハングル
AC00 D7AF
日中で互換性の高い漢字
F900-FAD9
Formes de présentation alphabétiques
プレゼンテーションフォームってなんだ?
FB00 FB4F
Formes A de présentation arabes
またプレゼンテーションフォーム。
FDFA、FDFB、FDFDとか文字じゃなくて絵な気がする。
FB50 FDFD
バリアントセレクタ。
使わない気がする。
FE00 FE0F
Demi-signes combinatoires
組み合わせマークらしい。
使うのは推奨されません。だって。
FE20 FE23
たぶん全角記号日本人が使いそうなやつ。
FE30 FE6B
Formes B de présentation arabes
わすれたころにプレゼンテーションフォーム。
FE70 FEFC
全角の記号やローマ字、半角カタカナなど。
FF00 FF9F
ハングルの部首みたいなやつ。
発音関係?
半角なんだと思う。
FFA1 FFDC
全角記号か。
セントとか円とかある。
FFE0 FFEE
スペシャル。
まあなんか特別なんでしょう。
FFF0 FFFF
まあなんか特別なんでしょう。
FFF0 FFFF
長かった。軽く気が狂いそうなんですけど。
そして意味不明過ぎ。
今回はいつもにも増して大体な感じで書いているのが解る。
大体の参考にしてくださいな。
確かなのが欲しいときはISOの資料見てください。
気が狂うから。
2003年版から差分差分で発行してるみたい。
で、やっと選別。
4byteのUCSは日本で使われる文字が入ってないらしいから、
ここは考えないこととして、
アルファベットっぽいから最初の方のと、
ギリシャ文字とキリル文字。
Дとかつかうんだよ。きっと。
ギリシャ、キリルと続いてて、
キリルの終わりが052Fだから
0020から052Fの領域。
2000からは記号なので大体読む。
最後の方は中国の人向けっぽいのではずす。
2000から2E7F。
3000からは記号。
使いたいところが分断されているので、
めんどくさいので、
3000から33FF
漢字。
4E00から9FA5
互換性の高い漢字ってのもひろう必要があるかも。
F900からFAD9
半角カタカナ、全角記号。
FF00からFFEF
あんまり領域が分断されてると演算が多くなるから
0020から052F
2000から2E7F
3000から33FF
4E00から9FFF
F900からFAD9
FF00からFFEF
の六つが私のターゲットなので、
0020->052F
2000->33FF
4E00->9FFF
F900->FFEF
の4つにまとめる。
遅かったら0020->33FFにまとめて再計測するか。
ビッグエンディアンとリトルエンディアンの
最悪2回やらないといけないから、
どうなることやら。
追記。
改行やタブのことすっかりわすれてた。
0x09以上をみないとだめだわ。
PR
この記事にコメントする