2ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

文字化け辞典作成委員

1 : :03/05/13 21:14
文字化けを和訳できるようなソフトを作ろう!
ちなみに文字化けは
半角カタカナ、濁点、半濁点、。記号の・:」;@「などなどが
2つ重なると漢字に化けます。
有能なプログラマー募集!!

2 :デフォルトの名無しさん:03/05/13 21:15
@@

3 :デフォルトの名無しさん:03/05/13 21:18
・。、・、。「」@@@@@・・・・@¥:¥・」。、、。、

4 :デフォルトの名無しさん:03/05/13 21:20
ここは化けないね。

5 :デフォルトの名無しさん:03/05/13 21:22
>>4
EUCで入力すれば化けるよ。

6 :デフォルトの名無しさん:03/05/13 21:26
手当たり次第に文字のエンコードをかえる。

7 : :03/05/13 21:26
てかつくってくれーや

8 :デフォルトの名無しさん:03/05/13 21:27
@AB


9 :デフォルトの名無しさん:03/05/13 21:31
>>1
普通の掲示板は文字コードを判定して自分のページと同じコードに
変換してるから、そういう半角かなを入力すると判定を失敗して
文字化けになるんだけど、2chは判定なしで文字コードをシフトJISとして
扱うから、半角かなを入力しても化けないんだよ。

10 :デフォルトの名無しさん:03/05/13 21:35
    /\___/ヽ   ヽ
   /    ::::::::::::::::\ つ
  . |  ,,-‐‐   ‐‐-、 .:::| わ
  |  、_(o)_,:  _(o)_, :::|ぁぁ
.   |    ::<      .::|あぁ
   \  /( [三] )ヽ ::/ああ
   /`ー‐--‐‐―´\ぁあ

11 :デフォルトの名無しさん:03/05/13 22:03
>>9
JISにもEUCにもSJISにも、半角カタカナは存在しますが...?

12 :デフォルトの名無しさん:03/05/13 22:26
>>11
存在するかどうか自体は関係なかったりする。
変換の時が問題。
sjisは1バイトで表すのに対し、
eucは2バイトだからとか、そんな感じの問題。

13 :1:03/05/14 19:51
うぅむ。

14 :デフォルトの名無しさん:03/05/14 19:56
>>11
半角カナを入力すると判定に失敗するって言ってるのと、それがなんか関係があるの?

15 :デフォルトの名無しさん:03/05/14 20:21
うにこーど
君にあげよう

16 :デフォルトの名無しさん:03/05/15 00:04
文字コード判定+変換ぐらい自力で書いてみようと思ったけど
SJISとEUCの判定って面倒。

0xA1-0xDFとかが続いてたらどのあたりで見切りつけるわけ?

あとさ、判定ルーチンって、何バイトずつチェックするの?
もし3バイトずつにして「0xA1」「0xE0」「0xA1」とかってあったら
「SJIS半角+SJIS全角」もしくは「EUC全角+EUC全角1バイト目」なわけでしょ。
次のチェック時には1バイトずれちゃわない?

17 :デフォルトの名無しさん:03/05/15 00:23
「正しく表示されましたか?(Y/N)」をコードを適当にかえながら延々と

18 :デフォルトの名無しさん:03/05/15 01:53
>>16
文字コード変換ツールの ack のソースプログラムを見るといいよ。

19 :デフォルトの名無しさん:03/05/15 02:51
っていうか、jcode.pl 使えば一瞬で作れる。 (作った)

20 :デフォルトの名無しさん:03/05/15 10:34
>>19
それ、おまいが作ったのと違うだろ、と言いたい所だが合格。
スデに出来てる外部処理を使うのが最適。
と言うより自分で作るのがアホ。

21 :デフォルトの名無しさん:03/05/15 20:32
つーかどこが辞典なんだよ

22 :1:03/05/16 19:33
よくわからんわけですが。
頼みますよ。

23 :デフォルトの名無しさん:03/05/20 06:22
Ruby 使え。

24 :デフォルトの名無しさん:03/05/20 20:09
下記リンクの下のほうの
「コード自動認識」ってところよんでみ。
http://www.mars.dti.ne.jp/~torao/program/appendix/japanese.html

EUCとSJIS両方にとれる文字列ばかりが続いていれば
どうやったって判別は無理。

日本語の文法に照らし合わせたりするまでやるなら別だが。

あとSJISの半角カナはEUCコードで使用される領域にすっぽり収まってる
カナだけでキタ--とかオマエモナ-とかだけ書かれるとEUCとまったく区別がつかない。


25 :山崎渉:03/05/28 13:00
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉

26 :デフォルトの名無しさん:03/06/26 22:36
名スレの予感

27 : ◆manko/yek. :03/06/28 16:35
ェミェアェソ?

28 : ◆manko/yek. :03/06/28 16:36
ばけた?

と入れた。
韓国語ではそう読むのだな。

29 :これマジ!?:03/07/02 17:56
是非2ちゃんで使ってくれーい!!
矯臆(カコイイ)虐灼(オヤジ)獣扱(ステーキ)灼O灼O(ジュージュー)
笠Ф(ヴァカ)怖抑エ(ノンベエ)害酬(ウイスキー)
課整発ト(インターネット)顕殉(クイズ)銭・(チャット)丑餅朧折ー(アップローダー)
少現(セックス)朗蹟(マッタリ)掬動(オナニー)論椅(マターリ)払払(ハァハァ)
衿下a(ガイシュツ)杵貫徹(オマエモナー)!!

30 :山崎 渉:03/07/15 10:16

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄

31 :山崎 渉:03/08/02 02:53
(^^)

32 :ハッカ飴:03/08/12 00:22
暗号解読と一緒だろ

33 :ハッカ飴:03/08/12 00:26
>>9
もう1つ、ブラウザが適切な文字コード系で送信してくれるというものあるよ。
2chはシフトJISを使っているから、それにあわせて送ってくれているんだ。

つまり、この板は文字コード関連の面倒ごとをブラウザに任せているというわけで、
ブラウザが間違えば書き込みも化ける。

34 :デフォルトの名無しさん:03/08/12 00:29
>>32 全然違うと思うが。

35 :ハッカ飴:03/08/12 00:32
>>24
シフトJISの半角カナとEUCの漢字とは見分けがつかないけど、方法はある。
考えられる文字コードはせいぜい3つ、というかそれ以上は対応しなくても良いだろうから、3通りに変換してみるんだ。
そのうち「モナー」とか「山崎渉」とかがあるのが正しい変換結果。
好きなトリップを探すプログラムがあるけど、あんな感じ。

用語を集めるのが面倒なら、行末が「。」になっていたり、「です」「だな」になっているのを探すだけでもいい。
これでも実用的なプログラムが作れるよ。

36 :ハッカ飴:03/08/12 00:32
>>34
同じだって。35に書いておいた。

37 :デフォルトの名無しさん:03/08/12 10:47
面倒くさいからUnicodeで統一しようぜ

Unicode以外の古いコード使ったソフト作る奴は
時代遅れということで。

38 :デフォルトの名無しさん:03/08/12 16:44
うにこーどといっても、さらに派生しそうだな

39 :UnicodeはMulticodeです:03/08/12 17:08
Unicodeは、文字集合がバージョンごとに違いますが…
ところがBOFにはversionが埋め込まれてない…

「電」へのmappingが間違ってたので、policy曲げてmapping入れ替えてますが…
http://www.unicode.org/versions/corrigendum3.html
http://www.unicode.org/unicode/standard/policies.html


40 :ハッカ飴:03/08/12 19:38
>>37
2ch?

41 :デフォルトの名無しさん:03/08/12 21:19
まぁCGIのフォーム周りでは俺は固定文字列を隠しフォームで投げてこさせて
判定してるけど…
スレ違いかね。
スレ違いついでにJISで投げてくる(もちURIエスケープして)ブラウザってある?

42 :デフォルトの名無しさん:03/08/13 00:26
Unicodeは2.0と3.0で、φの2とおりの字体のコードポイントを入れ替えて
います。U+03C6とU+03D5。
両方の規格書を持っている人は、2.0のp.7-44と3.0のp.372を見て笑いましょう。

43 :デフォルトの名無しさん:03/08/13 03:11
8 ビット目を落とした場合の文字がどうなるってリスト無いよね。
自分で作るかぁ。

44 :ハッカ飴:03/08/15 00:58
>>41
JISで書いたページからなら、JISで送るはず。

45 :山崎 渉:03/08/15 15:19
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン

46 :デフォルトの名無しさん:03/08/15 23:49
shift jis で 2 byte 目が A0 だと文字化けする・・・。

47 :デフォルトの名無しさん:03/08/16 22:31
hoge

9 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.02.02 2014/06/23 Mango Mangüé ★
FOX ★ DSO(Dynamic Shared Object)