差分

このページの2つのバージョン間の差分を表示します。

--- dokuwiki:localize [2007/07/29 09:50] – osamu
+++ dokuwiki:localize [2007/07/31 15:31] – osamu
@@ 行 1: / 行 1: @@
 ====== DokuWikiの日本語対応 ======
-[[doku>wiki:install|DokuWikiのインストールマニュアル]]（[[wiki:install|日本語版―作業中]]）にしたがって普通にインストールし、設定ファイルの''conf/dokuwiki.php''か''conf/local.php''の中に
+[[doku>wiki:install|DokuWikiのインストールマニュアル]]（[[doku>wiki:ja:install|日本語版]]）にしたがって普通にインストール。インストール画面で日本語を選択すれば、自動的に設定ファイルの''conf/local.php''の中に
 <code php>
 $conf['lang'] = 'ja';
 </code>
-と記述すると、ユーザーインターフェースの文字列などは日本語になる。
+と記述されて、ユーザーインターフェースの文字列などは日本語になる。
 機能面での日本語対応を強化するために、次の改造を加える。
@@ 行 72: / 行 72: @@
 ^D</code>
 のように、入力した文字が分かち書きされて表示されればOK。
@@ 行 92: / 行 97: @@
       list($page,$body) = $data;
 </code>
-の後ろに
+と
+<code php>
+    $body   = strtr($body, "\r\n\t", '   ');
+</code>
+の間に
 <code php>
      if(function_exists(proc_open) && defined('PRE_TOKENIZER')) {
@@ 行 147: / 行 156: @@
 を追加。
-DokuWikiの最近のバージョンでは、日本語を含むアジア圏の文字を１文字１単語とみなして検索する修正が入っているが、これを使うと例えば「文字を探す」で検索すると「文」「字」「を」「探」「す」のすべての文字が検索結果でハイライトされたりして具合がよくない。上記の修正を加えたときは、idx_getPageWords($page)とidx_tokenizer($string,&$stopwords)の両関数の中の
+DokuWikiの最近のバージョンでは、日本語を含むアジア圏の文字を１文字１単語とみなして検索する修正が入っているが、これを使うと例えば「文字を探す」で検索すると「文」「字」「を」「探」「す」のすべての文字が検索結果でハイライトされたりして具合がよくない。上記の修正を加えたときは、idx_tokenizer($string,&$stopwords)関数にある
 <code php>
             $asia = @preg_replace('/('.IDX_ASIAN.')/u','\1 ',$word);
             if(!is_null($asia)) $word = $asia; //recover from regexp failure
 </code>
-という２行をそれぞれコメントアウトしたほうがよい。
+という２行をコメントアウトする。
+また、indexer.phpにwordlen()という関数があるが、これも同じくアジア圏の文字は１文字１単語とみなす処理が入っているので
+<code php>
+function wordlen($w){
+    // $l = strlen($w);
-//2005-12-8 - Mecabのプロセスがハングアップして残ってしまうのを避けるために''stream_set_blocking()''を追加//
+    $l = utf8_strlen($w);
+    //// If left alone, all chinese "words" will get put into w3.idx
+    //// So the "length" of a "word" is faked
+    //if(preg_match('/'.IDX_ASIAN2.'/u',$w))
+    //    $l += ord($w) - 0xE1;  // Lead bytes from 0xE2-0xEF
+    return $l;
+}
+</code>
+と変更。
+それから、同じくindexer.php の idx_getIndexWordsSorted() 関数の中に、
+<code php>
+        if ($wlen < 3 && $wild == 0 && !is_numeric($xword)) continue;
+</code>
+という部分があるが、このままだと3文字より短い単語を検索できない。英語などではそれでもよいのだが、日本語の場合1～2文字の単語も検索できないと困るので、これを
+<code php>
+        if (preg_match('/[^0-9A-Za-z]/u', $string) && $wlen < 3 && $wild == 0 && !is_numeric($xword)) continue;
+</code>
+と書き換える。
+//2005-12-8 - Mecabのプロセスがハングアップして残ってしまうのを避けるために''stream_set_blocking()''を追加//\\
 //2007-7-29 - DokuWikiの最近のバージョンにあわせて、修正箇所の説明を変更//
 ==== 全文検索インデクサーの不具合修正 ====