差分

このページの2つのバージョン間の差分を表示します。

--- dokuwiki:localize [2005/12/08 18:40] – osamu
+++ dokuwiki:localize [2007/07/31 15:36] (現在) – osamu
@@ 行 1: / 行 1: @@
 ====== DokuWikiの日本語対応 ======
-[[doku>wiki:install|DokuWikiのインストールマニュアル]]（[[wiki:install|日本語版―作業中]]）にしたがって普通にインストールし、設定ファイルの''conf/dokuwiki.php''か''conf/local.php''の中に
+[[doku>wiki:install|DokuWikiのインストールマニュアル]]（[[doku>wiki:ja:install|日本語版]]）にしたがって普通にインストール。インストール画面で日本語を選択すれば、自動的に設定ファイルの''conf/local.php''の中に
 <code php>
 $conf['lang'] = 'ja';
 </code>
-と記述すると、ユーザーインターフェースの文字列などは日本語になる。
+と記述されて、ユーザーインターフェースの文字列などは日本語になる。
 機能面での日本語対応を強化するために、次の改造を加える。
@@ 行 72: / 行 72: @@
 ^D</code>
 のように、入力した文字が分かち書きされて表示されればOK。
@@ 行 93: / 行 96: @@
 function idx_getPageWords($page)の
 <code php>
-      $body   = rawWiki($page);
+      list($page,$body) = $data;
 </code>
-の後ろに
+と
+<code php>
+    $body   = strtr($body, "\r\n\t", '   ');
+</code>
+の間に
 <code php>
      if(function_exists(proc_open) && defined('PRE_TOKENIZER')) {
@@ 行 150: / 行 157: @@
 を追加。
-//2005-12-8 - Mecabのプロセスがハングアップして残ってしまうのを避けるために''stream_set_blocking()''を追加//
+DokuWikiの最近のバージョンでは、日本語を含むアジア圏の文字を１文字１単語とみなして検索する修正が入っているが、これを使うと例えば「文字を探す」で検索すると「文」「字」「を」「探」「す」のすべての文字が検索結果でハイライトされたりして具合がよくない。上記の修正を加えたときは、idx_tokenizer($string,&$stopwords)関数にある
+<code php>
+            $asia = @preg_replace('/('.IDX_ASIAN.')/u','\1 ',$word);
+            if(!is_null($asia)) $word = $asia; //recover from regexp failure
+</code>
+という２行をコメントアウトする。
+また、indexer.phpにwordlen()という関数があるが、これも同じくアジア圏の文字は１文字１単語とみなす処理が入っているので
+<code php>
+function wordlen($w){
+    // $l = strlen($w);
+    $l = utf8_strlen($w);
+    //// If left alone, all chinese "words" will get put into w3.idx
+    //// So the "length" of a "word" is faked
+    //if(preg_match('/'.IDX_ASIAN2.'/u',$w))
+    //    $l += ord($w) - 0xE1;  // Lead bytes from 0xE2-0xEF
+    return $l;
+}
+</code>
+と変更。
+それから、同じくindexer.php の idx_getIndexWordsSorted() 関数の中に、
+<code php>
+        if ($wlen < 3 && $wild == 0 && !is_numeric($xword)) continue;
+</code>
+という部分があるが、このままだと3文字より短い単語を検索できない。英語などではそれでもよいのだが、日本語の場合1～2文字の単語も検索できないと困るので、これを
+<code php>
+        if (preg_match('/[^0-9A-Za-z]/u', $string) && $wlen < 3 && $wild == 0 && !is_numeric($xword)) continue;
+</code>
+と書き換える。
+//2005-12-8 - Mecabのプロセスがハングアップして残ってしまうのを避けるために''stream_set_blocking()''を追加//\\
+//2007-7-29 - DokuWikiの最近のバージョンにあわせて、修正箇所の説明を変更//
 ==== 全文検索インデクサーの不具合修正 ====
@@ 行 168: / 行 211: @@
 http://bugs.splitbrain.org/?do=details&id=653 にバグ報告済み。
-==== 負荷の軽減 ====
+// 追記： この不具合は、現在配布されているバージョンでは修正されています。//
-FIXME 検索の機能はこれで働くようになるのだが、ヒット数の多いサイトの場合、このままではサーバーの負荷がかなり重くなるはず。
-DokuWikiでは、ページを誰かが表示するたびに、そのページの検索インデックスを作り直す仕組みになっている。もともと全文検索のインデックス更新は軽い仕事ではない上に、この改造で毎回Mecabを動かすことになって、負荷が大きくなっている。
-対策検討中。