内容へ移動

higuchi.com blog

文書の表示

管理最近の変更サイトマップ

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

--- dokuwiki:localize [2007/07/29 12:11] – osamu
+++ dokuwiki:localize [2007/07/29 12:14] – osamu
@@ 行 72: / 行 72: @@
 ^D</code>
 のように、入力した文字が分かち書きされて表示されればOK。
@@ 行 154: / 行 155: @@
 を追加。
-DokuWikiの最近のバージョンでは、日本語を含むアジア圏の文字を１文字１単語とみなして検索する修正が入っているが、これを使うと例えば「文字を探す」で検索すると「文」「字」「を」「探」「す」のすべての文字が検索結果でハイライトされたりして具合がよくない。上記の修正を加えたときは、idx_tokenizer($string,&$stopwords)関数などにある
+DokuWikiの最近のバージョンでは、日本語を含むアジア圏の文字を１文字１単語とみなして検索する修正が入っているが、これを使うと例えば「文字を探す」で検索すると「文」「字」「を」「探」「す」のすべての文字が検索結果でハイライトされたりして具合がよくない。上記の修正を加えたときは、idx_tokenizer($string,&$stopwords)関数にある
 <code php>
             $asia = @preg_replace('/('.IDX_ASIAN.')/u','\1 ',$word);
             if(!is_null($asia)) $word = $asia; //recover from regexp failure
 </code>
-という２行をそれぞれコメントアウトしたほうがよい。
+という２行をコメントアウトする。
+また、indexer.phpにwordlen()という関数があるが、これも同じくアジア圏の文字は１文字１単語とみなす処理が入っているので
+<code php>
+    if(preg_match('/'.IDX_ASIAN2.'/u',$w))
+        $l += ord($w) - 0xE1;  // Lead bytes from 0xE2-0xEF
+</code>
+の２行もコメントアウトする。
 //2005-12-8 - Mecabのプロセスがハングアップして残ってしまうのを避けるために''stream_set_blocking()''を追加//\\

文書の表示以前のリビジョン

メディアマネージャー文書の先頭へ

CC Attribution-Noncommercial-Share Alike 4.0 International