最近Googleで検索していると、個人サイトでウィキペディアのサービスをやっている方のページが引っかかる。郵便番号みたいにデータが公開されているのかな?と思って調べてみた。
Wikipedia:データベースダウンロード
http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89
ここにまとまっているようだ。
データベースを公開されている方も利用者の方の利便性からいったらこういう風に公開していただけるとありがたいなぁと思う。まさに痒いところに手が届く感じだ。Namazだけだと全部検索語か番号を打ち込まなければならず、大変なのだ。トラフィックも大変だろうし。Wgetという便利なフリーソフトもあるけれど、やっぱ総当りでURLを何万回とサーバに問い合わせるよりひとつのファイルに圧縮していただけるとありがたいのだ。
一つ一つ見にくればいいじゃないか、という考え方もあるんだけれど、いつなくなってもおかしくないのがインターネットの世界、ピンと来た情報はそのときに保存しておかないともう二度とお目にかかれないことが多いのだ。
まあだからってデータベース作者の方に、データをまとめて一つのファイルにしてくれ、とは頼めないけれど。手間だし。
ただこういうウィキペディアみたいにまとめてあると本当に助かるし、ありがたいのだった。
で、ダウンロード。回線が細いのか時間がかかる。
今回はFree Dictionary でよく使われているEBWin Unicode版というのでDesktop環境にWikipediaをもってこようと思う。
で、まず
EBWin Unicode版
http://www.vector.co.jp/soft/dl/winnt/writing/se403151.html
をダウンロードしてインストール。いつもWindows2000をつかっているので、Windows2000にインストール。
この原稿を最初に書いたのは2008年の4月11日なのであれからずいぶん変わりました。 文末に追加事項を足していっていたのですが、読みにくくなりましたので、以後、ちょっと改訂します。参考までに改訂前の続きは下に残してあります。(20090515)
まず、UNIXのコマンドが使えないといけませんので、環境を整えます。
ウィンドウズでは、MinGW&MSYSまたはCygwin、BSDではFreeBSD,NetBSD,OpenBSD,リナックスではFedora、debian、vine、centos、ubuntu、と各種あります。
Cygwinはウィンドウズ上でほとんどのUNIXのソースをコンパイルできますが、作成したソフトの配布等、制約がいろいろあります。
MinGW&MSYSは制約はありませんが、開発環境を整えるのに方々のサイトを巡らなければならずかなり事前の準備に苦労します。
OpenBSDはセキュリティー面で優れていますが、最初になにも入っていませんのでこれも使いこなす前の準備で苦労します。本格的にUNIXを勉強するにはOpenBSDは逆にいえばすべて自分で設定しなければならないという点で、難易度が高いですがお勧めです。
あといろいろリナックスでもディストリビューションがありますが、最近人気があるのは、Ubuntuというリナックスです。
あらかじめほとんどの設定が済んでいて、開発環境を整えるのもapt-getというコマンドであらかた準備できます。数あるフリーソフトもボランティアの皆さんのメンテナンスで、Ubuntuを配布しているサーバ上にすでに準備されています。
ここではUbuntu9.04を用意できたものとして、例にとって説明します。
FreePWING 公式ページ
http://www.sra.co.jp/people/m-kasahr/freepwing/
から最新のソースコードをダウンロードします。
現在、freepwing-1.6.tar.bz2 が最新です。
freepwing-1.6.tar.bz2 から 4GB超のHONMONを生成可能
fpwmake の処理を一部高速化するオプション有。
あらかじめ gdbm ないし Berkeley DB を apt-get か Synaptic でインストールしてください。
wikipedia-fpw
http://ikazuhiro.s206.xrea.com/staticpages/index.php/wikipedia-fpw
から最新のソースをダウンロードします。
現在 wikipedia-fpw-20090831-src.tar.gz が最新です。
あと
http://download.wikimedia.org/jawiki/
から
最新のダンプファイルをダウンロードします。
現在は jawiki-20090913-pages-articles.xml.bz2 が最新です。日付をみて最新であれば jawiki-latest-pages-articles.xml.bz2 というファイルでもいいです。
また、2009年4月23日分のダンプデータ以降、HONMONファイルが2GBを超えますのでUbuntuを使用している方はPerlも別途入れなければなりません。
UbuntuのアーカイブをミラーしているサイトからPerlのソースとUbuntu用にカスタマイズするためのDiffファイルをダウンロードしてください。
たとえば、
理化学研究所のFTP
ftp://ftp.riken.jp/Linux/ubuntu/pool/main/p/perl/
のようなところです。
現在 perl_5.10.0.orig.tar.gz と perl_5.10.0-24ubuntu2.diff.gz が最新です。
またPerlをUbuntuでコンパイルするときには、sudo apt-get install libstdc++6-4.2-dev が必要だそうです。(はけの徒然日記さんのブログより。私はすでに別の作業で入れていたらしくて入ってました。追記20090517)
追記20091207
しゃある通信 さんの記事をみて、ソースはそういえば apt-get source perl でも取り寄せられるのをぼんやり思い出しました。まあUbuntuはなんでもそろっていて楽で楽で、apt-get installでやって事足りてしまうので、そういうスイッチがあるのをすっかり忘れていました。楽は苦の元ですね。
また freepwing1.6 と wikipedia-fpw-20090428-src.tar.gz 以降のコンビからperlmagick と mimeTeX を使用すると数式をインライン画像で収録可能になりました。
mimeTeX を sudo apt-get install します
2GB以上のHONMONを作成する場合には Ubuntu の perlmagick が使えませんので、Imagemagick をソースからコンパイルします。
KDDI の FTP サイト
ftp://ftp.kddlabs.co.jp/graphics/ImageMagick/
から最新のPerlMagickのソースをダウンロードします
現在 ImageMagick-6.5.5-10.tar.gz が最新です。7Z tar.bz2 tar.lzma zip 等ありますがまあ各人のお好みで。ちなみにZIPという圧縮方式は、Windowsでも解凍しやすいので日本で書かれたコードは文字コードがShift-JISになっていたりして文字化けが発生して二度手間でてこずった経験から、ImageMagickは海外のコードなのでそういう恐れはないと思いますが、Unixでコンパイルするときには習慣的に私は避けています。tar.gzやtar.lzma,tar.bz2などは完璧にWindowsをまったく想定していないのでそういうストレスから開放されます。UbuntuはZIP以外をダウンロードしましょう。最近ではWindows上で+Lhacaや7ZIPでもtar.gz,tar.bz2などは解凍できますが、コードを書く人の傾向としてZIPにWindows向けでShift-JISを使う人が多いです。
それでは、ダウンロードしたソースのコンパイルに入ります。
まずPerlから取り掛かります。
perl_5.10.0-24ubuntu2.diff.gz をダブルクリックして展開、perl_5.10.0-24ubuntu2.diffを取り出します。
perl_5.10.0.orig.tar.gzを展開して、フォルダーの名前を perl-5.10.0.orig に変更します。そのフォルダの外に perl_5.10.0-24ubuntu2.diff がある状態にしてから
patch -p0 < perl_5.10.0-24ubuntu2.diff
とやってパッチを当てます。
freepwingでファイルが2GB以上になる場合の変換にはPerlのCompile-time optionsにUSE_64_BIT_INTとUSE_LARGE_FILESが必要ですから、コンフィギュラーで指示します。それ以外に必要だと思われるものも一緒に指示します。
perl-5.10.0.orig フォルダに入ってから
sh Configure -Duselargefiles -Duse64bitint -Dusethreads -Dcc=gcc -Dccflags=-DDEBIAN -Dcccdlflags=-fPIC -Uafs -Ud_csh -Ud_ualarm -Uusesfio -Uusenm -DDEBUGGING=-g -Doptimize=-O2 -Duseshrplib -Dd_dosuid -Dprefix=/opt/perl -Dloclibpth="/opt/perl/lib /usr/local/lib" -Duselongdouble -des
をコピペしてリターン。
サイレンスモードなので自動で設定が終わります。
最後の『-des』を削除すれば、確認しながら対話形式で設定できます。
checkinstall でインストールします。
sudo checkinstall
checkinstallについては
ソースファイルからRPMファイルを作成するには
http://www.atmarkit.co.jp/flinux/rensai/linuxtips/530mkrpmfs.html
を参照。Ubuntuはパッケージがあるので sudo apt-get install checkinstallでインストールできます。
UbuntuはDebian系なのでもしパッケージの種類を質問されたらDで。
インストール名を Perl 以外にするのを忘れずに。Ubuntu 謹製 Perl と衝突します。項目の2番を、あとからわかりやすい名前に自分で変更します。
追記20091207
あとcheckinstallでつまづくという記事をよく見かけます。多分開発環境がなにか足りないのだと思います。
私はいろいろほかのコンパイルもやっていてその都度開発環境に必要なものをインストールしているので、どれをインストールすれば、Perlを自動でインストールするのに必要なのか、「これ」というパッケージを提示することができません。
一度、./configure で、エラー内容をチェックして なにが no になっているかを確認して、それが yes になるように足りないものをインストールすると checkinstall が使えるようになるんじゃないかと思います。
ただ、Ubuntuを使う目的がウィキペディアの変換専用である場合、そこまでやるのはちょっと余分な作業過ぎるかも知れません。
手作業でやれば十分使えるらしいので、ウィキペディア変換専用マシンであれば、コンフィグをしたあとに、make して make install する一般的な手作業の方がいいかもしれません。
どのソフトでもいえることですが、コンパイル失敗の解決の糸口は、エラーメッセージにあります。エラーメッセージを読みましょう。(力説)
PATH=/opt/perl/bin:$PATH
とやって一時的にパスを変更します。
perl -V
を打って内容を確認しましょう。
一時的にパスを通すのは、他のパッケージソフトで Ubuntu にもともと入っている Perl に依存しているパッケージがあるので、ウィキペディアの変換だけにこの私製コンパイルPerlを使ったほうがいいからです。一時的にパスが通っているだけで、新しく端末を立ち上げるとそちらにはパスが通っていませんので、毎回指定するか、同じ端末で以後作業しましょう。
次は Imagemagick のコンパイルです。
PATH=/opt/perl/bin:$PATH
のパスの通してある端末画面から
$ tar xzvf ImageMagick-6.5.5-10.tar.gz
$ cd ImageMagick-6.5.5-10
$ ./configure --prefix=/opt/imagemagick
$ sudo checkinstall
次はFreePWINGのコンパイルです。
PATH=/opt/perl/bin:$PATH
のパスの通してある端末画面から
$ tar xjvf freepwing-1.6.tar.bz2
$ cd freepwing-1.6
$ ./configure
$ sudo checkinstall
次はwikipedia-fpwです。これは展開するだけです。
展開したらそのフォルダーの中にjawiki-20090913-pages-articles.xml.bz2 かまたは jawiki-latest-pages-articles.xml.bz2 を移動。ドラッグアンドドロップでもいいし、cpでコピーしてきてもいい。
数式を収録しない場合はwikipedia-fpw.confをテキストエディタで開いて'enable_math'を0に変更。
数式を収録する場合は、wikipedia-fpw.confファイルのコメントを参照の上、'mimetex'と'math_black'の値も設定。
$ 'mimetex' => 'mimetex',
$ 'math_black' => 0,
読み仮名を収録する場合はwikipedia-fpw.confファイルのコメントを参照の上、'yomigana'の値も設定。(追記20090914)
$ 'yomigana' => 1,
で、wikipedia-fpw-20090831の中でjawiki-latest-pages-articles.xml.bz2をbunzip2を使って解凍して、名前をjawiki-latest-pages-articles.xmlから wikipedia.xmlに変更します。
$ tar xzvf wikipedia-fpw-20090831-src.tar.gz
$ cd wikipedia-fpw-20090831
(ここで、このいまできたばかりのフォルダーに
jawiki-latest-pages-articles.xml.bz2を
コピーしておく)
$ bunzip2 jawiki-latest-pages-articles.xml.bz2
$ mv jawiki-latest-pages-articles.xml wikipedia.xml
でその後同じフォルダーの中で
PATH=/opt/perl/bin:$PATH
のパスの通してある端末画面から
$ fpwmake FPWLINKMOD=GDBM
$ fpwmake catalogs
$ fpwmake package
Berkeley DB を用いた高速化は
fpwmake FPWLINKMOD=BDB
最初の$ fpwmakeが大体5,6時間かかる。後は10分とかそんなにかからないので、最初のファイルを作るときは空き時間を上手に使わないととんだ目にあう。
次回から変換するときには、必ず最初に端末にパス
PATH=/opt/perl/bin:$PATH
を通してから作業する。
最後の$ fpwmake packageが終わると、wikipedia-fpw-20090831.zipというファイルが出来上がっているので、それをWindows2000へ移動する。
freepwing-1.6.tar.bz2 からの仕様なのか、packageをやると最初からリンクをやり直しにかかるので、次回からはHONMONファイルを作ったらそれだけを入れ替えた方がいいと思う。
+Lhacaで展開後、EBWin同梱のEBshrink(EBWinをインストールすると一緒にインストールされる)を使って圧縮。圧縮率はデフォルトの3段階目にしておいた。
早速EBWinで使ってみると快適に動く。いつも関連URLを押すと表示されるまでに時間がかかっていらいらしていたのが、これだとぱっぱっぱと次々現れる。ただし、数式以外の図表関係は表示されない。図表がいるときにはネットで見ればいいだろう。
EBWinをつかうと、Windows2000にPHPやMysqlなどをインストールしなくてもいいので楽だ。
今のところ暇な時にEPWING形式変換済ファイルを下記リンク先でアップしています。(気が向いたときにアップデートします)DDWinでも使えるようにEBshrinkでの圧縮はしていません。各自お好みで圧縮してください。
フリーソフト紹介のページ
http://trade2.easter.ne.jp/soft/index.html#dictionary
Zaurusユーザーはこちらを参考されたし。(なにかZaurusユーザーの方がうちのサイトを多数参照されているようですが実機をもっていないので。)
2GB越えのWikipediaをzten改を新たにコンパイルして
Zaurusで見られるようにするノウハウを記述されています。
Masaatoshi Ito の備忘録
http://blog.goo.ne.jp/ito65/c/6b11c6716a0ad672bf139a40c4040726
追記 20091210
2ちゃんねるの有志の「読み仮名開発」の記事の BBS で、画像入り EPWING が話題になっていました。757 番目の記事です。
http://pc11.2ch.net/test/read.cgi/mobile/1205944629/
Backup
画像について調べたのですが、公式サイトでダウンロード配布されているのはドイツ版のみのようです。
http://download.wikimedia.org/images/
ドイツ版 Wikipedia で使われているクリエイティブコモンズの写真が入っていて、それを日本語版でも使用していれば、ラッキーかも知れません。
2009年10月6日時点の版で 11GB あります。うちは光回線ですが、サーバ自体が 70KB/S らしいので、ダウンロードに足掛け3日かかりました。
写真については、文章と違って、権利関係に対するチェックが甘いそうなので、著作権侵害などの写真が混じってるかもしれないなということで今のところうちでは配布するつもりはないですし、Perl の記述に関してあまり詳しくないので、EPWING に画像を埋め込む方法がちょっとわかりません。すごく残念です。
Kazuhiro's blog さんの oald7-fpw を参考にすればなんとかできるかもしれませんが、FreePWING の仕様では、画像はひとつの空間にあれもこれもどれも入れないといけなくて、名前がかぶるとまずいそうなので、mimeTeX でつくった画像と名前がひょっとしたらかぶるかもしれないし、どうすればいいんだみたいな感じでお手上げです。だれか、コードを書いてくれたらいいのになぁと他力本願の真っ最中であります。
画像のダウンロード自体は、sed で URL を pages-articles.xml.bz2 から抽出して、Wget でダウンロードすればいいと思うのですが、なんか頻繁にアクセスするとアクセス禁止になるかも知れないそうなので、まああまりやらないほうがいいかもしれません。だれか代表で権利関係がセーフのイメージファイルをまとめてどこか専用のサーバでダウンロード配布していただけるとありがたいのですが。
しかし、ドイツ版でも 20091210 現在 11GB あるようですので、日本語版がどれくらいの量になるかさっぱり見当がつかないですし、それを EPWING にいれて、しかも Image ファイルは独立ではなくて、HONMON の中にいれないといけないそうなので、果たして利便性からいったらどうなのかな、みたいな疑問も出てきます。当然縮小やら減色やらはしないといけないですが、モバイル機器でみたときも絵がつぶれない程度まで縮めて、100MB?200MB? それ以上?ファイルの大きさが増えるわけで、いまでも十分でかいので、どうかな、と。どうなんでしょう。便利でしょうか。2ちゃんねるで画像入り EPWING をダウンロードし損ねましたので、それも残念です。
(最初の記事 20080411)上記改訂前の続き。参考まで。
次に、
FreePWING patch
http://ikazuhiro.s206.xrea.com/staticpages/index.php/freepwing
から
freepwing-1.4.4+20071226.tar.gz
wikipedia-fpw
http://ikazuhiro.s206.xrea.com/staticpages/index.php/wikipedia-fpw
から
wikipedia-fpw-20071202-src.tar.gz
をUbuntuの入ったパソコンにダウンロード。
あと
http://download.wikimedia.org/jawiki/
から
http://download.wikimedia.org/jawiki/20080408/jawiki-20080408-pages-articles.xml.bz2
をダウンロード。
まずfreepwing-1.4.4+20071226.tar.gzをインストール。
$ tar zxvf freepwing-1.4.4+20071226.tar.gz
$ cd freepwing-1.4.4+20071226
$ ./configure
$ sudo checkinstall
checkinstallについては
ソースファイルからRPMファイルを作成するには
http://www.atmarkit.co.jp/flinux/rensai/linuxtips/530mkrpmfs.html
を参照。Ubuntuはパッケージがあるのでapt-get install checkinstallでインストールできる。
UbuntuはDebian系なのでDで。
次にwikipedia-fpw-20071202-src.tar.gzを展開。これは展開するだけ。展開したらそのフォルダーの中にjawiki-20080408-pages-articles.xml.bz2を移動してくる。ドラッグアンドドロップでもいいし、cpでコピーしてきてもいい。で、wikipedia-fpw-20071202の中でbunzip2を使って解凍して、名前をjawiki-latest-pages-articles.xmlから wikipedia.xmlに変更する。
$ tar xzvf wikipedia-fpw-20071202-src.tar.gz
$ cd wikipedia-fpw-20071202
(ここで、このいまできたばかりのフォルダーに
jawiki-latest-pages-articles.xml.bz2を
コピーしておく)
$ bunzip2 jawiki-latest-pages-articles.xml.bz2
$ mv jawiki-latest-pages-articles.xml wikipedia.xml
でその後同じフォルダーの中で
$ fpwmake
$ fpwmake catalogs
$ fpwmake package
を処理する。
最初の$ fpwmakeが大体5,6時間かかる。後は10分とかそんなにかからないので、最初のファイルを作るときは空き時間を上手に使わないととんだ目にあう。
最後の$ fpwmake packageが終わると、wikipedia-fpw-20071202.zipというファイルが出来上がっているので、それをWindows2000へ移動する。今回のは705.9MBになった。
+Lhacaで展開後、EBWin同梱のEBshrink(EBWinをインストールすると一緒にインストールされる)を使って1GB超になったファイルを780MBくらいに圧縮。圧縮率はデフォルトの3段階目にしておいた。
早速EBWinで使ってみると快適に動く。いつも関連URLを押すと表示されるまでに時間がかかっていらいらしていたのが、これだとぱっぱっぱと次々現れる。ただし、図表関係は表示されない。図表がいるときにはネットで見ればいいだろう。
EBWinをつかうと、Windows2000にPHPやMysqlなどをインストールしなくてもいいので楽だ。
今後のデータの更新はこちらのページで。(気が向いたときにアップデートします)
フリーソフト紹介のページ
http://trade2.easter.ne.jp/soft/index.html#dictionary
(追加ファイル)
freepwing-1.5.tar.bz2
wikipedia-fpw-20080616-src.tar.gz
wikipedia-fpw-20080616-en.diff.txt
freepwing-1.5-lfs.diff.txt
freepwing-1.5-lfs2.diff.txt
(追加ファイル 20090121)
freepwing-1.6.tar.bz2
4GB超のHONMONを生成可能
fpwmake の処理を一部高速化するオプション有。
あらかじめ gdbm ないし Berkeley DB をインストールする。
gdbm を用いた高速化。
% fpwmake FPWLINKMOD=GDBM
Berkeley DB を用いた高速化。
% fpwmake FPWLINKMOD=BDB
(追加ファイル 20090222)
wikipedia-fpw-20090220-src.tar.gz
数式を収録しない場合はwikipedia-fpw.confの'enable_math'を0に変更。
数式の収録には、インライン画像の登録に対応したFreePWING 1.6以降とmimeTeX及びImage::Magickモジュールが必要。
ubuntuはmimeTeX、perlmagickをapt-get install
数式を収録する場合は、wikipedia-fpw.confファイルのコメントを参照の上、'mimetex'と'math_black'の値も設定。
(追加ファイル 20090422)
freeuwing-1.6-20090413.tar.gz
FreePWINGのUTF-8版
基本的にはFreePWINGと同様。
FreePWING -> FreeUWING, FPW -> FUW, fpw -> fuw のように置き換え。
『テキストや検索語は UTF-8 でエンコードされた、ユニコードフラグの立っていない文字列を使用してください。ユニコードフラグの立った文字列での動作は未検証です。』
とのこと。
wikipedia-fuw-20090413-src.tar.gz
FreeUWINGを利用してJIS X 4081 UTF-8 extensionに準拠した書籍を作成するツール
$fuwmake
$fuwmake catalogs
$fuwmake package
(追加ファイル 20090501)
wikipedia-fpw-20090220-src.tar.gz のファイルの fpwwikipedia fpwwikipedia_cgraph を差し替え
wikipedia-fpw-20090220-src-20090428.zip
正式版が出るまで、暫時。
Entry: 1136053; ザ・ダッシュ
Entry: 1136059; テリー・カー
fpwwikipedia: Elapsed time : 21466sec.
fpwwikipedia: Number of entries: 590806
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwsort -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwindex -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwcontrol -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwlink -workdir work -module GDBM
/usr/local/libexec/freepwing/fpwlink: unknown tag name, cgraph:math_c364f545548545350203e3: line 968686, work/textref
make: *** [work/link.dep] エラー 9
というエラーの訂正。
(追加ファイル 20090503)
wikipedia-fpw-20090428-src.tar.gz
(追加 20090507)
jawiki-20090423-pages-articles.xml.bz2にてついにHONMONが2GBを超えました。
UbuntuのユーザはPerlをソースからインストールする必要があるかもしれません。
現在最新である perl_5.10.0.orig.tar.gz と perl_5.10.0-19ubuntu1.diff.gz を 理化学研究所のFTP
ftp://ftp.riken.jp/Linux/ubuntu/pool/main/p/perl/
から落としてくる。
perl_5.10.0.orig.tar.gzを展開して、フォルダーの名前を perl-5.10.0.orig に変更してから
patch -p0 < perl_5.10.0-19ubuntu1.diff
とやってパッチを当てる。
perl-5.10.0.orig フォルダに入ってから
USE_64_BIT_INTとUSE_LARGE_FILES、あとその他いろいろ関係ありそうなコマンドを指示するために
sh Configure -Duselargefiles -Duse64bitint -Dusethreads -Dcc=gcc -Dccflags=-DDEBIAN -Dcccdlflags=-fPIC -Uafs -Ud_csh -Ud_ualarm -Uusesfio -Uusenm -DDEBUGGING=-g -Doptimize=-O2 -Duseshrplib -Dd_dosuid -Dprefix=/opt/perl -Dloclibpth="/opt/perl/lib /usr/local/lib" -Duselongdouble -des
をコピペしてリターン。
サイレンスモードなので自動で設定が終わる。
checkinstall でインストールする。インストール名を Perl 以外にするのを忘れずに。Ubuntu 謹製Perl と衝突します。
PATH=/opt/perl/bin:$PATH
とやって一時的にパスを変更してやる。
freepwing-1.6をインストールしなおす。
KDDI の FTP サイト
ftp://ftp.kddlabs.co.jp/graphics/ImageMagick/
から最新のImageMagickのソースをダウンロードしてきて、これも
PATH=/opt/perl/bin:$PATH を一回通してある端末から
./configure --prefix=/opt/imagemagick
であとは checkinstall でインストール。Perlmagickまで勝手に全部インストールしてくれる。
その後、wikipedia-fpw-20090428-src.tar.gz でウィキペディアのデータを変換。
以後、ウィキペディアを変換するときには
PATH=/opt/perl/bin:$PATH
を必ずやってから取り掛かる。
(追加20090720)
2009年1月24日からずっと更新の音沙汰の無かったウィキペディアのダンプファイルのアップデートが久々に2009年4月23日分であがったのに、HONMONの最終データのファイルサイズが2GB越えしていてダンプファイルの変換がうまくいかなくて、いろいろ試行錯誤して、とうとう1,2週間経ってしまい、Kazuhiro's blogさんにお邪魔してBBSで問い合わせたり、Perlをビルドしたりして、ほかでも困っている人がいるだろうと急遽このページに新しい手順を書き換えて載せたりしたのだが、今日読み返してみたら、いろいろスパゲッティーコード状になっていた。当時はデスクトップ上に各種パラメータをちょっとずつ変えて実験して吐き出されたログファイルやらなにやらが散乱していてなにがどれでどれが決定稿だか、くちょくちょになっていたのだ。そのへんの経緯は2009年4月30日から2009年5月7日あたりの日記を読めたら読んでみてください。
まず、私がUbuntuを使用して変換しているという記述が無かった。これは痛い。途中に何気にUbuntuがどうしたUbuntuではこうしたと書いてあるので、読んだ人が「・・・Ubuntuを使うんだなぁ」とそこはかとなく推測するような文体になっていた・・・。申し訳ない。
また、私はMinGW&MSYSも使用して、コードをコンパイルしたり、開発環境が容易に揃うUbuntuを使ってコンパイルする。使いやすいほうを場合によって選んで使っている。それでよくShift-JISのソースコードで文字化けが発生したりするので、ZIPで圧縮されているソースコードが鬼門になっているのだが、ImageMagickの説明で、海外のサイトのファイルなのに、「ZIPで圧縮されているものはWindows用なので、避けましょう」と断定して書いていた。確かに脳内では「ZIP圧縮め、よくもいつも文字化けを」、とか、「その手に乗るか、ZIP以外をダウンロードするのだぁ!!!」とは思っているが、他人にそのまま私の好みを押し付けるのは筋違いだ。でも文字コードの為に、延々コンパイルした結果が文字化けしてがっかりする頻度が高いのは事実。しかし、自分の味わったつらい感想を人に押し付けるべきではないし、ZIP圧縮されたファイルにウィンドウズ用のソースコードが多数混じっているけれども、だからといってウィンドウズ用のソースコードはみなZIPではないので、断定しちゃったら正確な情報ではない。 ちょこちょこ書き換え。また文体がおかしいのに気がついたら手直しする予定。しかし今年の夏は暑い。
(追加ファイル 20090914)
wikipedia-fpw-20090831-src.tar.gz
読みがなの収録を試みない場合は'yomigana'を0に変更してください。デフォルトでは本文テキストから類推した見出し語の読みがなをインデックスに登録します。この機能は2ちゃんねるにて開発されたものを取り込ませて頂きました。
だそうです。
(追加ファイル 20091011)
wikipedia-fpw-20091002-src.tar.gz
インデックスの登録時に文字参照のデコードをしていなかったのを修正した。
だそうです。
(追加ファイル 20091113)
wikipedia-fpw-20091012-src.tar.gz
パーサーがメモリ不足で止まるのを回避できるようにした。
だそうです。
(追加ファイル 20091208)
wikipedia-fpw-20091202-src.tar.gz
2009/11/08にエンバグして、リダイレクトのインデックスが正しく作成されなくなっていたのを修正した。
だそうです。
freepwing-1.6.1.tar.bz2
登録後に「ヴ」「ヵ」「ヶ」を含んでいる場合は、ひらがなに直した単語
を自動登録しないようにした。ほか
だそうです。
(追記 20091210)
2ちゃんねるの有志の「読み仮名開発」の記事の BBS で、画像入り EPWING が話題になっていました。757 番目の記事です。
http://pc11.2ch.net/test/read.cgi/mobile/1205944629/
Backup
画像について調べたのですが、公式サイトでダウンロード配布されているのはドイツ版のみのようです。
http://download.wikimedia.org/images/
ドイツ版 Wikipedia で使われているクリエイティブコモンズの写真が入っていて、それを日本語版でも使用していれば、ラッキーかも知れません。
2009年10月6日時点の版で 11GB あります。うちは光回線ですが、サーバ自体が 70KB/S らしいので、ダウンロードに足掛け3日かかりました。
(追記 20091214)
wikipedia-fpw:redirect での検索インデックスが不正です
By たかはし この投稿を引用
バージョン:wikipedia-fpw-20091012-src.tar.gz
【redirect での検索インデックスが不正です】
fpwwikipedia での、以下の部分?:
# Expand search entry by redirect
if (length($entry_headings->get($key))) {
push (@keys, split(/\t/, $entry_headings->get($key)));
}
EBDump での前方一致表記形INDEX の出力結果:
('−>' が、'>' となっているのは、FreePWing で '−' が削除される仕様のため)
block#=11B826(1161254)
ID=60 桁数=120 要素数=10
HASH=HASH(0X9AFFA88)>GET(営団日比谷線脱線衝突事故)[120]
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(LGA775)[120]
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(じおきゃっしんぐ)[120]
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(アカデミー脚色賞)[120]
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(バーバラパーマー)[120]
・・・
・・・
HASH=HASH(0X9AFFA88)>GET(ERONE)[90]
HASH=HASH(0X9AFFA88)>GET(MICROSDアタッチメントMASD1)[90]
HASH=HASH(0X9AFFA88)>GET(XREA)[90]
HASH=HASH(0X9AFFA88)>GET(うぉーかーぶれいん)[90]
・このため、「WIKI」で検索すると 38,559 件がヒットします。
・このため、「HASH」で検索すると 89,414 件がヒットします。
・このため、検索用INDEXのサイズが、50575 Blocks x 2,048b ≒ 100MB と肥大化(本来は、その半分程度)
・このため、「リダイレクト元のキーワード」での検索が不可能となっています。
どこを直せば宜しいのでしょうか?
No.152 2009/12/02 04:36:36
-------------------------------------------------------------
Re: wikipedia-fpw:redirect での検索インデックスが不正です
By kazuhiro URL このコメントを引用
すみません、チェックが不十分だったようです。
取り急ぎ、preparserの最後のほうにある、
$output->print("$heading\t$redirects->get($heading)\n");
を
$output->print("$heading\t" . $redirects->get($heading) . "\n");
と変更してみてください。
No.153 2009/12/02 08:34:37
-------------------------------------------------------------
Re: wikipedia-fpw:redirect での検索インデックスが不正です
By たかはし このコメントを引用
直りました。ありがとうございまいました。
No.154 2009/12/02 21:05:41
-------------------------------------------------------------
Re: wikipedia-fpw:redirect での検索インデックスが不正です
By kazuhiro URL このコメントを引用
修正版を出しました。
ご報告ありがとうございました。
No.155 2009/12/04 08:51:56
-------------------------------------------------------------
前回の20091203版よりも20091211版のほうがファイルサイズが小さくなっているのはこのためのようです。
(追加ファイル 20100201)
wikipedia-fuw-20091202-src.tar.gz
freeuwing-1.6-20090906.tar.gz
UTF-8版 のファイルのアップデート
(追加ファイル 20100203)
wikipedia-fuw-20091202-src.tar.gz のファイルの fpwwikipedia fpwwikipedia_cgraph を差し替え
wikipedia-fuw-20091202-20100203.zip
正式版が出るまで、暫時。(UTF-8版)
-----------------------------------------------------
Entry: 9261091; Backfitting algorithm
./fpwwikipedia_cgraph: invalid tag name: cgraph:math_\hat{f}_1^(i) </math
gnumake: *** [work/cgraph.dep] Error 2
-----------------------------------------------------
Entry: 9326865; Ferdinand Faithfull Begg
Entry: 9326868; Railton, Ontario
Entry: 9326870; List of Pan American Games
fuwwikipedia: Elapsed time : 78283sec.
fuwwikipedia: Number of entries: 4040910
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwindex -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwcontrol -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB
/usr/local/libexec/freeuwing/fuwlink: unknown tag name, cgraph:math_xmlns="http://www.w3.org/1998/Math/MathML": line 2119183, work/textref
-----------------------------------------------------
というエラーの訂正。
(追加 20100215)
UTF-8版の変換最中に、問題が発生し、その解決までのやり取り
英語版の変換で
By kolo URL この投稿を引用
お世話になっております
お忙しいところ申し訳ありません。
現在、英語版のダンプデータを変換しているのですが、下記エラーが出てしまいました。
---------------------------------------------------
Entry: 9326858; Canfield Island Site
Entry: 9326859; Dalius aurelius bio
Entry: 9326861; Raglan, Chatham-Kent, Ontario
Entry: 9326862; List of Sweet Adelines International quartet champions by year
Entry: 9326863; Raglan, Durham Regional Municipality, Ontario
Entry: 9326865; Ferdinand Faithfull Begg
Entry: 9326868; Railton, Ontario
Entry: 9326870; List of Pan American Games
fuwwikipedia: Elapsed time : 78283sec.
fuwwikipedia: Number of entries: 4040910
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwindex -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwcontrol -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB
/usr/local/libexec/freeuwing/fuwlink: unknown tag name, cgraph:math_xmlns="http://www.w3.org/1998/Math/MathML": line 2119183, work/textref
---------------------------------------------------
どのように訂正すればよろしいでしょうか。ご教授ください。
あと、 Jiro さんのNo.156の投稿に対するNo.157の
---------------------------------------------------
print "Entry: $page_count; $heading\n";
の直前に
if ($heading =~ /^Backfitting algorithm$/) {
$text =~ s/&amp;lt;math /&amp;lt;math&amp;gt; /;
}
のようなコードを入れてください (&は正しくは半角です)。
-----------------------------------------------------
ですが、
&amp;lt;
&amp;gt;
ではなくて、
&lt;(すべて半角)
&gt;(すべて半角)
ではないでしょうか。
念のためご報告まで。
No.158 2010/02/01 15:52:00
---------------------------------------------------
Re: 英語版の変換で
By kazuhiro URL このコメントを引用
> 現在、英語版のダンプデータを変換しているのですが、
> 下記エラーが出てしまいました。
> /usr/local/libexec/freeuwing/fuwlink: unknown tag name, cgraph:math_xmlns="http://www.w3.org/1998/Math/MathML": line 2119183, work/textref
半分無理矢理通すようにしたので下記のものと差し替えてください。
真面目な対策はそのうち考えます。
http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fuwwikipedia
http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fuwwikipedia_cgraph
> あと、 Jiro さんのNo.156の投稿に対するNo.157の
(snip)
> ですが、
> &amp;lt;
> &amp;gt;
> ではなくて、
> &lt;(すべて半角)
> &gt;(すべて半角)
> ではないでしょうか。
すみません、その通りです。
このBBSへの書き込みで試行錯誤している間におかしくなった事に
気付いていませんでした。
No.159 2010/02/03 08:34:05
---------------------------------------------------
Re: 英語版の変換で
By kolo URL このコメントを引用
早速の回答ありがとうございます。
いつもいつもすみません。
>> あと、 Jiro さんのNo.156の投稿に対するNo.157の
(snip)
>> ですが、
>> &amp;lt;
>> &amp;gt;
>> ではなくて、
>> &lt;(すべて半角)
>> &gt;(すべて半角)
>> ではないでしょうか。
> すみません、その通りです。
>このBBSへの書き込みで試行錯誤している間におかしくなった事に
>気付いていませんでした。
掲示板に投稿してから、なにかキツイ書き方になっていないか心配してましたが、あちゃー、ですね。
いや、掲示板に投稿したら対応していただけるだけでありがたいですし、責めるようなニュアンスはまったくありませんので、その点は誤解なきよう。文字だけのコミュニケーションは難しいですね。
これから早速、英語版に取り掛かってみます。
うちのマシンだとちょっと時間がかかりますので、ここに再度書き込みがなければ問題なし、ということでお願いします。(1週間ぐらいかかるかもしれませんので。)
ありがとうございました。
No.160 2010/02/03 17:41:54
---------------------------------------------------
Re: 英語版の変換で
By kolo URL このコメントを引用
えーと、結果が出てきました。
前回20091128版から、ちょうど20100130版のダンプデータがアップされたのでエントリーが増えています。
で、またエラーが出てしまいました。
------------------------------------------------------------------
Entry: 9541302; Chalkboard (disambiguation)
Entry: 9541303; Club haus
Entry: 9541304; Kocarija
Entry: 9541306; Greatest Hits (Beth Nielsen Chapman album)
Entry: 9541307; Maha Dharma
fuwwikipedia: Elapsed time : 72311sec.
fuwwikipedia: Number of entries: 4106106
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwindex -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwcontrol -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB
/usr/local/libexec/freeuwing/fuwlink: unknown tag name, text:536f7665726569676e207374617465: line 1, work/textref
------------------------------------------------------------------
これはどのように訂正すればよいのでしょうか。
No.161 2010/02/07 16:54:32
---------------------------------------------------
Re: 英語版の変換で
By kazuhiro URL このコメントを引用
手元の環境 (openSUSE 11.1 (x86_64), perl 5.10.0) では
問題ありませんでした。
バグ以外の原因として思いつくのは
・wikipedia-fuw.confで、デバッグモードが有効で、 skip_count か
entry_count を 0 以外にしている。
・preparser 実行後に wikipedia-fuw.conf を書き換え、その後に
touch preparse.dep 等を行ってpreparserの実行をskipした。
くらいでしょうか。前者であればデバッグモードを無効にしてください。
後者の場合はfuwmake cleanを実行してからやり直してください。
今のところこれ以上の心当たりはありません。
No.162 2010/02/10 09:00:34
---------------------------------------------------
Re: 英語版の変換で
By kolo URL このコメントを引用
そうですか。
>
> ・wikipedia-fuw.confで、デバッグモードが有効で、skip_count か
> entry_count を 0 以外にしている。
これはしていませんが
> ・preparser 実行後に wikipedia-fuw.conf を書き換え、その後に
> touch preparse.dep 等を行ってpreparserの実行をskipした。
ああーなんかありそうだー。
実は
----------------------------------------------
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/bin/sort: ??????: work/sortKFvvbD: No space left on device
make: *** [work/sort.dep] エラー 141
----------------------------------------------
で、100GB超の容量があるから余裕だと思っていたのに残量不足で、急遽いろいろファイルを削除してから、手動で
----------------------------------------------
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwindex -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwcontrol -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB
----------------------------------------------
を一行ずつ入れたんですよ。
残量がないのはこちらのミスですし、お恥ずかしいので、そこのいきさつは関係ないだろうとおもってスキップしたんですよ。
で、もしかして、残量がないのにむりやりファイルをつくってファイルが壊れたのかなとか投稿してからいろいろ可能性を考えていたんですが、ほかのファイルは壊れていないしなにが原因かなぁと悩んでいたんですが、そうか、preparserの実行をskipした可能性があるんですね。
わかりました。もう一度やってみます。
No.163 2010/02/10 18:48:59
---------------------------------------------------
Re: 英語版の変換で
By kolo URL このコメントを引用
結果が出てきました。
やはり途中で容量不足で止まってしまって、そこから手作業でコマンドを入れたのがだめだったようです。
今度はエラーもなく最後まで到達しました。
それでまた問題が発生したのですが、今回できた HONMONを
emacs-23.1-bin-i386.zip
lookup-1.4+media-20091030.tar.gz
eblook-1.6.1+media-20090709-eb4.4.2+u-20100121.exe
で見てみようと思ったのですが、どうにも検索できません。
今までの、日本語版のウィキペディアや、「FreePWING による各種辞書」のサイトで配布されている辞書は問題なく動作して検索もばっちりできましたが、UTF-8 版のほうはちゃんと :coding の指定も utf-8 にしたのですが、検索で出てきません。
検索式は =<>@-w でちゃんとでてくるのですが、アルファベットをいれてもなにも引っかかってきません。
で、eblook 単体でみてみたのですが、
-----------------------------------------------------
eblook> book wikip
eblook> list
1. wikip ウィキペディア英語版
eblook> select 1
eblook> info
disc type: EPWING
character code: JIS X 0208
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア英語版
directory: wikip
search methods:
font sizes:
-----------------------------------------------------
ということで、 search methods: になにも出てきていません。
ちなみにウィキペディアの日本語版だと、
-----------------------------------------------------
eblook> book wikip
eblook> list
1. wikip ウィキペディア日本語版
eblook> select 1
eblook> info
disc type: EPWING
character code: JIS X 0208
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア日本語版
directory: wikip
search methods: word endword exactword wild
font sizes:
eblook>
-----------------------------------------------------
今回 Emacs をはじめて使いましたのでどっか設定が間違っているのかもしれませんがなにかわかりましたら教えていただけないでしょうか。
よろしくお願いします。
No.164 2010/02/14 03:20:58
---------------------------------------------------
Re: 英語版の変換で
By kazuhiro URL このコメントを引用
FreeUWINGで作成した書籍は
> character code: JIS X 0208
ではなく
> character code: UTF-8
となるはずです。
実際にはCATALOGSの内容で決まりますので、wikipedia-fpwに付属の
catalogs.txtを使用した、もしくはwikipedia-fpwで作成された
CATALOGS ファイルを使用している可能性を疑います。
No.165 2010/02/14 08:20:53
---------------------------------------------------
Re: 英語版の変換で
By kolo URL このコメントを引用
Catalogs はそうでした。12月の中旬に思い立った最初の頃は FPW の方で作ろうと思っていたんですが、英語版なのだから、最初から UTF-8 版の方がいいかなとおもって 1月に変更してました。
最近は 7-ZIP で圧縮して保存しているので、日本語版ウィキペディアでも「皮だけ」再利用して HONMON だけ入れ替えていて(なにか freepwing-1.6.tar.bz2 になってから fpwmake package をやると、リンクのあたりからやり直しをするじゃないですか。なぜなんでしょう。特に不便は感じていないので報告しませんでしたが、まさかここで引っかかってくるとは。とほほ・・・。手を抜いたらいけないってことですね。)シェルスクリプトでダンプのダウンロードから 7-ZIP の圧縮まで自動で更新しているのですが、英語版もそのシェルスクリプトを再利用したので、最初の頃は、
fuwmake HASH_MOD=BDB FPWLINKMOD=BDB
とかやってしまいエラーがバンバン出ていまして、そうですか、またやってしまいましたか。どうも私には文字コードは鬼門みたいです。
で、早速カタログを変更して見ました。
-----------------------------------------------------
eblook> book enwiki_u
eblook> list
1. enwiki_u ウィキペディア英語版
eblook> select 1
eblook> info
disc type: EPWING
character code: UTF-8
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア英語版
directory: enwiki_u
search methods:
font sizes:
eblook> search a
An error occured in search_pattern: no such search method
eblook> search *A*
An error occured in search_pattern: no such search method
eblook>
-----------------------------------------------------
やはりmethods になにも出てきません。
ちなみに、さっき
-----------------------------------------------------
# 書籍に収納するエントリの最大数を指定します。
# 0の場合は無制限になります。
# デバッグ用です。
#
'entry_count' => 2,
------------------------------------------------------
エントリーを2にしてデバッグでやってみましたが、同じ結果が出ました。
search methods: になにも出てきません。
Emacs の Lookup では オープニング画面で日本語版と同じようにいろいろ検索式がでてくるのですが。
------------------------------------------------------
Type `m' to select, `u' to unselect, `?' for help.
% Identifier Title Method
- ---------- ----- ------
* ndeb+/dictionary/ja-wikipedia20100208-7z/WIKIP:wikip ウィキペディア日本語版 =<>@-w
* ndeb+/dictionary/roget-fpw1.0.1/ROGET:roget Roget’s =<>@-w
* ndeb+/dictionary/en-wikipedia20100130-utf8-7z/ENWIKI_U:enwiki_u ウィキペディア英語版 =<>@-w
------------------------------------------------------
今回 20100130 版の英語版ダンプデータからできた HONMON は 9.87 GB (10,599,487,488 バイト)になりました。
ファイルがどこか壊れているということなんでしょうか。
No.166 2010/02/14 10:16:44
---------------------------------------------------
Re: 英語版の変換で
By kazuhiro URL このコメントを引用
FreeUWINGで提供されている手段でパッケージを作成やインストールを
行っているのであれば、 Makefileの
DIR =
の行と、catalogs.txtの
Directory =
の行に食い違いが無いか確認してください。
そうでない場合は、eblookに指定したディレクトリから見て
enwiki_u/data/honmonが存在しているかどうか確認してください。
それから、Lookupのndeb[s]エージェントにおける検索方法の表示に
ついては実際に書籍がサポートしている検索方法を反映せずに決め打ちに
なっていますので無視してください。
No.167 2010/02/14 21:51:44
---------------------------------------------------
Re: 英語版の変換で
By kolo URL このコメントを引用
今朝がた作ったエントリーが2個だけの HONMON でパッケージを作り解凍をして HONMON だけ入れ替えてみました。
フォルダの構造が、なんか勘違いして間違っていました。
中身も 同じフォルダー名の入れ子でしたね。
ヒューマンエラーが一番厄介です。
失礼しました。
英語版をせっかく作ったので WIKIP_U に変更しました。
また HONMON 作り直しかとおもってちょっと気が遠くなりかけましたが、カタログのディレクトリ指定だけで大丈夫ですね?
-----------------------------------------------
eblook> book wikip_u
eblook> list
1. wikip_u ウィキペディア英語版
eblook> select 1
eblook> info
disc type: EPWING
character code: UTF-8
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア英語版
directory: wikip_u
search methods: word endword exactword
font sizes:
eblook> search a
1. 60:1049 A
2. 43426:55 Floppy disk
3. 206784:1210 Ogonek
4. 457979:1744 ・
5. 474259:1900 ・
6. 533246:457 Caron
7. 550099:1108 ・
8. 550100:518 ・
9. 550101:601 ・
10. 777436:1297 A (TV system)
11. 789484:233 Ordinal indicator
12. 806044:141 Vietnamese alphabet
13. 839682:1840 Ring (diacritic)
14. 947099:93 Frontier Wrestling Alliance
15. 1355337:1634 窒
16. 1404142:1045 蓄
17. 1602754:1903 Medal of Honor: Airborne
18. 1633504:648 Unicode subscripts and superscripts
19. 1669885:1539 逐
20. 1785044:27 Anarchy
21. 1815308:248 Static library
22. 1949825:1916 A-
23. 2111146:1800 Umlaut (diacritic)
24. 2374373:236 Grave accent
25. 2557953:49 筈
26. 2697974:876 Double grave accent
27. 3687154:1607 Guitar Hero: Aerosmith
28. 4316084:1630 Enclosed A
29. 4632255:105 ZE:A
eblook>
-----------------------------------------------
Emacs でも表示できるのを確認しました。
ああ、やっと出てきました。ちょっと感動です。
ご助力ありがとうございました。やっと辿り着けました。
EBWin では、辞書名はでてきますが、本文が空で表示されました。
後気になったのですが
間違いがあるといけないと思っていてエントリー数を2から0に戻していたのですが、
いま
fuwmake package
をする際にやっぱりダーっとエントリーがスクロールされて表示されたので度肝を抜かれました。
私の使用している 東芝 dynabook J40
Intel Pentium M 1.7GHz
ですと、
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB
が表示されてからだいたい今回の 20100130 英語版ダンプで 14 時間経過しています。
すでに HONMON ができていて後は圧縮してくれればいいだけなのにやり直しになるのはつらいですのでやっぱりフォルダだけ ”着せ替え” になる予感です。
今回 HONMON の差し替えだけで Lookup で表示できたので、とりあえずは満足しています。
ダイレクトにリナックスにインストールするオプションもあるわけですし、HONMON 作成後に必ずしもパッケージ作業が必要というわけではない、とおもっていたんですが、それとも以前はなかったなにかのチェックがパッケージ作業で新たに出現したのでしょうか。生半可な知識が一番怖いということで、思わぬトラップがありそうで気になります。
まあ英語版は 9GB 以上あって、FAT なフォーマットの SD カードには当然入らないですし、DVD に焼いて保存管理しようと思っていますので、必ず 7-ZIP で 1.9GB ごとに分割圧縮する予定す。
パッケージ作業が「必要」でなければ特に不満はないのですが。というか必要なしであってくれ、と祈っているくらいです。
fuwmake package にファイルのボリューム分割指定はたしか無かったですもんね。見落としがあるかもしれませんが。
まあ、この件は FreePWING の作者さんじゃないとわからないですよね。
とくに緊急ではないので問題がなさそうであれば別にいいかな、と思っていますので、wikipedia-fuw-20091202-src.tar.gz のほうでどうしてもパッケージに一旦しなければならない、というような問題が無ければ読み流してください。
あと、英語版なのに、 JAWIKI_U というのもちょっとなんなので、ちょっと気がつきにくい点でみな迷うとおもうのでアナウンスを、次回アップデートのときにでもぜひご検討願いたいと思います。もしまた見落としていまして、すでにアナウンス済みであればご容赦ください。
No.168 2010/02/15 06:25:39
---------------------------------------------------
Re: 英語版の変換で
By kazuhiro URL このコメントを引用
> 英語版をせっかく作ったので WIKIP_U に変更しました。
> また HONMON 作り直しかとおもってちょっと気が遠くなりかけましたが、
> カタログのディレクトリ指定だけで大丈夫ですね?
ディレクトリに指定した内容はHONMONファイルの内容には影響を与えません。
> EBWin では、辞書名はでてきますが、本文が空で表示されました。
現時点でJIS X 4081 UTF-8 extensionの書籍を検索できるのは
eblook 1.6.1+mediaだけだと思います。
> 間違いがあるといけないと思っていてエントリー数を2から0に
> 戻していたのですが、いま
>
> fuwmake package
>
> をする際にやっぱりダーっとエントリーがスクロールされて表示されたので
> 度肝を抜かれました。
wikipedia-fuw.conf を更新すれば当然最初から作り直されます。
> なにか freepwing-1.6.tar.bz2 になってから fpwmake package を
> やると、リンクのあたりからやり直しをするじゃないですか。
fpwmake && fpwmake package
と実行するとfpwlinkが2回実行されるという意味でしょうか。
手元では再現しません。
fpwmake packageの実行前に依存するファイルを更新してしまっている
可能性を疑います。
> あと、英語版なのに、JAWIKI_U というのもちょっとなんなので、
> ちょっと気がつきにくい点でみな迷うとおもうのでアナウンスを、
> 次回アップデートのときにでもぜひご検討願いたいと思います。
何をアナウンスして欲しいという主旨なのか分かりませんでした。
No.169 2010/02/15 23:20:11
---------------------------------------------------
Re: 英語版の変換で
By kolo URL このコメントを引用
> ディレクトリに指定した内容はHONMONファイルの内容には影響を与えません。
了解しました。
> 現時点でJIS X 4081 UTF-8 extensionの書籍を検索できるのは
> eblook 1.6.1+mediaだけだと思います。
了解しました。
>
> wikipedia-fuw.conf を更新すれば当然最初から作り直されます。
> fpwmake && fpwmake package
> と実行するとfpwlinkが2回実行されるという意味でしょうか。
> 手元では再現しません。
> fpwmake packageの実行前に依存するファイルを更新してしまっている
> 可能性を疑います。
いや、いつもの日本語版でもそうなるのですが・・・。
1.6 になる前までは FPW の方でパッケージまで作って DVD に焼いて保存していたのですが、いまではやらなくなりました。
再現しませんか。
もうかれこれ2008年の4月から変換をしているので、日本語版で試行錯誤はしないのですが、
> fpwmake && fpwmake package
これはやっていませんでしたね。
1.6がでた当時は、まだシェルスクリプトも書いてなくて、手作業で一つ一つ
fpwmake
をやって、おっかなびっくり出来上がっているのを確認してから
fpwmake package
をやっていました。別々にやるとそういう現象が起きるのかも?
&& で間髪いれずにやらないといけないのかな?
というか
fpwmake と fpwmake package の間に 各種データーのチェックが入る・・・なぜ? HONMONはできあがっているのに、とは思いますが、まあ本題からなにか話題がそれてしまいました。
まあ、lzma よりも 7-ZIP のほうが詳しい取説があってオプションがいろいろ選べて便利なのでパッケージ作業が必要なければ別にいいのですが。
> > あと、英語版なのに、JAWIKI_U というのもちょっとなんなので、
> > ちょっと気がつきにくい点でみな迷うとおもうのでアナウンスを、
> > 次回アップデートのときにでもぜひご検討願いたいと思います。
>
> 何をアナウンスして欲しいという主旨なのか分かりませんでした。
wikipedia-fpw の方では フォルダは WIKIP なので、英語版だろうが、日本語版だろうが作っても違和感がないですが、
wikipedia-fuw のほうは デフォルトで JAWIKI_U になっていて、カタログだけではなくて Makefile のほうも訂正しないとパッケージをつくったらフォルダも JAWIKI_U になってしまうので、 英語版やフランス版を作ったときに 日本語版でもないのに JAWIKI_U というフォルダが自動で出来てしまうのが、ちょっと気になっただけです。
最初にわかっていれば、ああ、ここも変更項目なのだな、 conf ファイルのほかにも、カタログと Makefile も変更するのだな、というのでスムーズにいくかな、くらいの意味です。
まあフォルダとカタログを直せばいいだけなので、そう大騒ぎすることでもないかもしれません。が、ウィキペディアのためにリナックス UNIX に足をつっこんだ初心者には敷居が高くなるかもしれません。
・・・気にしすぎですかね。
ちょっと Readme にひとこと書いていただければうれしいな、くらいの意味だったのですが。
No.170 2010/02/16 00:04:13
---------------------------------------------------
Re: 英語版の変換で
By kazuhiro URL このコメントを引用
> wikipedia-fuw のほうは デフォルトで JAWIKI_U になっていて、
> カタログだけではなくて Makefile のほうも訂正しないと
> パッケージをつくったらフォルダも JAWIKI_U になってしまうので、
> 英語版やフランス版を作ったときに 日本語版でもないのに JAWIKI_U
> というフォルダが自動で出来てしまうのが、ちょっと気になっただけです。
README にあるように、wikipedia-fuw は
「FreeUWING を利用してウィキペディア日本語版のダンプデータを
JIS X 4081 UTF-8 extension に準拠するように変換するツール」です。
英語版やフランス語版からの変換を積極的にすすめていはいませんし、
FreeUWING のドキュメントの守備範囲なので積極的に READMEに
記載する意思は今のところありません。
catalogs.txt に、変更する場合は FreeUWING (FreePWINGから内容は
変えていませんが) のドキュメントを参照するように書くことを検討します。
No.171 2010/02/17 21:36:17
---------------------------------------------------
Re: 英語版の変換で
By kolo URL このコメントを引用
お手数をおかけしてすみません。
あれから快適ライフを満喫しています。
半月近くお付き合いありがとうございました。
またなにか問題が発生したらよろしくお願いします。
(なるべく自分で解決するつもりですが。なかなかPerlは難しいですね。)
No.172 2010/02/19 08:35:56
---------------------------------------------------
・・・いや、正直これほど長くやり取りをすることになるとは思っていませんでした。
いつ、「こんなにもめるんだったら、もう面倒くさい、ソフトの開発を辞める」とか言われるかもしれないとおもってひやひやしながら、地雷原の広がる薄氷の上を歩くような気分でやり取りしてました。
(自分がそういう性格なんで)
パソコンでサクっと検索できるのは本当に楽ですよ。
無くなったら困りますね。
しかもフリーソフトですよ。ありがたいことです。
うちのサイトはアクセスログを見ると、圧倒的に国内からの接続が多く、次が英語圏、イギリス、アメリカ、オーストラリアから検索で見に来るひとが多くて、その次が中国、ロシア、韓国からなので、
実は、中国と韓国、ロシアのも変換してみようと思っているんですよ。
これでまた
ほにゃららのエラーがでたりしたらどうしよう。とか思っているのですが。
(20100219)
|