巨大テキスト検索の専門化集合！ＨＥＬＰ！

■掲示板に戻る■ 全部 1- 最新50

1 ：名無しさん＠お腹いっぱい。 ：2001/07/21(土) 18:49: ＵＮＩＸで巨大テキスト（２２０Ｍ）からＡＮＤ　ＯＲ検索を高速で行いたいのですが、なかなかどうしてうまくいきません。
ＭＹＳＱＬのあいまい検索を使っても実行速度１０秒。ＳＵＦＡＲＹは早いんですがＡＮＤ検索が出来ないし・・。
巨大テキストファイルから高速検索できるような方法やソフトなどをご存知でしたら教えてください。

「デリミタがタブで改行コードにて一行とみてくれて、ＡＮＤ・ＯＲ検索が出来て、表示行数の指定ができる。」
というような方法（ソフト）を教えてください！。
7 ：名無しさん＠お腹いっぱい。 ：2001/07/24(火) 09:47: 単語ごとのビットマップというと、ＩＮＤＥＸのようなものですよね。
それなら、ＳＵＦＦＩＸ　ＡＲＲＡＹを使用しました。

６＞「あとはＡＮＤをとるだけ」

詳しくはどのようにしてＡＮＤをとればよろしいのでしょうか？。
もしくはビットマップを作成するときにＳＵＦＦＩＸＡＲＲＹではなく、
もっと高度なアルゴリズムで簡単にＡＮＤをとれるのでしょうか？。

より良いアルゴリズムなどありましたら、是非おしえてください。
日本語・英語の文献ページなどありましたら、ご紹介ください。
8 ：名無しさん＠お腹いっぱい。 ：2001/07/24(火) 11:56: >>7
bitごとの論理積をとれって話でしょ。

インデックスは行番号とビットマップだけじゃなくてseek値も格納しとくといいんじゃないかな。

RDBMSでやろうとしてるみたいだけど無謀だからやめとけ。
9 ：ゆい：01/10/11 12:33: 事前に index を作成できるデータではないのでしょうか？
10 ：DQN ：01/10/11 12:46: grep
速いマシンで、
220MBがファイルデータキャッシュに載れば速いかも。
計ってませんが。

-AND
% grep str1 |grep str2 |head -行数
-OR
% grep -e str1 -e str2 |head -行数

カラム指定で検索したいなら工夫がいるな...
11 ：いひひ ：01/10/11 13:11: ファイルデータキャッシュに載れば？

　たーんとメモリ積んで最初からMemory File Systemで
やればすむだけのような気が。
12 ：名無しさん＠お腹いっぱい。 ：01/10/11 13:31: 転置インデックス法だろーね．
岩波の「自然言語処理」って本にやり方がちょっと載ってるよ．
まぁ簡単だから，立ち読みでも十分ぽい．

あとはハッシュとかバイナリサーチ使えばかなり速いと思う．
ついでに言うと，アルゴリズムは簡単だけど，単語の揺らぎとか
を考えたりすると面倒かも．
13 ：名無しさん＠お腹いっぱい。 ：01/10/11 14:36: ごちゃごちゃ言わんとNAMAZU使えよ、grepとか考えにある時点で終わってる。
終了
14 ：ぺー：01/10/11 21:09: ところで，それは，なんの仕事ですか？
15 ：ナナシ ：01/10/11 21:46: てゆか、3箇月近く前の話にレスポンスしても……
16 ：名無しさん＠お腹いっぱい。 ：01/10/11 22:06: netscape関連のファイルを探そうと思って
find / -name '*netscape*'
ってやったんですけど、ありませんでした
で、昨日うろうろしていたら、ありました。
この検索のやりかたっておかしいんですか？
17 ：ぺー：01/10/11 22:53: こんな古いの上げるなよ(w
18 ：sage ：01/10/12 01:16: sage
sage
sage
sage
>>16
manしろよ
こういう馬鹿な奴多くていや

新着レスの表示

掲示板に戻る全部前100 次100 最新50

read.cgi ver5.26+ (01/10/21-)