2ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

超高機能なサーチエンジンを作りたいんだけど

1 :デフォルトの名無しさん:03/03/22 21:34
今あるサーチエンジンはどうでもいいサイトまで引っかかってしまう。
たしかに高速に結果は出るが、こうも余計なサイトが引っかかってくると
見る時間がもったいない。

そこで、そこそこ時間はかかるけど
結果は厳選されているそんなサーチエンジンを作りたいと思う。

俺はプログラマーだ。
プログラミングなら任せといてくれ。
でも、アルゴリズムがよくわからない。
あれ嫁これ嫁でもかまわない。
アドバイスをください。

その見返りとして、便利なサーチエンジンを提供します。

2 :デフォルトの名無しさん:03/03/22 21:36
ふーん

3 :デフォルトの名無しさん:03/03/22 21:36
  ヽ、.三 ミニ、_ ___ _,. ‐'´//-─=====-、ヾ       /ヽ
        ,.‐'´ `''‐- 、._ヽ   /.i ∠,. -─;==:- 、ゝ‐;----// ヾ.、
       [ |、!  /' ̄r'bゝ}二. {`´ '´__ (_Y_),. |.r-'‐┬‐l l⌒ | }
        ゙l |`} ..:ヽ--゙‐´リ ̄ヽd、 ''''   ̄ ̄  |l   !ニ! !⌒ //
.         i.! l .:::::     ソ;;:..  ヽ、._     _,ノ'     ゞ)ノ./
         ` ー==--‐'´(__,.   ..、  ̄ ̄ ̄      i/‐'/
          i       .:::ト、  ̄ ´            l、_/::|
          !                           |:    |
             ヽ     ー‐==:ニニニ⊃          !::   ト、
おれたちはとんでもない思い違いをしていたようだ。これを見てみろ。
まず「クソスレ」を英字で表記する
『KUSOSURE』
これを逆にすると、
『ERUSOSUK』
そしてこれを更に日本語に直すと
『エルソサク』
スレを立てたのが>>1と言う事を考えれば末尾に『クソスレ』を加えるのが当然だ。
すると導き出される解は
『エルソサククソスレ』
そして最後の仕上げに意味不明な文字『エルソサク』
これはノイズと考えられるので削除し残りの文字を取り出す。
するとできあがる言葉は・・・・・・『クソスレ』。

つまり!『クソスレ』とは『まさにこのスレッド』を表す言葉だったのだ!! 

4 :デフォルトの名無しさん:03/03/22 21:44
>>3
もうすこし頭を使えない物か。
全然面白くないんだが。

5 :デフォルトの名無しさん:03/03/22 21:50
>>4
そんなもんにいちいちツッコむなよ・・・

単発質問スレを立てるな!

6 :デフォルトの名無しさん:03/03/22 21:55
>>1
まずGoogleに対する具体的な不満を述べてください

7 :デフォルトの名無しさん:03/03/22 23:01
明日までに作れ。

8 :デフォルトの名無しさん:03/03/22 23:12
ところでGoogleってなんであんなに速いの?
とてもじゃないが、あんな速いの作れる気がしないんだが。

9 :デフォルトの名無しさん:03/03/23 00:27
>>8
中の人が多いんだよ。

10 :デフォルトの名無しさん:03/03/23 00:50
つまんね。

11 :デフォルトの名無しさん:03/03/23 01:04
http://www.8823.net/
遅いけど厳選された結果が帰ってくる検索エンジン。

12 :デフォルトの名無しさん:03/03/23 07:19
>11
ハイテクだな。

13 :デフォルトの名無しさん:03/03/23 09:35
>>11
なんだここは? 

>このサーチエンジンは手動のため、返答に日数がかかります。
>はやぶさデータベースセンターは土日が休日となっておりますので、勝手ながら土日の検索依頼分は通常より2、3日遅れになります。

この2行が気になるどころじゃねー。手動?

14 :デフォルトの名無しさん:03/03/23 10:00
サーチエンジンの作り方に関する資料ってない?

15 :デフォルトの名無しさん:03/03/23 11:05
>>8
Googleはとんでもない贅沢なことやってるらしい。
あのデータベースは全てメモリ上に存在するとか・・・
そりゃ速いわ・・・

16 :デフォルトの名無しさん:03/03/23 11:18
とりあえずフリーの検索エンジンの
スクリプトをよく見て研究しる。

17 :デフォルトの名無しさん:03/03/23 11:24
結論

 >>1はGoogleについて勉強するべきである。

18 :デフォルトの名無しさん:03/03/23 11:29
大手の検索エンジンのサーバマシンて64bitCPUを大量に
並べてたり、とても個人が趣味で導入できるシロモノじゃないだろ。
プログラムも大事だがGoogleやAltaVista級のエンジンを
作るとなるとハイスペックなマシンも必要ってこったな。

19 :デフォルトの名無しさん:03/03/23 13:07
2chから目的のスレを探すアルゴリズムの方が
有益なんじゃないかと

20 :デフォルトの名無しさん:03/03/23 13:18
http://science.2ch.net/test/read.cgi/math/1044058104/

21 :デフォルトの名無しさん:03/03/23 14:30
>11

検索ワード: エロマンガ島

で検索してみた.約700日後に結果が返ってくるそうだ.

22 :デフォルトの名無しさん:03/03/23 14:58
>>21
約二年か・・・ まあ、厳選された情報だから仕方ないね


23 :デフォルトの名無しさん:03/03/23 15:48
2年て、中途半端な期間だな。
厳選してる間にパラダイムシフトでも起きて、
結果が不用になってたりするんじゃないか。

24 :デフォルトの名無しさん:03/03/23 16:00
入れ食いだな

25 :デフォルトの名無しさん:03/03/23 16:43
エロ画像と入力して
あくどい宣伝ページが排除されているなら
すばらしい検索エンジンだと思う

26 :デフォルトの名無しさん:03/03/23 17:04
ヌ速系の記者システムのように、データベースへのリンク追加権限
を持つ人間が追加要請のリンクを審査して追加する。
あくどいページは排除されるし、画像ゲットのヒントやおすすめ
があればソレも同時に追加される。

リンク情報には記者の名前も追加され、記者についての評価は
任意で誰にでもできる。

検索条件に一定ランク以上の記者のリンクのみ、だとかも指定すると
良好な結果が帰ってきたりとか。


27 :デフォルトの名無しさん:03/03/23 22:41
なるほどね。
でも、サーチエンジンクラスになると
人手でやるのは無謀なんじゃないかと。

28 :デフォルトの名無しさん:03/03/24 00:35
現在>>11のサイトで『楽しい家族計画』検索中。
701日後が楽しみだ。

でも、もし俺が死んで悲しむ家族がこんな検索結果を見たら( ´Д⊂

29 :デフォルトの名無しさん:03/03/24 00:38
>>26
今そういうシステムを考えてるんだよ。
全然検索ではないんだけどね。
ゴメンそれだけ。

30 :デフォルトの名無しさん:03/03/24 09:39
人手と機械が協力しあうってのは
ありだと思う。

P2Pなサーチエンジンってのはどうだろう?

31 :デフォルトの名無しさん:03/03/24 10:19
http://www.icot.or.jp/FTS/REPORTS/H12-reports/H1303-AITEC-Report4/AITEC0103R4-html/AITEC0103R4-ch3-9.htm

これを見るとGoogleは1日何十台もマシンを追加してるらしいぞ。


32 :デフォルトの名無しさん:03/03/24 23:59
エロマンガ島のパラダイムシフトか…

高速回線限定の分散ネットワークをホストにするP2Pサーチエンジンとか面白そうだな

33 :デフォルトの名無しさん:03/03/25 02:23
2chは、時間が少しかかって、人的資源を使う、
結果があいまいなサーチエンジンですか。

34 :デフォルトの名無しさん:03/03/25 22:39
自分でサーチエンジン作れる人っているの?

35 :デフォルトの名無しさん:03/03/25 23:00
毎日Webを見まくる
自分でカテゴリわけしとく
これなら、OKだよね
余計なサイトはひっかからない
ヤッホー!はこのやり方です

36 :デフォルトの名無しさん:03/03/25 23:12
データマイニング、これ難しい。
どのデータとデータを組み合わせるのか?

さらに、クラスタリング+超高性能なPCが必要。
これ、スポンサーないと無理。

さらに、データの収集。
そのためには、大容量のストレージと、太い回線が必要となる。

2ちゃんの過去ログ検索は、すでに実現してるね。
あれは、Windows+Namazuでおこなってるらしい。
でも自分で検索エンジン作るなら、まずは形態素解析やデータベースの知識が必須。
Googleは、英語のみならず様々な言語での検索が可能ってのは、
本当はすごい事だと思う。

素人が作れるレベルは、せいぜいNamazuでなんちゃって検索エンジンつくる程度。

37 :デフォルトの名無しさん:03/03/25 23:24
Namazuは形態素解析した結果を利用してるよね。
形態素解析して、名詞だけをインデックスにしてるのかな?

個人でやるならP2Pなのかな?

38 :デフォルトの名無しさん:03/03/25 23:27
1が人間検索エンジンとなると良い検索が出来ると思う。

39 :デフォルトの名無しさん:03/03/25 23:33
>>37
あなたが言うP2Pとは一体なに?
誰かが検索エンジンのために、マシンのリソースを貸してくれて、
それをP2Pでクラスタリングするということ?

もしそうだとしたら、
検索エンジンのために、マシンのリソースを貸すというのは、
難しいと思うよ。現実的は話としては。
仮に可能だとしても、Googleを越えるのは無理。
何故なら、P2Pのマシン間の帯域は狭いから。

40 :言語処理屋:03/03/26 00:05
>>37
名詞だけってそんな雑なことはしないでしょ。
名詞だけしか登録してないのに、全文検索エンジンを名乗られたらたまらん。

41 :デフォルトの名無しさん:03/03/26 00:19
>>1
なかなか難しいとこだな。
似たようなこと昔やったけど。

  googleにクエリー投げる
→ 結果からリンクのみ抽出
→ リンク先のページをGET
→ 形態素解析
→ 独自のランキングデータベースで再ランキング
→ 結果の表示

で、結果は・・・・。
ランキングデータベースのチューニングすれば、精度はそれなりっぽかった。

が、形態素解析のオーバーヘッドがでかすぎて実用にならんかった。


42 :41:03/03/26 00:23
×実用にならん
○実用にたえん

他にも怪しいところあるが、見逃してくれ・・・

43 :デフォルトの名無しさん:03/03/26 12:41
サイトを作る人間がもっとしっかりしたリンクページを作るように意識すれば
俺はそれで(・∀・)イイ。




俺のは万年更新中になってるが

44 :デフォルトの名無しさん:03/03/26 23:28
>>43
君なにか勘違いしてないかい?

45 :デフォルトの名無しさん:03/03/27 09:08
>>40
名詞だけじゃなかったら、
何をインデックスにするんだ?

>誰かが検索エンジンのために、マシンのリソースを貸してくれて、
>それをP2Pでクラスタリングするということ?
違う

46 :bloom:03/03/27 09:22
http://www2.leverage.jp/start/

47 :デフォルトの名無しさん:03/03/27 12:01
>>45
>違う
じゃぁなに?

48 :デフォルトの名無しさん:03/03/27 12:52
>>47
その手には乗りませんよ:-)

49 :デフォルトの名無しさん:03/03/27 13:41
で、>>1は建て逃げか…

50 :1:03/03/27 21:16
逃げてませんが。
話し相手がいないだけです。

51 :デフォルトの名無しさん:03/03/27 22:16
>>45
品詞って名詞だけじゃないだろ・・・。
名詞だけで文章の特徴が捉えられるとでも?

52 :デフォルトの名無しさん:03/03/27 22:26
じゃ、漏れが>>1の話し相手になってやる。

まず、どんなことがやりたいのか明確にしよう。
>>36の書いているように、クローラ、インデクサなんかも自分で作るのか、
>>41みたいに、基本的な部分は外部に任せちゃって、得られた結果を絞り込むのか?


53 :デフォルトの名無しさん:03/03/27 22:51
ありがとう。

>>41みたいに、基本的な部分は外部に任せちゃって、得られた結果を絞り込むのか?
こっちではないです。

作りたいものはサーチエンジン
すなわち
見たいホームページ→抽象化(キーワードを入力?)→具体的なホームページ
というプロセスをサポートする。
今あるサーチエンジンでは
見たいホームページを見つけてきているとは言いがたい(気がする)。
問題はどこにあるか?
矢印が2つあるので、そこに焦点を当てるのが基本だと思う。
すなわち、抽象化と検索。
実は抽象化と検索は表裏一体。
キーワード化以外の抽象化方法があれば、
その入力を加えた検索アルゴリズムが必要になるわけだ。
だから、抽象化と検索アルゴリズムを並行して考えていこうと思ってます。

54 :52:03/03/27 23:18
ふむ。

その場合、抽象化が一番の鍵だね。
抽象化の方法が決まれば、検索アルゴリズムも自ずと決まってきそう。

ヒットするのが見たいものだけでいいっていうなら、
文書をわりと低次元なベクトルに落としちゃうって言うのもありかもな。
ベクトル化する際に正規化しなければ、大きさでランキングもできるし。

・・・なんか昔NTCIRでそんな論文を読んだ気がしてきた。

55 :52:03/03/27 23:26
>>53
すまん、これじゃ普通の人にはわからんな。

解説すると、文書っていうのは単語の集合だから、
ある単語が1つの次元をあらわすとすると、
ある言語の語彙がN個だった場合、その言語で記述された文書は、
高々N次元のベクトルで表現できる。
で、このN次元っていうのを、特徴的な単語に絞って
低次元にしてあげれば〜、っていう話し。

まぁ、その「特徴的な単語」の決定が難しいんだけど。

56 :デフォルトの名無しさん:03/03/27 23:43
学者系の奴か?
複雑で非効率的な抽象化より、リンク関係を基本とした単純なページランキングのほうが優秀だという事実を無視しないようにな。
運用時のパフォーマンスが、検索エンジンの重要なファクターだということをキモに命じておけよ。

57 :デフォルトの名無しさん:03/03/28 01:23
>>55
いわんとしてる事はなんとなくわかるんだが、
実装となるとまた話は違うと思うわけで。

言語の語彙がN個でN次元ってさぁ、
日本語に10万個の語彙があれば、10万次元なわけでしょ?
それを低次元に射影するってのは、一体どれほどの計算量か考えてみれば、
実装なんて無理なんじゃないの?

>>53
抽象化ってのを具体的に説明しる。

俺の意見を言わせてもらうと、
今の検索エンジンって、結構もったいない事してると思う。
というのは、自分が検索ワードで「Visual C++ サンプルプログラム」という検索をしたとする。
またある人が、「Visual C++ ソース」で検索するとする。
その時に、前の似た検索をした人が、他にどんな検索ワードを使ったかを記憶しておけば、
それを用いて絞りこんだ結果を上のほうに持ってきて、
みたいな事ができるといいと思うんだけどな。



58 :デフォルトの名無しさん:03/03/28 01:29
Namazuフレンドリーな文章の書き方のこつってある?
Kakasi/Chasenフレンドリーってことになるのかもしれないけど

59 :デフォルトの名無しさん:03/03/28 02:13
>>57
検索者の好みや履歴を利用した検索システムは、いろいろ提案されています。
しかし、プライバシーの侵害という問題が起きています。
また、どうやって検索者を追跡するのかという技術的な問題もあります。
くわしくはFITの論文などを見てください。

60 :デフォルトの名無しさん:03/03/28 02:34
>>59
どこまでがプライバシーなのか定義が自分にはわからん。

後者については、技術的な問題は何もないでしょう。
というか、検索者を追跡する必要はないわけで。

ざっくばらんに言えば、そのページで検索された検索ワードを保存しておいて、
仮に保存したものを、「SearchMine」と言うならば、
ユーザーが検索するとき、最初にSearchMineを検索して、
その検索結果を使って、あらかじめ取得しておいたWebページを検索すればい
いと思うんだが。

61 :デフォルトの名無しさん:03/03/28 07:24
>>57
>その時に、前の似た検索をした人が、他にどんな検索ワードを使ったかを記憶しておけば、
>それを用いて絞りこんだ結果を上のほうに持ってきて、

微妙に違う話かと思いますが、goo が検索結果からのクリックを評価に加えてるという話を聞いたことがあります。


62 :デフォルトの名無しさん:03/03/28 08:26
>あれ嫁これ嫁でもかまわないManaging GigabytesとModern Information Retrievalを嫁>まぁ、その「特徴的な単語」の決定が難しいんだけど。Latent Semantic Indexing とかあるけどな。その手のは再現率は上がっても適合率は上がらんという罠。

63 :62:03/03/28 08:36
すまん。改行が抜けた。
>>1
>あれ嫁これ嫁でもかまわない
Managing GigabytesとModern Information Retrievalを嫁

>>52
>まぁ、その「特徴的な単語」の決定が難しいんだけど。
Latent Semantic Indexing とかあるけどな。
その手のは再現率は上がっても適合率は上がらんという罠。

64 :デフォルトの名無しさん:03/03/28 09:06
>>60
名前とか住所を検索したこと無い?

65 :デフォルトの名無しさん:03/03/28 14:21
> 言語の語彙がN個でN次元ってさぁ、
> 日本語に10万個の語彙があれば、10万次元なわけでしょ?
> それを低次元に射影するってのは、一体どれほどの計算量か考えてみれば、
> 実装なんて無理なんじゃないの?

計算量は置いといて、どんなふうに計算するの?

66 :62:03/03/28 15:31
特異値分解しる。主成分分析と考え方は一緒。
元の行列は次元数は膨大だが極端にスパースだからSVDを高速化する手法はある。

67 :65:03/03/28 15:45
すみませんでした。
質問する資格、前提となる知識をもっていませんでした。

68 :62:03/03/28 16:13
んなこたーない。
最初は誰だって素人だからな。知識は今から仕入れればいい。
最近国産のサーチエンジンは軒並み元気ないから、
1みたいな奴は応援するぞ。ガンガレ!

69 :1:03/03/28 22:16
>複雑で非効率的な抽象化より、リンク関係を基本とした単純なページランキングのほうが優秀だという事実を無視しないようにな。
そんな事実はありません。
というか、抽象化という言葉の意味を取り違えています。

>運用時のパフォーマンスが、検索エンジンの重要なファクターだということをキモに命じておけよ。
検索結果のクオリティーのみが重要で、
検索時間は10秒までOKだと考える事にしてます。

>抽象化ってのを具体的に説明しる。
ユーザーが見たいホームページ(サーチエンジンに検索させたいホームページ)
をあるデータに変換して
サーチエンジンに渡します。
現行のサーチエンジンでは、見たいホームページのキーワードを入力します。
この、ユーザーが見たいホームページからあるデータへの変換を
抽象化と呼んでいます。

>>62
推薦ありかとうございます。
時間をみつけて読んでみます。



70 :1:03/03/28 22:18
サーチエンジンという大きな物ではなく、
まず小さなものから考えて行こうと思います。

例えば、2chのあるスレにある書き込みというのは
スレのタイトルで検索した結果、見つかった書き込みと捉える
事ができると思います。
では、その書き込みのクオリティーを測る方法はどんな物があるでしょうか?
今は、このような事を考えています。

71 :デフォルトの名無しさん:03/03/28 22:29
>>70
あくまで2chを例えに使うなら
・類似書き込みの多さ
・信頼の置けるコテハンか
をクオリティーの目安にしてる。
後のは検索エンジンの場合は
googleのページランクに相当する考えを
持ってくればいいのかな

72 :デフォルトの名無しさん:03/03/28 22:32
>>70
「クオリティ」 という時点で客観的な物差しだよね。
「ある特定の人」 が見たい情報ではなくて。

73 :デフォルトの名無しさん:03/03/28 22:36
これからの時代は、やっぱりYahooみたいなディレクトリ型だよ。
でも検索エンジンが不要ってわけじゃなくて、googleは
今まで使われた検索単語をデータベース化してあるから
そこから検索単語を使ってディレクトリを自動生成する
ってのが研究中だとか。

74 :デフォルトの名無しさん:03/03/28 22:41
俺には難しいが面白そうなスレですね。
末永くROMさせていただきます。
ガンガレ

75 :デフォルトの名無しさん:03/03/28 23:49
>>58
遅レスだが・・・。

・助詞、助動詞の使用は最低限にする。
・できるだけ漢字の名詞を使用する。

この二つだな。

ま、最近のChaSenは「横浜ビブレ」なんてのが
固有名詞として登録されてたりするから、
カタカナ使用してもそれほど問題にならんかも知れん。
# ChaSenの開発チームは大学卒業してもメンテさせられてるという噂・・・。

76 :デフォルトの名無しさん:03/03/29 00:00
>>70
漏れの考えだと2種類+1のアプローチがあるな。

ひとつは、スレタイと1に書き込まれたテンプレとの類似度を計算する方法。
>>71が書いてるように、コテハンつーのもありだと思うけど、
「信頼の置ける」ってのを判定するのがつらい。

もうひとつが、PageRankみたいに>>76のような、
他レスからの参照数をベースに計算する方法。
この方法だと、1がダントツでトップに来てしまうので、
その辺は工夫する必要がある。
AAや、「氏ね」、「クソスレたてんな」等の
お決まりの文句が付随してるのはカウントしないとかな。

で、最後におまけのひとつ。
ガイドライン版の「勝手に今日輝いていたレス大賞」から引っ張ってくる。
これ最強。

77 :76:03/03/29 00:06
すまん、よく考えたら、「他レスからの参照が多い」
つーのは、突っ込みどころ満載って感じになるな。
ネタとしてのクオリティは高いが。

78 :デフォルトの名無しさん:03/03/29 00:42
>>76
まあコテハンの信頼性ってのは地道に統計取るしかないね。
ただ、たとえば2chブラウザのスレとかで言うと
コテハン(大抵作者)のレスというのは情報の有用性は
非常に大きいわけで、それをスコアに反映させない手は無いかと。
荒らしとかでない限り、ある一定数以上のレスをしているコテハンは
いいスコアつけるべきだと思う。
別途、荒らしフィルタとかバカコテフィルタを考えなきゃいけないけど。

79 :デフォルトの名無しさん:03/03/29 13:24
つーか、まずデータベースから設計しないと、、、

80 :1:03/03/29 17:14
キーワードというか
NGワード等を動的に生成する方法はないものかと
日々考えています。

>AAや、「氏ね」、「クソスレたてんな」等の
>お決まりの文句が付随してるのはカウントしないとかな。
これらは時間が経つにつれて、
流行り文句が替わるので手作業で修正しないといけません。
ここを自動化できるメリットは大きいですね。

>「ある特定の人」 が見たい情報ではなくて。
これはもう仕方のない問題です。
検索者の情報を事細かに入力するのであれば別ですが。





81 :名無し@沢村:03/03/29 17:27
>>1
>俺はプログラマーだ。
>プログラミングなら任せといてくれ。
>でも、アルゴリズムがよくわからない。

プログラマー?
アルゴリズムがよくわからない?
?????????????????
いままでどうやってプログラミングしていたの?


82 :デフォルトの名無しさん:03/03/29 17:32
所詮沢村には理解できないさ

83 :デフォルトの名無しさん:03/03/29 17:40
そういうのはプログラマではなくパンチャとかコーダと呼ぶべきだな。

84 :1:03/03/29 18:02
俺がイメージしているサーチエンジンのアルゴリズムが
わかるのであれば教えてください。

85 :デフォルトの名無しさん:03/03/29 18:27
この段階では丸投げと変わらん。

86 :デフォルトの名無しさん:03/03/29 18:48
http://www.ceres.dti.ne.jp/~goto001n/
これは?

87 :名無し@沢村:03/03/29 19:58
>>84
>俺がイメージしているサーチエンジンのアルゴリズムが
わかるのであれば教えてください。

わかるよ。
>結果は厳選されているそんなサーチエンジンを作りたいと思う。

要するにヌヒがどんな基準で厳選しようと考えているかだ。
その基準で余計なサイトを振るい落とせばいいだけだよ。簡単な話しだよ。頑張れ!

88 :デフォルトの名無しさん:03/03/29 20:09
フィルタの設計だよね
ある意味一番面白くて個性が発揮できる部分だね

89 :デフォルトの名無しさん:03/03/29 20:10
そんな表層的な事は小学生でも分かると思われ

90 :デフォルトの名無しさん:03/03/29 20:57
スレタイみてずっと思ってたんだが、

それは企画ではなくて 単 な る 願 望 で す。

91 :1:03/03/29 21:01
>>87
アルゴリズムという言葉の意味がわかってなかったみたいですね。
それじゃ

92 :名無し@沢村:03/03/29 21:07
>>91
バカコラクソおまえ、殺すぞ!!
いいかおまえは余計なサイトを振るい落とす基準の詳細について聞きたいのだろうが、
バカクソおまえがどんな基準を持っているかわからなければ振るい落とす詳細の設計の仕様がないだろが!!ボケ!!
要はおまえがどんな基準を持って余計なサイトを振るい落とそうとしているかが重要なんだよ!!マラボケ!!

93 :デフォルトの名無しさん:03/03/29 21:09
Webサービスかなんかでアクセス数を取得して、
ヒットしたサイトをそこのアクセス数順にソートして表示できないの?

94 :デフォルトの名無しさん:03/03/29 21:09
>>92
文章はワケワカランが、大筋禿胴。

95 :デフォルトの名無しさん:03/03/29 21:14
共立の 「情報検索アルゴリズム」 とか
手に入りやすい本をちょろっと読んどいたら?


96 : ◆36T8nullpo :03/03/29 21:16
ぬるぽ募集中
http://pumpkinnet.to/ranking/words/

【ぬるぽに投票した人】
http://pc.2ch.net/test/read.cgi/prog/1048837306/l50


97 :名無し@沢村:03/03/29 21:46
>>1
おまえ、おまえの余計なサイトを振るい落としたいという意味がわかったぞ!!
おいおまえ、おまえは例えば樋口可南子が喧嘩はどのくらい強いとか誰か他の女タレントと喧嘩したことあるかどうか調べたいとするだろ?
するとおまえは当然、「樋口可南子、喧嘩」というキーワードで調べるよな?
ところが樋口可南子という言葉と喧嘩という言葉は別の文脈で使われてたりして、樋口可南子と喧嘩が直接結びついて語られたサイトがなかなか見つからないわけだ。
樋口可南子と喧嘩という両方の言葉が出てくるサイトは膨大な数にのぼるからな…。
だが、おまえはせめてこのくらいのサイト↓は見付けたいのだろう?

http://216.239.57.100/search?q=cache:sKAMB4_Rn70C:sugai.dip.jp/word/type6/type4/type2/+%E6%A8%8B%E5%8F%A3%E5%8F%AF%E5%8D%97%E5%AD%90+%E5%96%A7%E5%98%A9&hl=ja&lr=lang_ja&ie=UTF-8

↑おまえのやりたいことがやっとわかったぜ♪おまえもなかなか変態だな♪むふふ…♪

98 :デフォルトの名無しさん:03/03/29 21:52
>>97が痛いようママン(AA省略

99 : :03/03/29 21:53
>>1

とりあえずgoogleは200人のエンジニアで5年で現在の仕組を構築。
あの速度を維持するには500台以上のUnixマシンと冗長性の高いネット
ワーク構築が必須。またcascheについての工夫も当然。

なお、検索エンジンの仕組を考えるのであれば、
1. 効率のよいデータ収集と容量効率のよいDB構造の検討
2. 1秒あたり1000万を超えるクエリを処理できる負荷分散の検討
3. 日本語を対象にするなら形態素分析に関する検討
が基礎にあって、

例えば10億URLの情報が平均500Kでキーワードトークンが平均2K程度になる
と仮定して総indexの容量とそれをどうすれば高速で検索できるのか、hash関数
などをどう使えるのか、そんなことを考えてみてください。

キーワードのフィルタリング、例えば形態素辞書をより高度に活用することなど
は、上記基礎設計の後でじっくり考えてみましょうね。また商用という意味では、
それらを導入するコストパフォーマンスも含めて考える必要も当然あります。

「NGワード等を動的に生成する方法」これは比較的簡単なことで、上記基礎設計
技術とノウハウがあれば可能です。しかしやはり導入による全体のパフォーマン
ス低下がその効果に見合わないというのが実情ですね。

因みにgoogleのエンジニアは全て米国にいます。日本ではエンジンチューニング
の類はしませんから、彼等がここを見て書き込んでることはありません。

私は過去ですが商用検索エンジンの開発経験があるしがないエンジニアでした。




100 :デフォルトの名無しさん:03/03/29 21:55
>>98
しょうがない。沢村だし。

101 :デフォルトの名無しさん:03/03/29 22:29
200人で5年って12000人月ですか
ギネスブック記録ですか?

102 :デフォルトの名無しさん:03/03/29 22:34
>>101
もちろんその中には徹夜の日や休日返上もあるから1500人月くらいじゃねーの?

103 :デフォルトの名無しさん:03/03/29 22:36
>>101
そのくらいのプロジェクトはいくらでもあるでしょう。

104 :デフォルトの名無しさん:03/03/29 22:53
google のシステム自体が、たしかギネス認定されていたと思います。

105 :デフォルトの名無しさん:03/03/29 23:02
>>99
その商用検索エンジンって何の言語で作ってました?

クローラー、形態素解析、文書フィルタ、インデクサ、
クライアント部分等、それぞれで違うと思うのですが、
よろしければ教えていただけませんか?

あと、DBは何を使ってました?


106 : :03/03/29 23:22
>>105

言語はほぼC++です。Webインターフェース部分は専用のPagebuilder。
DBは汎用ではなく専用のDBです。クローラーにはPythonやPerlなどの
script系言語も使われてます。形態素分析辞書はモジュール供給なので
中身はblack boxで辞書自体にユーザー辞書を乗せ新語(ビンラディンとか)
などに対応していました。

107 :99:03/03/29 23:34
>>1

素朴な質問だけど、「どうでもいいサイトまで引っかかってしまう」
とあるが、あるキーワードに対してどうでもいいサイトとはどう定義
しますか?もちろんそのキーワードを使うユーザーの最大公約数の答
えとしてです。仰る語感では「確かに仰る通り!」と思えるのですが、
それをロジックにすることは簡単ではありません。
 
例えば、「掲示板」というキーワードの場合、どういう検索結果が、
あなたの仰る「どうでもいいサイト」になりますか?

確かにスパムキーワードを施すようなサイトはクローラーがデータを
取得する際に存在するキーワードの傾向などから自動分類することも
可能でしょう。しかし、「自分が探しているサイトが上位にある」こ
とをあらゆるユーザー用途に対して最大公約数的に実現できることは
容易なことではありません。固有名詞に対して、その会社、団体、個
人サイトなどがトップに来るようなことはほぼ実現していますが、
実際「掲示板」のような抽象的なキーワードでの表示順位にみなさん
はどんな結果を求められていますか?他のキーワードでも構いません。
教えてください。私には結局在職中に答えを見つけることはできません
でした。



108 :デフォルトの名無しさん:03/03/29 23:38
http://www.bunbun.ne.jp/~tk0608/
ロンブーの温泉カミングアウト未放送 コイケエイコはみ出てます。。

109 :99:03/03/29 23:43
>>1

もうひとつ。
結局、「超高機能なサーチエンジン」に求められるスペックとは?
- DB保有量、対応言語
- 想定クエリ処理数
- 平均レスポンス時間
- クローリングスペック
  - 当然全件一括更新なんかできないからどう部分更新できるか
  - クローリングDB運用管理(クロール頻度やURLの追加削除など) 
- スコアリングスペック
- クエリ処理自体のスペック
  - 表示方法(どういうAPIを介するのか、結果をXML化し云々などなど)
  - 表示順
  - 検索方法(and or not その他link元とかそういうこと)

などなど検討ポイントは多いのですが、是非 1 がどういうポイントから、
高機能なものを作ろうとお考えなのか、お聞きしてみたいです。(マジで)


110 :99:03/03/29 23:49
>>102

私はgoogleの人間ではありませんから伝聞です。もちろん初めから総勢200人で
動いていたわけではありません。最初は数名からスタートしたと聞いています。
研究、実験段階までは多くても10数名でしょう。商用化の目処がたつまでに、
2、3年、それから現在の商売モデルを既に作り上げ売り上げ見込みに基づいて
本格的にエンジニアを雇用していったわけです。

111 :デフォルトの名無しさん:03/03/29 23:49
>>110
喧嘩ダメ! :(

112 :99:03/03/30 00:05
>>111

挑発的でしたか?申し訳ないです


113 :デフォルトの名無しさん:03/03/30 00:13
class Web{
string url;
string data;
}
vector<Web> Search(string searchString){
vector<Web> ret;
for(int i=0;i<255;i++){
for(int j=0;j<255;j++){
for(int k=0;k<255;k++){
for(int l=0;l<255;l++){
string s=toIP(i,j,k,l);
int fh=_open(s.c_str(),_O_RDONLY);
char buf[100000000];
_read(fh,buf,100000000);
if(search(buf,searchString) > 0)
{
Web w;
w.url=s;
w.data=buf;
ret.push_back(buf);
}
}
}
}
return ret;
}

まぁ最先端の検索エンジンはこんなかんじかな。

114 :デフォルトの名無しさん:03/03/30 00:36
>>113
最先端ならこうして欲しい気も…。
for(int i=0;i<65535;i++){
 for(int j=0;j<65535;j++){
  for(int k=0;k<65535;k++){
   for(int l=0;l<65535;l++){
    for(int m=0;i<65535;m++){
     for(int n=0;j<65535;n++){
      for(int o=0;k<65535;o++){
       for(int p=0;l<65535;p++){
        string s = toIPv6(i,j,k,l,m,n,o,p);

115 :デフォルトの名無しさん:03/03/30 00:36
それだ!

116 :114:03/03/30 00:40
おげ。修正忘れ。 ネタでエンバグしてどうするよ<俺
for(int i=0;i<65535;i++){
 for(int j=0;j<65535;j++){
  for(int k=0;k<65535;k++){
   for(int l=0;l<65535;l++){
    for(int m=0;m<65535;m++){
     for(int n=0;n<65535;n++){
      for(int o=0;o<65535;o++){
       for(int p=0;p<65535;p++){
        string s = toIPv6(i,j,k,l,m,n,o,p);

117 :デフォルトの名無しさん:03/03/30 01:20
「掲示板 作り方」と入力したとしよう
これで、「掲示板の作り方なんて知らないよ」サイトは必要ない
「掲示板 作り方」は掲示板の作り方を知りたい人が使う検索ワードである
よって、どうでもいいサイトは存在する

118 :デフォルトの名無しさん:03/03/30 04:12
で?

119 :99:03/03/30 07:05
>>117

(掲示板 and 作り方)not 知らない ではダメですか?


120 :デフォルトの名無しさん:03/03/30 07:17
>>99
>私は過去ですが商用検索エンジンの開発経験があるしがないエンジニアでした。
今は何やってんだ?

121 :99:03/03/30 07:46
>>120

今はエンジニアではありませんとだけ申し上げておきます。


122 :デフォルトの名無しさん:03/03/30 08:58
>>99
こういう実務経験のあるひとの書き込みはすごくうれしい。
たまにでもいいので、なにか気づいた点があれば、アドバイスおながいします。

123 :デフォルトの名無しさん:03/03/30 10:48
>>99
ありがd
なんかもったいねーな。

124 :1:03/03/30 10:51
>あるキーワードに対してどうでもいいサイトとはどう定義しますか?
サーチエンジンとは
あるホームページXを抽象化したデータf(X)=Yを作り
Yに基づいて検索した結果をg(Y)=Zとすると
X=Zである事が望ましい。
しかし、実際にはX!=Zである。
そこで、ホームページの差異、すなわち距離dを定義する。
d(X,g(f(X))=d(X,Z)の値が低いgとfを作る事が
サーチエンジンを作る意味である。
ここで、fとgの作り方のほかに
距離dをどうやって決めるかという問題がある。

この距離dの取り方は、文字認識でも音声認識でも人間の感覚が
関わってくる問題すべてで問題となります。
例えば、ある入力された文字が「あ」という文字と「い」という文字の
どちらに近いか?
これは、普遍的事実というよりは、人間の感性に依存しています。
逆に距離dの決め方がわかってしまうと、問題は解決したも同然です。
従って、距離dの具体的な答えを問う質問は愚問です。
理解していただいたでしょうか?

では、文字認識等ではどのような解決策をとっているかというと
多くの手法がありますが
現在の流行は統計的推測であります。
すなわち、SVMやニューラルネット、音声認識ではHMMなどです。

従って、前例に習うとするならば距離dの問題は
は統計的推測を用いた解決を用いる事が一つの方法です。
しかしながら、その適用が難しいというのが現状だと思います。

125 :1:03/03/30 11:00
>「NGワード等を動的に生成する方法」これは比較的簡単なことで、上記基礎設計
>技術とノウハウがあれば可能です
個人的には無理だと思っていますが。
できるなら、そのアルゴリズムの詳細を教えてください。
人間が手作業でキーワードを付け加えるなら簡単ですが。

パフォーマンスは確かに重要です。
googleのパフォーマンスには検索速度の他にも
大勢で使うためのパフォーマンスという意味が含まれています。
今回考えているのは、
1台の個人のPCで動き、検索時間は1分程度かかってもいいので、
クオリティーの高い結果を提供するという事です。
(あるいは、HTTPという形ではなく
見つかり次第結果を表示するようなアプリケーションでもいいと
思っています。)
従って、P2Pという形態は好ましいと思っています。

126 :デフォルトの名無しさん:03/03/30 11:52
>>1
一切広告付けるなよ
完全無料のボランティアでやれよ

127 :デフォルトの名無しさん:03/03/30 12:05
>>106
>DBは汎用ではなく専用のDBです。
汎用のDBを使わずにわざわざ専用のDBを開発してまで使う理由とは?

128 :デフォルトの名無しさん:03/03/30 12:53
>>127
検索エンジンで専用のDBつくるのはあたりまえだと思うのだが。
データ持ち方自体が検索エンジンの機能・性能と密接なんだから。

129 :1:03/03/30 16:04
>>126
はい、もちろん広告なんて載せません。
完全無料です。
でも、無能な人、貧乏な人、ケチな人は絶対使わないでね。
有能な人、お金持ちな人、ケチじゃない人は無料でじゃんじゃん使ってね。
ところで、なんで指図されてるんでしょうか?
誤爆?勘違い?デムパ?

DBという言葉がでていますが、
ハードディスクのような大容量メディアをDBと呼んでいる人と
それらを利用しやすくするためのソフトウェアをDBと呼んでいる人が
いるような・・・
後者はDBMSと呼ぶのでしょうか?

専用のデータ構造を作った方がいいような気もするというのが
個人的な意見です。
そんなにファイルをたくさん使うわけでもなさそうなので。

130 :デフォルトの名無しさん:03/03/30 16:13
>>129
広告は反対だが、漏れ的にはじゃんじゃんウラで稼いで欲しい。
じゃなきゃ、安定成長できんでそ。
最初は完全ボランティアだろうが。

131 :デフォルトの名無しさん:03/03/30 17:26
>>1
1の書き込みを見る限りでは、Googleの検索結果に
「余計なサイト排除フィルタ」を被せれば、
目的を達成できるような気がします。

ひとまず「余計なサイト排除フィルタ」の開発に専念し、
それで目的を達成できたら御の字、不満なら独自DBの
開発に着手するという線は如何でしょう?

GoogleAPIを使えば労力を節約できると思うので、参考までに。

http://www.google.com/apis/


132 :デフォルトの名無しさん:03/03/30 17:30
http://www.pink-angel.jp/betu/linkvp2/linkvp.html
↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑
★みんなの情報局★みんなのリンク集★ココ最高★

133 :131:03/03/30 17:33
41で既出だった・・・

134 :デフォルトの名無しさん:03/03/30 21:13
>>1が、某メタサーチ管理人のように思えてならないのだが...

135 :デフォルトの名無しさん:03/03/30 22:12
μηκο УАЯО ∫НΙΝЕ !
あなた達の為に
 地獄からラッシュで
  カムバックしてきたわョ!
イエス、
 イエス、
  イエッス
このНАМАУОНЕΙが
 来たからには
  ジャスト安心よ!
あなたの良く知る
 НАМАУОНЕΙだよ!
  ユゥノゥ?
・・・ああ 子供たち
 私の最後の言葉をきいとくれ
クソ検索エンジンや
 お前のフェイスは
  ベリーベリーベリー
   ファニーだね
    フールだね
     ダムンだね!
お前の天然のウザさを例えるに
 戦闘帰りに上機嫌で鼻歌歌ってたら
  ダークに紛れて鼻の穴にダイブしてくる蚊柱のよう!
   お前なんて今すぐどうにかなっておしまい
 世 田 羊 イヒ
    介 大    の た め に

これが私の最後の言葉!
くれぐれもプロミスを守って・・・



136 :デフォルトの名無しさん:03/03/30 22:15
>>131
googleの結果から絞り込むというのも一つの手段ですが
まったく新しいアルゴリズムを作ろうと考えています。

余計なサイト排除フィルタを作る事も
目標達成の通り道になるとは思いますから、挑戦しようとしています。
そこで、現在2chのカキコに対して
その重要度を計算するアルゴリズムについて
考えている最中というわけです。

重要度を計算するには
書き込みの文章自体から計算する方法と
それ以外の情報も加えて計算する方法があります。
それ以外の情報とは、
誰もが思いつくのは
コテハンや>>での参照回数ですね。


137 :99:03/03/30 23:11
>>1

>できるなら、そのアルゴリズムの詳細を
辞めても守秘義務があるので一般論以外は無理です。

>>127
>汎用のDBを使わずにわざわざ専用のDBを開発してまで使う理由
簡単です。速度と容量のパフォーマンスのためです。

>>1
>しかしながら、その適用が難しいというのが現状
仰る通りですね。書かれていた手法は様々なアプローチで試みましたが
商用エンジンの価値は「評判」で決まるため、感性に訴求させることは
誰しもが唸る?ような新理論を上手に広め、種々の問題は未解決ながら
もこのエンジンはいいと認知させていくことが肝要ですからね。
もう当事者ではないですが、知り得る範囲でご協力致しますが、技術情
報詳細の開示(例えばデータ構造など今だ頭にはいっているものも含め)
はご容赦くださいね。

それではまた。

138 :デフォルトの名無しさん:03/03/30 23:24
まずはベイズ理論からだな

139 :デフォルトの名無しさん:03/03/30 23:27
>>136
全く新しいものを作るなら、
新たな作成物が既存のものでないかどうか調べる必要がありますよ。
少なくとも、google一発で見つかっちゃうようなのは言語道断。

140 :デフォルトの名無しさん:03/03/30 23:29
まあ車輪の再開発も勉強という面においては有効だし。
仕事でやるなら再開発は嫌うべきだが。

141 :デフォルトの名無しさん:03/03/31 00:06
面白い
sage

Googleに正規表現検索が付けばそれで事足りる気がするけど...

142 :デフォルトの名無しさん:03/03/31 01:34
評判より検索結果でしょ



143 :デフォルトの名無しさん:03/03/31 03:14
>>141
>>1を含めて、正規表現なんて知ってるユーザーは少ないので、実装されない。
で、and検索だけの糞い結果しか得られない。
正規表現対応の検索エンジンは、ユーザー数が少ないので、広告も少なく、
性能が低く、データ量も少ないので、正規表現の威力が出ない。
広告などのゴミデータが散乱する。

下手に資本主義化したネットの末路。
本来の性能を完全にスポイルしている。


144 :デフォルトの名無しさん:03/03/31 04:08
>>1の言う抽象化はユーザーが賢くなれば済むことのようだが

145 :デフォルトの名無しさん:03/03/31 04:13
>>144
賢くならないユーザーの方が多いんだよ。
それにね。
いい?いまから大事なこと言うよ。

賢 い ユ ー ザ ー は 金 に な ら な い

146 :デフォルトの名無しさん:03/03/31 04:51
まさに金言だな

147 :↓こういう文、最近見ないな。:03/03/31 06:18
>>145が今、いいこと言った!

148 :デフォルトの名無しさん:03/03/31 08:51
しかし、無能な香具師は使うなと>>1は言ってるぞ。


なんか>>1の言動が厨臭くてかなわん。

149 :デフォルトの名無しさん:03/03/31 10:12
世界の80%は厨房で出来てます

150 :1:03/03/31 12:13
まあ、正規表現なんてのは無理な話。
ユーザーの問題じゃなくてパフォーマンスがでないから。
それに正規表現で問い合わせできても、たいして変わらないような。
それはそうと、パターンマッチングはそれ程重要じゃないんだな。

>商用エンジンの価値は「評判」で決まるため、感性に訴求させることは
まあ、「評判」という言葉の意味の乱用だね。
評判は性能で決まる事もあれば・・・
というわけです。
それに商用を目指しているわけではないので、
ひたすら自分の要求に合った、クオリティーの高い検索結果を
出す物を目指します。

>もう当事者ではないですが、知り得る範囲でご協力致しますが、技術情
なんか協力できそうなんですか?
技術的な話は聞いても、守秘義務があるから一つもできないようなので
文献の話でもしましょうか?
これから少しずつ読もうと考えています。

>全く新しいものを作るなら、
>新たな作成物が既存のものでないかどうか調べる必要がありますよ。
考え方の問題です。
既存の物にとらわれないという意味です。
なぜに、調べる必要性が出てくるのでしょうか?
妄想はやめましょう。

>少なくとも、google一発で見つかっちゃうようなのは言語道断。
意味わかりませんが。
新しいホームページを探す技術ではありませんよw

ところで、あるテキストからキーワードを抜き出す技術に興味のある人はいますか?

151 :デフォルトの名無しさん:03/03/31 12:27
形態素解析とインデクシング?
それとも tf/idf みたいな重み付けも含めて?

152 :デフォルトの名無しさん:03/03/31 12:30
残りの二割は当然「やさしさ」で。

153 :デフォルトの名無しさん:03/03/31 16:07
ロボット型の検索エンジンでしかも商用ともなれば数億ページにもなる
データを保管し、そこから必要なデータを素早く取り出さなければいけない
と思うんだけど、それを独自に開発したDBで対応できるものなの?
煽りじゃなく純粋に知りたい。

154 :デフォルトの名無しさん:03/03/31 16:12
オンメモリでいいやん

155 :デフォルトの名無しさん:03/03/31 16:14
>>153
だからこそ独自に開発したDBがいるんじゃない。
独自に開発しなかったら、何つかうっちうねん。

156 :153:03/03/31 16:28
>>155
データを扱うエキスパートである各RDBMSに
独自に開発したDBがスピード、安定度、耐久性、堅牢性において
勝てるものなのかっていうことを言いたいんだが。

>>154
Googkeはそれをやってるんだっけ。
なるほど。

157 :153:03/03/31 16:30
>>156
Googke→Google


158 :デフォルトの名無しさん:03/03/31 16:40
一般論だが、汎用より特化したシステムの方がチューンナップされてるのは当たり前だと思うが。

159 :155:03/03/31 16:51
>>156
リレーショナルモデルを前提にした検索エンジン作らない限りは
結局RDBMSの上にDBMSを構築するはめになる。
それでスピード・安定度・耐久性・堅牢性有利になるかといえば、疑問。

もしかしてRDBMSが万能とおもってない?

160 :155:03/03/31 16:57
しかし、いつのまにこんなに良スレに・・・
ここはJava厨C#厨も出現しづらいし。

161 :デフォルトの名無しさん:03/03/31 17:56
>ここはJava厨C#厨も出現しづらいし。
Luceneって実際のとこどうよ?
と、あえて召喚してみるテスト

162 :デフォルトの名無しさん:03/03/31 17:57
155のバカさ加減にはあきれるな


163 :デフォルトの名無しさん:03/03/31 22:03
>>150
キーワード抽出だと、NTCIRのNEタスクの論文なんかが参考になるかも。
学者のたわごとが多いので、あくまで参考程度に。

実は学生時代にこの辺の研究してた。
日本語だと以下が基本的な(?)アプローチ。
まず、形態素解析してtf/idf。
さらに重み付けのために、前後(特に後ろ)の文を見て、指示代名詞の有無を調べる。
きちんと章・段落がある文書は、その情報も使う。
最初/最後の文章は重要な語が出てくることが多いから。
Webに特化していいのであれば、HTMLタグなんかもキーワード抽出に使える。
<title>、<a>、<h?>、<th>、<b>、<em> など。

164 :99:03/03/31 22:20
>>1

>なんか協力できそうなんですか?
不必要に好戦的なのですね。そういう意味ではあまりご協力できそうも
ないのに余計なことを申し上げましたね。撤回致します。見守らせて下さい。

> まあ、「評判」という言葉の意味の乱用だね。
> 評判は性能で決まる事もあれば
検索対象URL数、機能性、更新頻度、反映スピード、検索スピードなど性能
で客観的に測れる指標もありますが、それら以上に「この検索結果は良い」
というスコアリング結果に対する体感が評判だと申し上げているわけです。
もちろん、商用を担当していた以上数々のマーケデータを知っている上で
申し上げているので、それが可笑しいと思われるなら仕方ないのでこの点
では反論致しません。

>>153
はい、汎用のRDBMSではスピード、容量面で全然実用的になりません。もっとも
データ構造は私が手掛けていた範囲ですから、それが絶対的ではもちろんありま
せんが、極端な話しRDBMSに一旦入れてある商品DBなどを検索させる場合でも、
そこからわざわざサーチエンジンの専用indexを作って検索させておりました。
それだけスピードには差が出てしまいます。


165 :99:03/03/31 22:21
>>163
引用省略しますが、はい、まさにそういう処理をしておりました。難しいのは
実際TAGによる重みづけを行う場合のバランスでした。title中のキーワードに
どれだけの重みをつけるべきか。他にも種々のパラメータが存在するので、実
際の重みづけ(スコアリング)結果を出すにはどうしてもサンプルデータでは
無理が多く、テスト用にデータを本番と同等分持たないと有効なテスト結果を
得られないこともコストにヒットしました。正直あれだけの設備を二重に持つ
ことはなかなか厳しいです。しかし、本番サービスを止めずに様々な改良実験
を行うためにはどうしても必要になります。1億URLを対象とするエンジンなら
1億の中でのテストでないと意味がないわけです。tfという香具師がまたやっ
かいな値なのです。

166 :デフォルトの名無しさん:03/03/31 22:45
肩書き能書きじゃ評価できないんで。
中身があるかないかです。
そして、できるかできないかです。

>スコアリング結果に対する体感が評判
評価という意味をそういうふうに限定しないと意味は通じないと
書き込んだつもりですが。
まだまだ日本語力が足りないようです。
勉強してきます。

形態素解析をして、tf/idf等を用いたスコアリング
これをもう一度抽象化すれば
あるテキストの構造を解析して、それらの意味を判定
そのデータを用いてスコアづけ
という事ですね。
テキストの構造を解析する方法は形態素解析がベストなんでしょうか?
個人的には形態素解析は使いたくないのですが。
なぜなら、WEB上のテキストには充分に性能を発揮しないと思うからです。

167 :163:03/03/31 23:03
>>166
>テキストの構造を解析する方法は形態素解析がベストなんでしょうか?

個人的な見解だとYes。品詞情報を使えるのも大きいと思う。
N-gramを用いる方法もあるけど、検索結果にノイズが混じりすぎる。

もう一つ、漏れが学生時代に試したので、
「文字種のつながりで単語を認識する」ってのがある。
アルファベット、漢字、カタカナが連続して出てくるものは同一単語としてみなすだけ。
「キーワード抽出だと、NTCIRのNEタスクの論文なんかが参考になるかも。」
を例に挙げると、"キーワード"、"抽出"、"NTCIR"、等が該当する。

2chのログには有効かもしれん。(藁

168 :デフォルトの名無しさん:03/03/31 23:12
>>167
むしろだめだ。
イ`
とか平気で出てくる。

169 :デフォルトの名無しさん:03/03/31 23:13
たとえばgoogleで検索した結果のページに多く出てくる単語で
検索結果の最大公約数をとると
知りたいことが網羅されたページが出てきそう。

170 :155:03/04/01 00:17
>>162
具体的な指摘希望。

171 :デフォルトの名無しさん:03/04/01 00:56
>>168
> イ`
> とか
まぁ、そんなのは無視しちゃえばいいわけで。

ここなんか検索できたら尊敬する。
http://aa.2ch.net/test/read.cgi/kao/1040047590/

172 :デフォルトの名無しさん:03/04/01 15:26
ちょっと場違いな意見だけど、何か検索した時に
『他の人はこのような単語も検索しています。』
っていうのが有るとたまにうれしい。

【データベース 設計】で検索した時に【正規化】もよく使われています。
↑こんな感じで。


173 :デフォルトの名無しさん:03/04/01 18:24
ロボット型の良い所とディレクトリ型の良い所を合せて
ロボットで拾ってきたデータをカテゴリ分けするってのはどう?
カテゴリ分けはできれば半自動(自動+手動)になるかな。


174 :デフォルトの名無しさん:03/04/01 19:49
>>172
既にあります。

175 :デフォルトの名無しさん:03/04/01 20:14
>>174
>っていうのが有るとたまにうれしい。

176 :デフォルトの名無しさん:03/04/01 20:49
>>172
Lycos が昔やってたけど、
必ずしも他の人にとっても意義のあるキーワードとは限らない
という結果に。

177 :99:03/04/01 21:09
>>172

キーワードチャンクですね。ありましたね。これはAND候補ですが、
同義語をORの一括検索なんて如何でしょう?あまり意味ないかな?

例えばですが、 アメリカ なら米国やUSAやamericaものいずれか
でも良しとするのような。これは同義語シソーラスがあればあまり
面倒なアルゴリズムは不要で実現可能ですが。

178 :デフォルトの名無しさん:03/04/01 21:19
>>177
"Query Expansion" でぐぐってみ。

179 :デフォルトの名無しさん:03/04/01 23:59
>>99
>同義語をORの一括検索なんて如何でしょう?
??
infoseekさん、これ以前からやってたでしょ?


180 :デフォルトの名無しさん:03/04/02 05:49
知ったかバカの99

181 :デフォルトの名無しさん:03/04/02 12:27
はったりっぽい

182 :181:03/04/02 16:16
>>181>>180

183 :デフォルトの名無しさん:03/04/02 18:07
くだらない煽りに、自分で自分を擁護するなんて・・・
よっぽど精神レベルが低いんだろうな(ププ

184 :デフォルトの名無しさん:03/04/02 18:17
>>183
文系MS厨(無職)さん、ようこそ。

185 :デフォルトの名無しさん:03/04/02 18:28
……荒らさないでね。

186 :デフォルトの名無しさん:03/04/02 20:11
googleのテキスト広告が1クリック500円以上する罠。

187 :99:03/04/02 23:05
>>180

はぁ、そうですか。そうまで言われて知ってること話すの馬鹿らしいのでもう
書き込みやめておきますね。お邪魔しました。


188 :デフォルトの名無しさん:03/04/02 23:09
>>187
一週間もすればあぁいうバカは少なくなるから、そのころにまた。

189 :デフォルトの名無しさん:03/04/02 23:28
プ

190 :デフォルトの名無しさん:03/04/02 23:35
書き込み内容で厨を黙らせられない香具師はすっこんでろ。



191 :190:03/04/02 23:37
>>190>>189

192 :デフォルトの名無しさん:03/04/02 23:40
>>186
それで元がとれるものなのかな?

193 :デフォルトの名無しさん:03/04/03 00:58
>>180は消えてくれ。
>>99さん貴重な話とても参考になるので去らないでお願い。

194 :デフォルトの名無しさん:03/04/03 01:25
意味ある発言のできないやつは消えてくれ
俺もなー

195 :デフォルトの名無しさん:03/04/03 01:35
>>1
作りたいんだけど?

じゃあ、作れば?

196 :デフォルトの名無しさん:03/04/03 01:56
ここはネタスレですか?


197 :デフォルトの名無しさん:03/04/03 02:30
>>196
いや、良スレの卵です。
食べごろなので厨が集まりましたが、生まれてしまえば大丈夫です。
そっと見守って下さい。

今、俺、酔ってます。

198 :名無し@沢村:03/04/03 09:03
おまいらよ、「肉を抉る 尻」というキーワードで検索した場合、不要なサイトというのは何だ?
つーか「肉を抉る 尻」というキーワードで検索した場合おまいらの知りたいことというのは何だ?

おまいらよ、おれは「肉を抉る 尻」というキーワードで検索してみたが、ずいぶんどうでもいいサイトばかりが出てきてついに知りたいサイトは見つからなかったよ。
つーか見つけるのに挫折したよ。

おまいらよ、「肉を抉る 尻」というキーワードで検索した場合おまいらの知りたいことというのは何だ?

199 :デフォルトの名無しさん:03/04/03 09:05
お前の知りたいことと一致します

200 :名無し@沢村:03/04/03 09:25
おまいらよ、「肉を抉る 尻」というキーワードで検索した場合知りたいことというのは、「女の尻の肉を抉る」ということだよ。
だが「女の尻の肉を抉る」という文に一致する文がそのまま出ているサイトが存在する可能性は少ないから、とりあえず「肉を抉る 尻」で検索して「女の尻の肉を抉る」に期待をふくらませるのよ♪
おまいらよ、ここで問題になってくるのがまず「尻」の主体が人間かどうかだよ。
おれが検索した場合も「尻」の主体が人間ではなく製品の「尻」の部分だったサイトがたくさん出てきたからな。
おまいらよ、まず「尻」の主体が人間かどうかをフィルターにかけて調べることだよ。
つぎに「尻」の主体が人間のうちの若い女かどうかを調べることだよ。
おまいらよ、「尻」の主体が若い女とわかっただけでも、そのサイトが女の尻の肉を抉ることについて語っている可能性がずいぶん高くなるぞ!!
つぎはワンセンテンスを調べることだな。
ワンセンテンスのうちに「尻」という言葉と「肉」という言葉が入っていたら、おまいらよそのサイトはもはや80%の確率で「女の尻の肉を抉る」ことについて語っていると考えても過言ではないと思うよ。
おまいらよ、このように単語同士をむすびつけて興味を割り出すエンジンつーかデータベースがまず必要で、
その興味に応じて細かくフィルターを通すエンジンが必要になるということだよ。
わかるか?

201 :デフォルトの名無しさん:03/04/03 10:19
>>200
そこで検索語句から「女」が外れるところを見ると、あなたは検索初心者ですね?

202 :デフォルトの名無しさん:03/04/03 14:36
シリアルを検索するときに、尻と表記しているサイトも引っかかれば高機能と言えよう

203 :デフォルトの名無しさん:03/04/03 15:22
                        |   /\  
   ̄フ    |      _|_     ─-┼-  ~T~   ─┼─
         ̄|  /|    /_ /    / | \ 口コ  ┌─┴─┐
         |/ |   /丶    /  |  ` 人    ∠ム
 ー-─ /|   \ノ  (          |   / \    ホ
                ̄ ̄ ̄
──┐  ─┼─ ___      ├─  ──    |  __ 
  /ヽヽ ─┼─   /      |    ──、   |     フ
 (       \   / ̄ ̄)     |       |.   |      
   ̄   \__  ○_/   ○ヽ     /    し  ̄ ̄ ̄

 |    ──┐   / ─┼─ ヽヽ   _|   |   |
 |      /  /    |  __   ̄ | ̄  |    | 
  \_/  (    \    |       ( ̄    V    
          ̄   \   |   ̄ ̄    ̄ ̄


204 :デフォルトの名無しさん:03/04/03 15:23
(・∀・)

205 :デフォルトの名無しさん:03/04/03 15:26
OCRだな。

206 :デフォルトの名無しさん:03/04/03 15:35
http://www5b.biglobe.ne.jp/~ryo-kyo/osu.html

http://my.vector.co.jp/servlet/System.FileDownload/download/ftp/0/279026/pack/win95/game/table/pachinko/sikisai.lzh

207 :デフォルトの名無しさん:03/04/03 15:42
>>206
これはなんの宣伝?

208 :デフォルトの名無しさん:03/04/03 20:57
>>200
メス豚 尻 挿入

これで検索した後、それらのサイトのリンク集を使う

209 :デフォルトの名無しさん:03/04/03 22:23
セマンティックウェブのように、
オントロジー使って似た概念や連想される概念も拾えるようにするとか。

210 :デフォルトの名無しさん:03/04/04 03:17
セマァウァントゥイェック

211 :デフォルトの名無しさん:03/04/04 11:53
>>209
社内文書や図書館ならともかく、WWWでそういう「あいまい」検索すると、
際限なくゴミを拾う事になる。
やはり自分で考えたテキストマッチが一番。
検索語を己で考えられないような人は、検索エンジンを使わなくてよし。

212 :デフォルトの名無しさん:03/04/04 12:14
>>211
日記と2chばっかりひろいそうな予感

213 :デフォルトの名無しさん:03/04/04 12:24
日本語のページがある程度優先的に上にくるようにして

214 :デフォルトの名無しさん:03/04/04 17:15
>>209
http://pc2.2ch.net/test/read.cgi/tech/1039316509/
セマンティックウェブについて語るスレ
http://pc2.2ch.net/test/read.cgi/tech/1035299493/
エンタープライズ・オブジェクト・オントロジー

215 :デフォルトの名無しさん:03/04/04 17:20
http://netry.no-ip.com/yuichi/archives/000959.html

P2Pとwebの乖離か...


216 :デフォルトの名無しさん:03/04/04 23:58
セマンティックウェブはいらないね
どんなタグがあれば、どんな事ができるか?
という段階でしょ。
タグは人間がつける事になっている時点で糞

217 :デフォルトの名無しさん:03/04/05 10:40
一回ググってそれを表示
これ最強

218 :デフォルトの名無しさん:03/04/05 22:38
1さんは、もう居ないのでしょうか?

219 :1:03/04/05 23:12
いるけど
専門知識を持ってる人はどうもいないようで。



220 :デフォルトの名無しさん:03/04/05 23:53
具体的に 「こういうアルゴリズム/システムではうまくいくかどうか」 という聞き方なら答えられるけど、
「魚は焼くとおいしい食べ方ができる」 なんて大雑把なものでは何とも言えない。
ブレインストーミングするにも、アイデアは全然出てないし。

221 :99:03/04/06 17:37
もう一度原点に帰り、あなたの考える精度について定義しそれを実現させるためのロジックを議論してはどうでしょう?最初に「無関係な結果が多い」ことを書かれていましたが、まずはそのあたりから。

222 :1:03/04/06 20:28
技術的な話のできる人がでてきたら、話しを再開します。

SVMとテキスト処理に関して、誰か話しますか?

223 :デフォルトの名無しさん:03/04/06 21:07
茶筅等で解析して、類似度の高いもの同士の距離が近くなるような高次元のマップを作り、分類の基準とする。
検索結果のリンクをクリックしたあと、セッションが破棄されるまで戻ってこなかったら、検索がそのリンクによって成功したと判断し、検索クエリとページのカテゴリの距離を学習させる。
(URLではすぐ無駄になるため。)

224 :デフォルトの名無しさん:03/04/06 21:13
前もってカテゴリを指定して検索する。
(安易だが強力では?)
[v]ニュース
[ ]ポルノ
このカテゴリ名の抽出も自動でやれればベストかな。

225 :デフォルトの名無しさん:03/04/06 21:28
「検索クエリのブックマーク」機能を作る。
【ブックマーク登録画面】
検索クエリ[ページランク 謎]
内容についてのメモ[ページランク機能についての調査結果]

利用者に同意を得てこの情報を利用し、検索結果の脇に表示する。
一定期間経過後は、検索結果にあわせて誰でも内容の変更が可能。
名付けて「好意の道しるべ」

226 :勹"ノヽノヽノヽノヽノヽ :03/04/08 17:51
Download & Search Bee

227 :1:03/04/08 22:26
ユーザーからのレスポンスで学習したい要望はあるんですが
それは難しいんですよね。
クリックする基準って、タイトルですよね・・・



228 :age:03/04/09 04:12
http://www.isis.ne.jp/

http://www.maromaro.com/

http://www.tomita.net/

本を読もう

229 :あぼーん:03/04/09 04:19
 ( ・∀・)< こんなのみつけたっち♪
http://muryou.gasuki.com/moe/hankaku10.html
http://muryou.gasuki.com/moe/hankaku09.html
http://muryou.gasuki.com/moe/hankaku08.html
http://muryou.gasuki.com/moe/hankaku07.html
http://muryou.gasuki.com/moe/hankaku06.html
http://muryou.gasuki.com/moe/hankaku05.html
http://muryou.gasuki.com/moe/hankaku04.html
http://muryou.gasuki.com/moe/hankaku03.html
http://muryou.gasuki.com/moe/hankaku02.html
http://muryou.gasuki.com/moe/hankaku01.html

230 :かおりん祭り:03/04/09 04:19
http://saitama.gasuki.com/kaorin/
〜oノハヽo〜 / ̄ ̄ ̄ ̄ ̄ ̄ ̄                
  ( ^▽^) < こんなのがございまーす♪ 
= ⊂   )   \_______
= (__/"(__) トテテテ...

231 :デフォルトの名無しさん:03/04/09 11:48
(=゚ω゚)ノ ---===≡≡≡ 卍 シュッ!
http://icrouton.as.wakwak.ne.jp/pub/kks/cnamazu.html


232 :デフォルトの名無しさん:03/04/10 19:34
良スレになるかと思いきや…

233 :1:03/04/12 13:18
SVMも知らない人とアルゴリズムの話はできないよねw
テキストをどう前処理して
SVMやらNNの入力にするかって話でもしたかったんだけどね。
2chのレベルじゃ無理みたいだね。
いやー、残念。

234 :デフォルトの名無しさん:03/04/12 13:28
こうして、1は自分の小さな殻の中に閉じこもっていくのでありました。

235 :1:03/04/12 13:32
>>234
馬鹿が必死だねw

236 :デフォルトの名無しさん:03/04/12 14:05
ここは釣堀ではありません。

237 :デフォルトの名無しさん:03/04/12 14:17
というか >>1 を騙るなら >>1 くらい読んでやれよ。と思った。

238 :デフォルトの名無しさん:03/04/12 14:39
SVGやNNの話題?
頼まれてもお断わりだ。

馬 鹿 が 染 つ る か ら な 。

239 :デフォルトの名無しさん:03/04/12 14:43
SVGってAdobeの?

240 :デフォルトの名無しさん:03/04/12 14:47
SVM だってば。

241 :デフォルトの名無しさん:03/04/12 15:28
それにしても、>>1の不満がよく分からんな。
余計なサイトの具体例がイマイチイメージ沸かない。
検索結果に不満がある人がそもそも、そんなにいないんじゃないかな?

議論がループするけど、抽象化ってのは、
予め、内容ごとにページをマッピングして行くってこと?

242 :デフォルトの名無しさん:03/04/12 18:47
>>1はソースコードを一度も書いたことのない大学生だと予想。
どうせ検索エンジンの技術解説ページどころか、検索方法についてのヘルプも読んだためしがないんだろう。
それでクエリがクソなせいでまともなページがヒットしないのをエンジン側に責任転嫁。
冷静を装ってスレ建てするも、次第に剥がれる化けの皮。
しかも実装方法も問題点も皆目わからないので、大学で識った技術の略称を連呼して煽るだけ。
マジ使えねえなこいつ。

243 :デフォルトの名無しさん:03/04/12 19:27
COM -.com
で検索すると
COM" は一般すぎる言葉のため、 検索には使用されていません
とかでるけど。
これどうにかならないかな?

244 :デフォルトの名無しさん:03/04/12 19:35
ダブルクォートしろや

245 :1:03/04/13 00:33
SVMすら知らない奴がこんなに釣れたw
世の中バカグラマーが多いんだね。

246 :sage:03/04/13 00:46
SVMって何ですか?

247 :デフォルトの名無しさん:03/04/13 01:15
Sugoku Violence-na Mama

248 :デフォルトの名無しさん:03/04/13 05:24
>>1はもう出て来なくていいよ。
それより>>99に商用検索エンジン開発の苦労話きぼん。(守秘義務に触れない範囲で)
その方が良スレになると思われ

249 :デフォルトの名無しさん:03/04/13 11:21
また自作自演ですか。
うんざりです。

250 :デフォルトの名無しさん:03/04/13 11:23
だからぁ、SVMって何なのよ。

251 :これぐらい自分で調べろ:03/04/13 11:49
http://mimi.aist-nara.ac.jp/~taku-y/private/applet/svm/

252 :デフォルトの名無しさん:03/04/13 12:24
まあサポートベクターマシンとかニューラルネットとか利用した
検索エンジンなんて作っても、遅くて誰も使わないだろうな。

253 :デフォルトの名無しさん:03/04/13 15:13
>>1は妄想がお好きなようだ
おそらっく完成もしないし
誰も使わない罠

市ね

254 :デフォルトの名無しさん:03/04/13 15:17
シソーラスを検索傾向から自動的に生成していく
検索エンジンってどうかなあ

同じ時期に同じユーザーによって連続して検索された
言葉は相関の高い可能性が高いということで


255 :デフォルトの名無しさん:03/04/13 15:20
googleとかlycosとかのサーチエンジンでヒットした上位サイトを
集中的にアクセス(ネット上に分散した端末総動員)してヒット率を
ゆがめる。後は下位のサイトのサーバーをアタックしてアクセス率を
下げる。これで完璧。

256 :デフォルトの名無しさん:03/04/13 15:56
>>254
特許出願しますた。

257 :デフォルトの名無しさん:03/04/13 18:51
メタサーチエンジンという言葉も知らないバカがいるな・・・

>まあサポートベクターマシンとかニューラルネットとか利用した
>検索エンジンなんて作っても、遅くて誰も使わないだろうな。
すごいバカがいる・・・
こんなバカがいるとは・・・



258 :デフォルトの名無しさん:03/04/13 21:09
>>256

2chに書かれた時点で公知の事実では  とマジレスしてみるテスト

259 :デフォルトの名無しさん:03/04/14 01:49
上の方でDBの話題が出てたけど、
RDBMSがダメとなるとどのような形式のDBになる?

260 :デフォルトの名無しさん:03/04/14 01:59
検索システムの勉強で、とりあえずManagingGigabyte読んでみたり。

261 :デフォルトの名無しさん:03/04/14 03:23
アルゴリズムの類よりも、ハードウェアトラブルの方が興味あるなぁ。
googleは10000台以上のPCを使ってるって話だけど、1日に何台故障してんだろ?

262 :デフォルトの名無しさん:03/04/14 05:46
>>1 何をもって厳選されたと判断する?それは個人の主観によるだろ?
感性について人間に遥かに及ばないPCにそれが可能と思うか?
プログラマならそのくらいわかるだろ?



263 :通りすがり:03/04/14 12:13
クラスターだから
一台くらい壊れても兵器

264 :デフォルトの名無しさん:03/04/14 12:21
平気か平気じゃないかの話じゃなくて、故障率に興味があるってことでしょ。
クラスタだなんてツネシキ

265 :デフォルトの名無しさん:03/04/14 12:26
故障率なんてハード固有の問題でクラスタと関係ないじゃん

266 :デフォルトの名無しさん:03/04/14 12:30
ないだろうね。
それだけの大規模な運用の実例が知りたいってだけでしょう。

267 :デフォルトの名無しさん:03/04/14 16:18
文字の出現位置の距離を指標にいれてるエンジンってあるんだろうか?知りたいです。

268 :デフォルトの名無しさん:03/04/14 21:07
>RDBMSがダメとなるとどのような形式のDBになる?
質問の意図がわからないけど、
RDBを自分でプログラム書いて作る事はできるよね?

mySQLなどの汎用RDBというのは
インターフェースとしてSQLという形式のフォーマットで
データを出し入れするわけだ。
でも、自分で作るならSQLにこだわらなくてもいい。
データ構造も自分の好きなように作れる=好きな型を作れる。

こうする事のメリットは
ちょっと速くなることと、
DBを作る苦労をすれば、DBを操作するオペレーションが
わかりやすい物になる事。

269 :デフォルトの名無しさん:03/04/14 21:07
> 何をもって厳選されたと判断する?それは個人の主観によるだろ?
個人の主観の平均値でいいんじゃ?

270 :デフォルトの名無しさん:03/04/14 23:01
>>267
実際のどのシステムで使われているかどうかは知らんが、
その手の論文に言わせると、使われているものはよくあるらしい。

271 :デフォルトの名無しさん:03/04/14 23:05
類義語のほうがヒット数多いときは、そっちも候補として表示してほしい。
このまえ専門用語で検索してもヒットしなかったんで、略語で検索してみたらイパーイヒットしたよ。

272 :デフォルトの名無しさん:03/04/14 23:30
>>264
協調フィルタリングなど、その辺をくみ上げようという考えもあるけどね。

273 :言語処理屋:03/04/14 23:50
>>271
汎用エンジンだと類義語って判定が難しいんだよね・・・。
専門分野によって同じ単語でも意味違ってくるし。

分野ごとにシソーラスを用意して、インデキシングのときに
文書をクラスタリングすればいけそうだけど。

274 :デフォルトの名無しさん:03/04/15 18:41
>>268
なるほど。
このスレの話の流れからRDBMS自体が検索エンジンのDBには
向かないのかなぁと思ってました。


275 :デフォルトの名無しさん:03/04/15 23:31
>>274
正規化の考えを取り入れることはあっても、そのものを使うことはあまりないかなぁ。
最近はデータベース界も新しいアルゴリズムの発表とかあって、
それらを実装して実験しなくちゃいけないのだけど、時間が足りないもそ


276 :デフォルトの名無しさん:03/04/15 23:40
>>274
RDBを使っているケースのほとんどが
データ検索をRDBに任せているけれど
サーチエンジンの場合は
データ検索アルゴリズムを考える事が肝であり
そこを工夫しないと、とんでもない事が起こる。



277 :デフォルトの名無しさん:03/04/16 00:39
とりあえずnamazuを改造してみたら?
namazuのクラスタなんとか検索とかランキング検索パッチとか実験で作ってる人いたじゃん。あんな感じで

278 :デフォルトの名無しさん:03/04/16 01:21
>>276
どんなとんでもない事が起こるのでしょうか?

279 :デフォルトの名無しさん:03/04/16 01:24
>>267
Google はページ内での各キーワードの位置も重視します。
Google の結果は、ユーザーが指定したすべてのキーワードを含むだけではなく、
そのページ内でそれらのキーワード間の近接度も分析します。
他の多くのサーチエンジンとは異なり、
Google ではキーワードの近接度に従って検索結果の順位付けを行います。
キーワードが近くに一緒にまとまっている検索結果ほど優先されるので、
関係のない結果を排除する手間を省くことができます。

280 :デフォルトの名無しさん:03/04/16 01:50
MySQLはFULLTEXT index張れば全文検索バリバリっすよ。
RDBMSで十分っすよ。

281 :デフォルトの名無しさん:03/04/16 03:01
>>267
昔のlycos とかだと スーパーサーチで明示的に指定できたと思う。
つか、その頃の感覚では、そういったオプションは珍しくなく感じてたので、
他の検索サイトも似たようなオプションがあったかも。
# この辺の感覚は昔に戻ってほしい…

ま、今は明示されてない&他の評価方法も強い、ってな感じで目立たないだけと思うけど。

282 :デフォルトの名無しさん:03/04/16 14:42
>MySQLはFULLTEXT index張れば全文検索バリバリっすよ。
>RDBMSで十分っすよ。
1ページの平均走査時間を100msecとしよう。
googleには
3,083,324,652
だけページの数がある。
従って
3,083,324,65200msec
3,083,324,65sec
5138874min
85647h
3568day
10year
従って、indexを作るのに10年かかる


283 : :03/04/16 20:33
>>280

Indexingももちろんですが、問題はクエリ処理の方が大きいです。
日本語をバラしてtoken作ると10億通り以上になるんです。これに
URLが紐付いてるわけです。URLはもちろん文字列で持ってたら破綻
するのでhashします。tokenもね。これを0.1秒とかで同時に検索要求
を受けて処理するには・・・おわかり頂けますよね?

私は某大手携帯サイト向けにDBとネットワーク設計の提案(受注できま
せんでしたけどね。)に携わったのでその負荷計算しましたが、商用
のWeb検索ではRDBMSでは非現実的です。

284 :デフォルトの名無しさん:03/04/16 20:59
個人レベルでサーチエンジンやりたいっていう場合に
使えるパッケージはnamazuくらいしかないの?

285 :デフォルトの名無しさん:03/04/16 21:23
サーチエンジンやるためのフリーウェアなんてないよ
namazuは全文検索ができるだけ

286 :デフォルトの名無しさん:03/04/16 21:44
>>283
じゃあやっぱりRDBMSってダメなんか。

287 :デフォルトの名無しさん:03/04/16 21:45
ロボット部はともかくとしての話で

288 :283:03/04/16 22:03
>>286

目的如何ではダメだということです。

というか、DB構造自分であれこれ試行錯誤しながらコアな検索部分の
ロジックを考えるのが醍醐味なので何故RDBMSに固執するのかが私には
あまりよく理解できませんので一概に否定するつもりはありませんけど。

ところで、ここは、「超高機能なサーチエンジン」を作るスレですよね?
原点に帰り「超高機能な仕様」を決めませんか?シソーラスっぽいギミック
的な部分より、まずコアな仕様として、
1. Web情報収集(クローリング)
2. Indexing , Scoring
3. 表示
に分けて議論しませんか?前提として1億URL程度を対象とする。1秒間に
100クエリ程度。この条件では如何でしょう?某携帯の場合の想定は1000ク
エリでしたが。


289 :デフォルトの名無しさん:03/04/16 22:05
sufary は駄目かなぁ(個人利用)

290 :283:03/04/16 22:12
例えば

1. Web情報収集では
ページ毎の更新頻度はマチマチですよね?また明らかにニュースサイトの
ようにPRが高い上に更新頻度が超高いURLを別DB化し他のURLとは別に高速
巡回しindexing & mergeする際、それをどういうロジックによって認識さ
せるのが吉なのかとか、どう思います?httpgetで返してくる更新日って
webサーバーによって違うので正確じゃないし、かといってファイル自体の
dateを拾うとすれば負荷がかかる。またニュースサイトであるという認識も
完全自動は難しく人手が必要ですが、何とかロジック化できれば、何段階か
の巡回頻度別にDBをわけることでより効率よく最新のWeb情報を反映できるの
ではないかと思います。

291 :デフォルトの名無しさん:03/04/16 22:36
て言うか言い出しっぺは何処よ?

偽られるのが嫌なら、トリップ付けて出て来いよ。

292 :デフォルトの名無しさん:03/04/16 22:41
>>289
SUFARYのページ死んでない?
Saryにやられてしまいましたか。

293 :デフォルトの名無しさん:03/04/16 22:47
suffix array を使った検索システムなら、
http://www-imai.is.s.u-tokyo.ac.jp/~sada/iss/
どうよ?

294 :1:03/04/16 22:48
言いだしっぺは俺だけど

サーチエンジンを作ろうといった時
おおまかに2つの方向性が考えられるわけだ。
1つは
1つの具体的な目標を設け、既存の技術を使って、それを実装する。
もう1つは
1つの抽象的な目標を設け、新しい技術を開発し、それを実装する。

俺は後者をやりたかったわけ。
1に書いてる事はもちろん謙遜で言ってる。

>>283
が言ってるのは前者だよね。
それほど興味が無いというのが本音。

295 :291:03/04/16 23:00
>>291
だから、トリップ付けてくれよ。。偽が湧いて荒れるから……。

296 :291:03/04/16 23:01
>>295
>>291>>294

漏れがトリップ付けて銅酢ん打。

297 :280:03/04/17 00:31
>>283
はぁ。。僕、厨房なのでまだ何が大変なのか良く分からないっす。
1台で全部やったら大変でしょーけど、ぐぐるみたくクラスタ使って
パーティショニングすれば1台あたりのページ数はずっと小さくできますよね?
並列に処理すればindex時間は短縮できるし、
1台で扱うtokenの数もずっと小さくなるんじゃ?
それはRDB使うか専用DB使うかとは独立に作り込む部分だと思うっす。

298 :デフォルトの名無しさん:03/04/17 00:36
>>296
いや、目標はいつだって具体的じゃなきゃだめだろ。
ブレインストーミングがしたいだけならいいが。

299 :デフォルトの名無しさん:03/04/17 00:46
>>294
気持は分かるぞ。今更googleと同レベルのもの作ったってしょーがねーしな。


300 :300:03/04/17 00:52
>>290
こんな感じか?
ttp://www.ntt.co.jp/news/news02/0212/021203.html

301 :デフォルトの名無しさん:03/04/17 01:41
>>297
google が全部でどれだけのコンピュータを使っていると思う?

302 :280:03/04/17 02:04
万単位で持ってるとか聞きましたが正確には何台ぐらいあるんすか??
仮に1万台に分散して良いなら1台当たり30万ページ載せれば
30億ページindexできちゃいますよね。
30万ページならMySQLでも十分イケそうに思います。
秒間100クエリぐらい楽ショーじゃないすか?
SCoreとか使って1万台ぐらいのクラスタ組めるんでしょーか?

303 :デフォルトの名無しさん:03/04/17 02:05
サーチエジソンならなんとか・・・

304 :デフォルトの名無しさん:03/04/17 09:55
>>303くだんねーこと書くから流れが止まっちまったじゃねーかゴルァ!

305 :1:03/04/17 19:29
>いや、目標はいつだって具体的じゃなきゃだめだろ。
具体的な目標は、発想の幅を狭める。

言い方を変えれば、
計画通りに技術を開発する事は不可能。
偶然できた技術を柔軟に使いこなす事が大切。

>>302
前文検索するシステムを作りたいのか?
それともサーチエンジンを作りたいのか?
どちらにせよ、相当慎重に作らないとね。
例えば、「あ」というものにマッチする文書を検索したら落ちるよ。
1万台で秒間100クエリで
1台あたりの平均データ通信量を1kとした時
マスターになってるマシンは、一秒間で1Gのデータを処理するわけだ。

306 :デフォルトの名無しさん:03/04/17 19:40
インデックス貼るとかのほかにさ、日本語と英語ではあいまいさの扱いが違ったり
することも考えてね。namazuのワード単位検索は辞書命だし。これだけみんなが
しのぎを削ってるのだから、一筋縄ではいかんと思ったほうがいいよ。

307 :デフォルトの名無しさん:03/04/17 19:57
>>305
支離滅裂ですな。

308 :デフォルトの名無しさん:03/04/17 20:24
>1
何か完成させた事ある?
いつも妄想だけで終わってない?

309 :280:03/04/17 20:46
>>307
> 支離滅裂ですな。
そうなんですか?
僕はさすが1さん、と思いましたが。。

310 :デフォルトの名無しさん:03/04/17 21:12
まず>>1はトリップつけろ。

google並みの検索サイト作るには、
1万台規模のクラスタリングマシンが必要になる。
もうこの時点で、このプロジェクトは破綻してるわけだ。

しかし実装うんぬんは別として、現状の技術(例えばNamazu)について
このスレで知識を深めて、
Indexingするときに一工夫いれた電気Namazuとか作れないだろうか?

311 :283:03/04/17 21:28
>>1

私は単純に、「超高機能な」をもう少しdiscussionして頂きたいですね。
特にあなたの意見をもっと色々お聞きしてみたいですね。

みなさんへ
「1つの抽象的な目標を設け、新しい技術を開発」これ前に進めませんか?
抽象的な目標が超高機能だけでは少し広すぎて散漫になり過ぎませんか?
それとももう少し好き勝手に語り合った上で意味のありそうなトピックを
抽出して適応できる技術を掘り下げてみるとか?

>>280
ということで、このスレは既存技術について語るスレではないので、もし
何故?を掘り下げたい場合は別の場があればそちらに詳しくレスします。

312 :デフォルトの名無しさん:03/04/17 21:44
つまり>>1はアイデアも無しにスレをたてた夢想家だった、というわけですね?

313 :283:03/04/17 22:02
>>312

そう言わずに。夢想でもいいじゃないですか。もしここから第四世代の
検索エンジンが生まれるなら、それはそれで素晴らしいことですから。

314 :デフォルトの名無しさん:03/04/17 22:05
>google並みの検索サイト作るには、
>1万台規模のクラスタリングマシンが必要になる。

従来の方法では確かにそうだが、
画期的な新しい方法でその常識がくつがえされるかもしれないだろ。

315 :デフォルトの名無しさん:03/04/17 22:17
>>314
アホですか?あなたは。

アメリカを始めとする世界中の企業やら大学の頭のいいやつが、
毎日毎日、頭を使って検索の事ばっかり考えてるんだぞ。
今この時間にも、検索エンジンのエキスパートが、
頭をフル回転させて新しい技術は無いか知恵をしぼってるんだよ。

ここで理想論をチマチマ話して、そんな画期的な事ができるわけねーだろ。
1万台規模のクラスタリングを素人さんが、ちょこちょこっと考えて大幅に減らせるわけねーだろ。

世の中なめるのもたいがいにしろ。

316 :283:03/04/17 22:50
>>315

まぁ、確かにそうかもしれませんが、この場はビジネスではないし、
空論で終わる可能性が極めて高いけど可能性自体と否定することも
ないのでは?

317 :280:03/04/17 22:52
>>315
これ見てください。
ttp://www-db.stanford.edu/pub/voy/museum/pictures/display/GoogleBG.jpg
当時大学生だったBrinとPageがGoogleを開発してたマシンです。
最初から1万台は無理だけど、理想と閃きさえあれば大した設備がなくても
ブレイクスルーできるんじゃないですか?

318 :bloom:03/04/17 22:55
http://www2.leverage.jp/start/

319 :デフォルトの名無しさん:03/04/17 23:02
>>317
どちらにしろ、いきなり全世界規模の HTML ファイル数を考えるから破綻しそうになるんだよ。
始めはこつこつ、数万ファイルくらいから始めるがよいだろうね。

ちなみに、インターネット上のデータは、半年で2倍になっているらしいね。
これは HTML,XML 以外バイナリデータも含んでいるけど。
ムーアもびっくりだ。

320 :デフォルトの名無しさん:03/04/17 23:15
マシン台数でGoogleに勝つには、
P2Pでインデックス情報とページランキング情報を交換し合うくらいしか無いような飢餓。

321 :デフォルトの名無しさん:03/04/17 23:29


     天才は思いついた後、地道に考えるけど、
     バカって思いつきだけで終わるよね

この違いをバカは知らない

322 :デフォルトの名無しさん:03/04/17 23:31
>>321は馬鹿だと?

323 :デフォルトの名無しさん:03/04/17 23:37
一般的なサーチェンジンじゃなくて、
なんらかの専門分野のサーチェンジにしとけば、
適当なマシーンで十分いけるけどな。

324 :デフォルトの名無しさん:03/04/17 23:48
>>320P2Pは技術的な問題もあると思うけど、どうやって普及させるかっていうのもあるよね。とりあえずapacheのモジュールとかにしてみるっていうのくらいしか漏れにはおもいつかないが....

325 :デフォルトの名無しさん:03/04/18 10:17
DNSサーバーのような分散型ってのは?

326 :ごみ垂れ流し:03/04/18 10:45
・元データは何?
  ブラウザキャッシュ?
  ブックマーク+手動評価?
  それ以外の手動登録?
  まさかの個別ロボット?
  単騎及び、一部専用ノードのロボット収集?

・検索処理はどこで?
  鯖側
  →インデックス化(全文の場合)の負荷もあわせると、
   やる気なくしそう(モノによるけど)
  蔵側
  →流量大目(モノによるけど)

・クエリ先は?
  全体
  →なんか効率わるそう
  クラスタ(winny みたいな自己申告クラスタワードの塊?)
  →量少ない?

なんか、全文型より評価付き共有ブックマークの方に思考が流れてしまう…。
ロボ使うと難易度と手間が…。


327 :ごみ垂れ流し:03/04/18 10:47
326はP2Pでやる場合をホゲーと妄想したものでつ

>>324
楽しくなきゃ普及しなそうなので、winny の BBS に相乗りしちゃうクライアントにするとか。

328 :デフォルトの名無しさん:03/04/18 17:59
> そこで、そこそこ時間はかかるけど
> 結果は厳選されているそんなサーチエンジンを作りたいと思う。

3フェーズ敵対型サーチエンジン 「ハヤブサNG」 "HAYABUSA Next Generation"

【アルゴリズム】
入力:キーワードX

フェーズ1 (try)キーワードXでgoogleし、ダメっぽいサイトAを抽出する。
※抽出精度は低くても良いが、誰が見てもそこそこダメっぽくなければいけない。

フェーズ2 (throw)2chにスレッドを立てる。
※例 「Xに関してはサイトAが一番。他はクズ。知らないヤシはヒキコモリ。」
※このアルゴリズムが敵対型と呼ばれるキモのフェーズ。
※板の選別や煽り方に熟練を要する。

フェーズ3 (catch)適当な時間が経過した後でレスを回収する。

出力

【問題点】
日本語以外が不得意(全くダメというわけではないが)

329 :デフォルトの名無しさん:03/04/18 18:35
検索する度にスレが立つか

330 :デフォルトの名無しさん:03/04/18 19:06
自前でサーバーイパーイ用意するより、GoogleAPIを利用した方がずっと安価だな。

331 :デフォルトの名無しさん:03/04/18 20:43
分散型コンピューティングで巨大検索エンジンを   Wired News
http://www.hotwired.co.jp/news/news/technology/story/20030418305.html

>  ウェブ検索会社の米ルックスマート社は、『SETIアットホーム』が
> 宇宙人探しのためにやったのと同じことを、ウェブ検索のために
> 行なうという野心的な計画を進めている。


スレにもってこいの話題だろ?

332 :デフォルトの名無しさん:03/04/19 01:55
グッジョブ

333 :デフォルトの名無しさん:03/04/19 11:38
>>331
面白いね

334 :デフォルトの名無しさん:03/04/19 23:30
>>331
成功するかどうかはどうでもいいが実際に運用してほしいなぁ。
すっげー気にNULL

335 :山崎渉:03/04/20 03:00
   ∧_∧
  (  ^^ )< ぬるぽ(^^)

336 :山崎渉:03/04/20 03:39
   ∧_∧
  (  ^^ )< ぬるぽ(^^)

337 :デフォルトの名無しさん:03/04/21 01:10
から揚げ

338 :デフォルトの名無しさん:03/04/21 21:35
ttp://live2.2ch.net/test/read.cgi/news/1050765578/
ttp://news2.2ch.net/test/read.cgi/newsplus/1050771700/
2ちゃんねる検索β版。LIVEなスレやレスをリアルタイムで検索できる
らしいんだが、リアルタイムに検索できて嬉しいことなんてあるのか?
漏れには思いつかん。

339 :動画直リン:03/04/21 21:36
http://homepage.mac.com/hitomi18/

340 :デフォルトの名無しさん:03/04/22 00:21
>>326
共有ブックマークというとblinkとかいうのがありませんでしたか?
最近あまりきかないので盛り上がってないのでしょうか。

blogの基本はリンクに対するコメント、という捉え方が正しいなら、
ある程度大きなblogのコミュニティの集合があって、
それをカバーするそれなりに強力な検索エンジンがあれば
共有ブックマーク的なものになったりしないでしょうか?

326さんは何かアイデア(や妄想)をお持ちなのでしょうか。


341 :デフォルトの名無しさん:03/04/22 01:57
 一文、奇数個の否定形、組み合わさるとネガティブになる組み合わせの言葉・・・
・・

342 :デフォルトの名無しさん:03/04/22 17:23
メモリが1G以上積める1Uのサーバ譲ってください。。
http://pc.2ch.net/test/read.cgi/linux/1031975012/l10

これだ。ひろゆきは本気らしい。

> [27] 名前: ひろゆき ◆HRUNYAXA | sv@2ch.net 投稿日: 02/09/14 13:03 ID:/NZMwIXQ
> 今回の検索サービスはhtml化した過去ログは想定外で、
> ライブなスレッドだけを対象にしてます。
> ライブなスレッドの数は203928個です。

343 :デフォルトの名無しさん:03/04/23 20:50
>>1
調子はいかが?

344 :1:03/04/23 21:07
元気だけど
学校が忙しくてね

345 :デフォルトの名無しさん:03/04/23 21:56
>>1
いっそのこと、メタでやってみたら?
スコアリングとか、詰めていけばけっこう面白いかもです


vivisimo愛好家より

346 :デフォルトの名無しさん:03/04/27 12:45
vivisimoか
漏れも使ってるよ

スレ違いsage

347 :デフォルトの名無しさん:03/05/05 13:08
ところで普通のサーチエンジンっておまえら作れるの?

348 :デフォルトの名無しさん:03/05/05 14:47
ファイル共有ならぬブックマーク共有
+
ページランキングならぬリンクランキング
厳選されたブックマークが得られそうな予感

349 :デフォルトの名無しさん:03/05/05 15:48
ひとまず日本語について勉強しなきゃなぁ・・・
たしかに プログラミング VB って検索して出てきたホームページ行くと
日記とかに出くわしてやる気が失せるときもあるしなぁ。

たとえばキーワードで検索した後、その人がどのホームページに何分いたかを調べて、
たとえば5分以上であれば、まぁいいサイト。5分以下だと悪いサイトって感じにするのもイイって
あまり技術もない俺が何も言えんが。
しかもこれじゃストーカーみたいだ・・・

あとはtitleタグだけで検索するとか。ある程度タイトルは厳選されているから。
ただこれも画像で済ませる人がいるから無理か・・・

350 :デフォルトの名無しさん:03/05/05 16:23
検索エンジンは昔から、誰かが新手法を考えると、
その新手法を逆手にとって訪問者を増やそうとする人間がノイズを増やして
結局新手法が役に立たなくなる、という歴史の積み重ね。

手法や閾値が公開されていない手法が最善の手法なんと違いますかね?

351 :>1:03/05/05 22:06
高機能かどうか分からないが、
n-gram

WebPage を無制限に拾っても、結果表示一秒以下。
テキストマッチが最後には重要... 単なるテキストマッチはスパムに弱いか

352 :デフォルトの名無しさん:03/05/06 01:14
こんなスレがあると、今はまだ言えないアレやソレを書きたくなっちゃうから
さっさとDAT落ちしろよ。

353 :デフォルトの名無しさん:03/05/06 07:15
>>352
書いてスッキリすれば(w

354 :デフォルトの名無しさん:03/05/07 10:14
2ch ブラウザ程度の規模で、ログのキーワード検索をする上で参考になるようなページはありますか?


355 : :03/05/08 21:42
>>349

>あとはtitleタグだけで検索するとか。ある程度タイトルは厳選されているから。

今でもというかずっと昔からtitle:を付ければ可能なのだが。意外と種々の検索式は
知られていないようだ。

356 :デフォルトの名無しさん:03/05/10 09:05
つか、最近検索式って目立たなくなったよね。
フレッシュアイの検索博士がいつの間にか復活してて、ちょっとうれしかったり。
中身TOCCだけど。

かんけいないけどさ。

357 :デフォルトの名無しさん:03/05/10 09:26
ほとんどのユーザは検索式を使った検索をしないからね。

358 : :03/05/10 21:01
>>358

そうなんだよね。しかも1word一発で最上の結果を要求される。
その実求めているものは違う。

 アイドルの画像、アダルトサイト、公式サイト、掲示板のスレ・・・

入力されたwordから完璧に自動判別できれば、勝手に内部でフィルタかけたりできそうだって考えて実装研究したんだが、結構うまくロジックにならないんだよ。

大勢のニーズの最大公約数を満たすスコアリング手法がPageRank TM 以上のものを見つけたいと思ってるのだが難しいね。
誰かアイディアないかな?

359 :デフォルトの名無しさん:03/05/13 20:57
Webをカテゴリ分けしたいんだがそうゆうサービスってどこかやってる?

360 :デフォルトの名無しさん:03/05/13 21:54
>>358
流石に「アイドルの画像」だけで期待している結果が出たらまずいだろ。
深田恭子を見て「かわいい!」と喜ぶ奴もいれば、「でぶ?」と思う奴もいる。
言葉は同じでもそれぞれの人間が期待している内容は全然違うってこと。
だから、「入力されたwordから完璧に自動判別」てのは根本的に無理、不可能。

で、ここからが本題。
ユーザ向けに自動でカスタマイズされてく検索クライアントなら何とかなりそうだろ。
検索自体はgoogleAPIを使うとして、検索式を自動で補完する仕組みを考えてくれ。

361 :360:03/05/13 22:36
>>1 すまん。
何だかログを見てたら自分で作った方が早いような気がしてきた。
とりあえず、全自動カスタマイズは後回しにして
filetype:とかsite:とかを工夫してみる。

362 :デフォルトの名無しさん:03/05/13 22:40
>>360
期待してますよ

363 :デフォルトの名無しさん:03/05/13 22:40
2ちゃんねらーだったら、site:2ch.net が自動的に付くわけですな。

364 :デフォルトの名無しさん:03/05/14 07:15
>>363
それはそれで困るかもw

365 :360:03/05/14 13:15
とりあえずメモ。
・advanced_searchの項目は全部GETのq=以下で送っている。
APIは無くてもいい。URLに直接書いても動く。
・advanced_searchでは同じextのOR検索は選べないが、
"filetype:pdf |filetype:ppt"と直接いれれば可能。
しかし、"filetype:pdf|filetype:ppt"とすると
"pdf|filetype:ppt"を拡張子とみなされて失敗。
パージングの条件が変わるらしい。
・phrase検索のときword-wordとword=wordや"word word"の結果が違う。
何故?

366 :デフォルトの名無しさん:03/05/14 13:16
googleAPI使ってる時点で負けだな。
つーか考え方自体が全然ダメ。
検索式の自動補完なんてやったってユーザーは喜びません。


367 :デフォルトの名無しさん:03/05/14 13:54
>>366
さて、それはどうだろう?
話の腰を折るのは止めて、とりあえず、結果を待ってみてはいかが?


念のために言っておくけど、漏れは360じゃないよ。

368 :360:03/05/14 17:44
さらにメモ。
・googleは日本語の助詞を正しく取り除いていない。
・クエリの q= に直接日本語を打ち込んでも検索できた。
googleAPI関連のドキュメントより。
・日付制限
q=searchword+daterange:2452122-2452234
ジュリアン日付で一日単位で制限できる。
・検索範囲の制限
lr=lang_ja|lang_en
restrict=linux.conutryUS
言語やトピックの制限にもブール演算が使える。

369 :デフォルトの名無しさん:03/05/14 20:58
>>360
アク解は遠慮してね

370 :エンジンニュース:03/05/15 18:45
関連記事です。

http://internet.watch.impress.co.jp/www/article/2003/0515/pagerank.htm
Googleで使われている「PageRank」高速化手法をStanford大学の研究者が発見

371 :デフォルトの名無しさん:03/05/16 15:33
やっぱ最強の検索エンジンは人力だと思うよ。

372 :デフォルトの名無しさん:03/05/16 18:25
文脈自由文法か正規表現に対応してほしい。

373 :デフォルトの名無しさん:03/05/16 18:33
>>360
調子はいかが?

>>371
はやぶさ、ですなw

374 :デフォルトの名無しさん:03/05/16 20:26
タグを抜いたページのキャッシュをバッチリGETし鯖に保存して置き、
それを次回クロール時から1バイト単位で重量比較監視する。
重さに変化が見られれば、検索結果にそのページを表示させる。
つまり、初出URLは一度目からは検索対象にしないということ。

半年間変化が無いものは検索側の結果表示から排除する。
その後も監視しつづけ、また変化があれば検索に載せる。

つまりWWWCを数十億ページ単位でやるような感じ。
人がやって数百も無いページ数でも管理が大変なんだから、
それをいかに自動化させるかが問題。とにかくハードが大変。


--よいページとは随時更新され続けるページのことである-- by 名無し語録

375 :デフォルトの名無しさん:03/05/16 21:15
訪問数と時間軸が波形になっているもの
周期が安定、
ほし

376 :デフォルトの名無しさん:03/05/16 22:13
>>374
ますます日記サイトのヒット率が上がる罠。

377 :デフォルトの名無しさん:03/05/17 07:11
>>376
だね
検索ノイズが増える罠

378 :374:03/05/17 09:19
>>376-377
んぁ 確かに。
自分でも普段から検索に個人の日記が引っかかることが
鬱陶しいと思っていたことを忘れていた。

でも良いサイト(ページ)は土日祝日以外は毎日更新しているところだと
思うんだよね。それを評価基準に生かせないかと

379 :デフォルトの名無しさん:03/05/17 12:03
だから今の検索エンジンがどんなに性能アップしようと
Webのカテゴリ分けができないとノイズが減らないのよ。

380 :デフォルトの名無しさん:03/05/17 12:55
 同じ単語検索もその周りにある文字の象意によって表示
をかえる


381 :デフォルトの名無しさん:03/05/17 15:42
>>378
ただ、日記の中にも、公式技術文書にはそんざいしない、
その個人特有の環境に基づく役立つ技術とかあって、完全排除は困る。
>>379 のような分類後に、選択が可能でないと。

例:
・Unix系OSの作業でとらぶったときに
・ある商品の評判・評価・とらぶる例を知りたいときに

382 :デフォルトの名無しさん:03/05/17 17:04
goo最速ニュースの検索式は
http://news.goo.ne.jp/news/search/search.php?kind=web&day=all&MT=
だと結果が???になるので修正してほしいのですがよろしくお願いします。

383 :デフォルトの名無しさん:03/05/17 20:00
>>382
マルチポストはお勧めできませんな

384 :デフォルトの名無しさん:03/05/17 20:08
>>378
更新頻度でサイトの質を測る、という考え方には同意できませんね
放置されてる学術論文とか、web上には有意な情報が多く埋没してるので

385 :381:03/05/18 01:54
>>383
ここで2件目で他には書きませんのでそこを何とか……駄目ですか……。

386 :デフォルトの名無しさん:03/05/18 05:16
>>382
gooの中の人に言ってるのか?こんなとこ読んでないと思うぞ。
MT=以降をEUCでURLエンコードすれば済む話だ。
あと、あまり高頻度に巡回すると嫌われるから気をつけろよ。1分ぐらいは間隔を空けてやれ。

387 :デフォルトの名無しさん:03/05/18 06:14
単語のカテゴリ分けするの

388 :デフォルトの名無しさん:03/05/18 09:14
マルチポストマルチポストっていってるやつってストーカーだよな.きも.

389 :382:03/05/18 09:48
>>385は382の名前:誤爆です。俺ダメッポ。381さんスンマソ。

http://pc2.2ch.net/test/read.cgi/esite/1031482990/922とここの2件以外は別人です。
>>386ヒントありがとうございます。“EUCでURLエンコード”でぐぐって解決しました。

390 :デフォルトの名無しさん:03/05/18 11:19
http://pc2.2ch.net/test/read.cgi/esite/1031482990/922
>>382,>>385,>>388,>>389

すべて文体まで同じの同一人物じゃねーか 病的な嘘つきだな。


391 :382:03/05/18 11:55
>>390
>ここの2件以外は別人です
ここのスレとhttp://pc2.2ch.net/test/read.cgi/esite/1031482990/922のスレに質問書いたと言う意味だがなにか?

388の時間俺寝てたし。

オマエも病的馬鹿なんじゃねーの晒しage

392 :デフォルトの名無しさん:03/05/18 12:01
>>1
余計だと思うサイトが一致しない限り、
うまくいかないだろ。
てか、Googleは出るサイトが多い。
yahooは出るサイトが少ない。
この差のできるわけを勉強してこい。
そしたら、そんな都合の良いものできないわけがわかる。


393 :デフォルトの名無しさん:03/05/18 12:50
できないと言うだけなら、バカでもできる。

難しい問題に対して、何かアイディアを出す事に挑戦するのが
平均以上の知性を持った人のとる行動だ。

394 :デフォルトの名無しさん:03/05/18 12:52
例えば
あらかじめ100個の質問に答えておく事で
ユーザーの特性を把握して
検索結果を表示する事もできるだろう。

どんなサイトを訪れているかを調べる事で、
ユーザーの趣向を分析する事もできるだろう。

395 :デフォルトの名無しさん:03/05/18 15:06
>>394
で、その個人情報は転売されるという訳でして(-人-)
AllTheWebが最近始めた「クラスタ分け」を、上手い具合に進化させる事が出来れば良いんですけどねぇ

396 :デフォルトの名無しさん:03/05/18 18:38
>>395
個人情報での filter は利用者側が持つ、って形にすれば転売は避けられそう。
今どきの PC なら、それなりに処理能力ありそうだし。

397 :デフォルトの名無しさん:03/05/18 19:57
>>396
検索者側のムラをどう処理するか…
sageの日もあれば、ageの日もある(w
調整バーが必要?

398 :360:03/05/19 02:26
仕事が一段落付いたので復活。

google検索式の入力補完はjavascriptで書いた。
全く複雑なことをしていなくて恥ずかしいが、
欲しい人がいれば上げる場所を用意してくれい。

399 :デフォルトの名無しさん:03/05/20 12:25
>>398
どんなんか見てみたいので公開してほすぃぞ。

400 :金策エンジン:03/05/20 17:10
漏れも見たいぞ。でも場所は持ってない。

401 : :03/05/20 17:29
http://isweb.www.infoseek.co.jp/
http://www.xrea.com/
http://tok2.com/
http://www.hossy.flnet.org/
http://www.world-01.com/
http://e-jts.com/
http://chobi.net/

free cgi可
場所ってそういうことじゃなくて?

402 :デフォルトの名無しさん:03/05/20 19:23
>>398
漏れも見たいっす

403 :360:03/05/20 21:11
正規表現で単語を取り出してfiletype:やsite:を付け足すというスクリプト。
とりあえず、iswebに場所をとってアップする予定。
実は3kBくらいしかないのでアップローダでも充分な気もする。

せめて類義語で展開したいのだが、無料で使える辞書が見つからない。
再配布自由の類義語辞書があったら教えてくれ、または誰か作ってくれ。

404 :デフォルトの名無しさん:03/05/20 21:38
検索結果の上位をウェブログが占める理由
http://www.hotwired.co.jp/news/news/20030520202.html

405 :デフォルトの名無しさん:03/05/21 10:04
 数秘術の人とファイル更新時で検索してみる

406 :デフォルトの名無しさん:03/05/21 14:09
>>1
> 結果は厳選されているそんなサーチエンジンを作りたいと思う。

そうだなぁ。まずは誰か、『優良なページ』の定義を出来るやつはいないか?
話はそこから。

407 :360:03/05/21 21:54
登録終了、適当に使って。
http://threesixty.hp.infoseek.co.jp/

408 :デフォルトの名無しさん:03/05/22 11:01
>正規表現で単語を取り出して
漢字/ひらがな/カタカナ/英数字/記号毎とかに分割するってこと?


409 :デフォルトの名無しさん:03/05/23 00:45
微妙にスレ違いかもしれませんけど、 google で検索するときは、 User-Agent とかを設定しないといけないんですか?

501 Not Implemented
エラーが帰ってきちゃうんですが。

410 :デフォルトの名無しさん:03/05/23 10:25


411 :デフォルトの名無しさん:03/05/23 17:08
>>407
遅レスだけど"past N days"はいいね。
これを手動でGoogleの検索窓入れると
ユリウス日の指定がめんどくさいもんね。
現在の日付と交換してくれるコンバータはたくさんあるけど。
ttp://hi.sakura.ne.jp/~nmaeda/web/jd_calc.shtml
検索結果を最近30日に固定してGoogle最新ってサービスが
出来るかもしれない。

412 :デフォルトの名無しさん:03/05/23 17:42
>>411
これあげる
http://rss-jp.net/googlefresh.cgi

413 :411:03/05/24 04:45
>>412
既にあったんだね。情報どうも。

414 :デフォルトの名無しさん:03/05/24 22:12
サーチエンジンのフリーソフトってありますか?


415 :デフォルトの名無しさん:03/05/25 00:33
>>414
Namazu とかのこと?
それともロボットを使ってページ集めたりもしちゃうもの?

416 :414:03/05/25 01:26
namazu は知ってます.
カスタムなクローリングとインデックス化ができるロボットがほしいです.
それで,いくつかの指定したWebサーバや,指定したドメインに特化した
サーチエンジンがほしいと思います.
例えば2chのサーバだけとか.
サイトを限ることで,新しい情報が収集しやすいし,自分の興味に特化したり,
サーチの質も自分向けにカスタム化できるといいなと思っています.

417 :デフォルトの名無しさん:03/05/25 01:36
suzaku を改造するとか。
http://hoshizawa.no-ip.com/suzaku/


418 :414:03/05/25 01:47
>>417 情報有難うございます.
こういうのを探してました.suzakuを試用してみます.
他にもありましたらお願いします.


419 :デフォルトの名無しさん:03/05/25 21:22
俺はロボットPerlで自作したよ。

420 :デフォルトの名無しさん:03/05/26 01:50
>>419
おれも作った。LWP 使ったら十数行でできた。

421 :デフォルトの名無しさん:03/05/26 02:03
>>419-420
公開きぼんぬ。

422 :デフォルトの名無しさん:03/05/26 02:20
>>421
CTAN から関連ファイルとってきて perldoc すれば、概要がわかる。
指定URLから、リンク一覧をハッシュで取得できるので、
それを芋づる式にたどっていけばよい。

423 :デフォルトの名無しさん:03/05/26 18:59
グーグルのようなページ単位のランキングって
ページ全体にランキングが生じるから
キーワードでフィルタリングされた状態では非常に
疎なランキングになるよね。
しかも、ページランキングの値とキーワードとの
マッチングの評価が不完全になる。

そこで、検索キーワードを持ったページ同士のリンクの距離から
各ページのポイントを決定して(つまりランキングをつける前に
キーワードでフィルタリングしておくような感じ)、しかも
そのページのリンクからなるネットワーク空間の重みもあわせて
優良ページを決定していったら?

複合キーワードはそれぞれのキーワードごとに評価しておいて
ベクトル量を計算すればいいと思うんだけど。

ダメ?

424 :デフォルトの名無しさん:03/05/26 19:54
>>423

> そこで、検索キーワードを持ったページ同士のリンクの距離から
> 各ページのポイントを決定して(つまりランキングをつける前に
> キーワードでフィルタリングしておくような感じ)、しかも
> そのページのリンクからなるネットワーク空間の重みもあわせて
> 優良ページを決定していったら?

TEOMAで実装済みかな?
http://www.zdnet.co.jp/internet/runner/0206/sp1/part3a.html


425 :デフォルトの名無しさん:03/05/26 20:47
うぉ!
勉強になりますた。

426 :423=424:03/05/26 20:53
>>424

フィルタリングしたページと「さらにリンクそのもの」を評価する
って部分もやっぱガイシュツだったですか。
でそうな。誰でも思いつくか。
でも自分のロジックが実用化されてちょっとうれしいでつ。


427 :デフォルトの名無しさん:03/05/27 02:41
>> 424
TEOMAを使ってみた。
期待通りのRefineが出やすい分野と出にくい分野があるのは
関連概念を抽出する方法が全自動ではないから?
面白そうだけど日本語対応は当分無理かもしれない。

428 :423:03/05/27 13:47
>>427

そーなんですか。
特に複合語検索に対してはこれといって新しいものはないようですし。
そこが最大のハードルなんですよねぇ。

ちなみに
426で423=424と名乗ったのはわたしで、423=425の大間違いでした。
424さんめっさごめんなさい。そして有益な情報ありがとうでした。

429 :デフォルトの名無しさん:03/05/27 17:01
luceneでつくりゃー一発だろうよ。

430 :デフォルトの名無しさん:03/05/27 19:28
ちょっと面白い検索エンジン。

検索結果をFlashの地図で表示するメタサーチエンジン「KartOO」がバージョンアップ
http://internet.watch.impress.co.jp/www/article/2003/0311/kart.htm
http://www.kartoo.com/

431 :デフォルトの名無しさん:03/05/27 19:45
>>429
luceneって何?

432 :デフォルトの名無しさん:03/05/27 21:34
>>427
参考記事を拾ってきますた
http://biztech.nikkeibp.co.jp/wcs/leaf/CID/onair/biztech/inet/243260

文字化けはするものの、日本語での検索が可能っぽい

433 :山崎渉:03/05/28 12:38
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉

434 :デフォルトの名無しさん:03/05/28 21:35
http://www.zdnet.co.jp/news/0305/28/nebt_17.html
これは?

435 :デフォルトの名無しさん:03/06/03 21:47
とりあえずageとく

436 :ハッカ飴:03/06/06 19:40
結果の順位をどう並べたいかは人それぞれ、しかも場合によって同じ人でも別の結果を求めるはず。
仕事でとか趣味でとか、会社で、家で‥‥‥

なら、それら全てを見せてしまったらどうだろう?
もちろん見やすい形にはする。

ヒットしたページのうち、上位ページの内容がバラバラになるようにするんだ。
ヒットしたページをさらに分類し、それぞれの分類から適当に1つ取り出せば可能。
検索結果を自動的にディレクトリ分けするという感じ。


437 :ハッカ飴:03/06/06 19:56
そう言えば、どこの検索サイトも検索結果の見通しが悪いな。

スコア順とは言っても、それは検索エンジンによって勝手につけられた点数だし、
各サイトへのリンクは上から下に一列に並べられている。
リンクの先は検索によって絞り込まれているとはいえ、一列には収まらないほど多様なことは間違いない。

検索結果は最大100件程度で、リンク先を知る手がかりはページのタイトルと、
ただ引用した程度の要約だけ。
これ以外の手がかりは検索エンジンが内部に持っているのだろうが、ユーザーが知ることは無い。

結果の出し方は改善の余地があるんじゃないだろうか?

438 :デフォルトの名無しさん:03/06/06 20:32
クラスタリング

439 :デフォルトの名無しさん:03/06/08 20:05
http://www.aivy.co.jp/BLOG_TEST/ankei/archives/000534.html

このスレについて触れてますね

440 :デフォルトの名無しさん:03/06/08 23:46
このスレ読んでて自然言語解析について勉強したくなって
勉強してみたんですが、面白いっすね。難しいけど。

処理自体は機械的? だから形態素解析は辞書が全てな気がする。。。

いや、このスレの話題には直接関係しないですけど。。
すいません。では。。

441 :デフォルトの名無しさん:03/06/09 22:15
>>440
いいんじゃないの?
今後の検索エンジンに望む事とか、今現在あるエンジンへの不満とか。

442 :360:03/06/10 16:13
>>440
形態素解析は辞書が全てと言えないこともないが、
構文解析アルゴリズムも結構重要。
最近のIMは意味解析まで使うのが一般的。
ex.「本に載る」「車に乗る」を一発で変換できる。

本題に戻すとinfoseekは形態素解析を使っているのが、
「犬を食べる」と「犬が食べる」の検索結果が全く同じ。
「犬 食べる」と「犬 食べた」も同様だが、「犬 食べ」は違った。
名詞や動詞の語幹を切り出してAND検索しているのだろう。
精度と速度、データ量のバランスを考えるとこれ以上は難しいかもしれない。

443 :デフォルトの名無しさん:03/06/10 17:55
http://mobeet.ex.nii.ac.jp/

444 :デフォルトの名無しさん:03/06/11 00:45
検索されたページが実は必ずしも自分の嗜好に(思考に)合うかは?
実際に見てみないとわからない。そこで、実際にページを見てみて
好感度を個人毎に登録すべし、その登録された情報に基づき、その人
個人、個人のヒット率が上がっていくってのはどうでしょうか?

当然、ある人の好みと、また別の人の好みは似通っており、嗜好の
類型毎にグルーピングされていき、自分はどのグルーピングにに属して
いるか(どんどん嗜好の濃度が濃く成っていく)によって、そのグルー
ピングの人が好む検索結果が推測されて出力される。

同じ趣味の人のリンク先は、結構自分にも合うかもってことでしょう?
私が望む検索エンジンはこんな感じですかね。
(一般検索の場合にはこの嗜好フィルタをはずすこと)かな?
でも、似通い過ぎて新たな発見がなくなっていったりして、、、
新規のページもヒットしなく成ったりして、、、
でも、ちょっとした工夫で面白い検索エンジンができるかもね。

では、お休みでござる。


445 :デフォルトの名無しさん:03/06/11 00:46
えっちなサンプルムービー多数有ります☆!
http://cg.iclub.to/link/ranran1/

446 :デフォルトの名無しさん:03/06/11 03:44
>>444
何だかwinnyのクラスタみたいな気がした。
まあ、P2Pでも中央集権でもいいのだけど、それ風のフローチャート。
0.各ユーザは検索単語のリストとお勧めURL、お仲間リストを持つ。
1.検索リストが重なっている他のユーザを探す。
2.もし見つかったらそのユーザを自分のお仲間リストに登録し、
3.お互いのお勧めURLとお仲間リストを交換する。
4.1〜3をしばらく繰り返す。
5.お仲間リストの人たちの評価を元に検索結果を出す。
(2回目以降は既にお仲間リストがあるので検索が早くなる)
6.実際に検索結果を見て採点する。
無視したいURLのリストを作っておいてそれをお勧めしている相手は弾くとか、
検索単語が同じでも評価が大きく違う人は無視する仕組みが必要、と。

447 :446:03/06/11 04:02
書いてみて思ったが、
これって検索エンジンよりもblogにかぶるのでは?
「自分の検索結果を良くする」という明快な目的があるから
高品質なものだけをお勧めするようになるだろうし。
紹介文はないけど、逆に二次情報が氾濫しないで済むかも。

448 :デフォルトの名無しさん:03/06/11 12:46
同じ趣味を持つもの云々だったらblink内を検索できるようにすれば
いいんじゃないの。

http://www.blink.jp/

449 :446:03/06/11 13:30
blinkは公開ブックマーク集+採点って感じか、使ってみる。
以下はとりあえずの印象。
・自分に合う人を見つけられれば最高(になると思う)
・宣伝が多い、ヒットチャートは超メジャー多数、などデータに難有り。
・あるURLにリンクした人を検索することが出来ればいいかも。

450 :デフォルトの名無しさん:03/06/13 03:38
ロボット禁止のページだけを探る検索エンジンとか作れば
技術とかカンケーなしに話題性十分だぞ
もちろんアングラとなるがw

451 :デフォルトの名無しさん:03/06/13 16:17
>>450
訴えられないか?
でも確かにrobots.txtは紳士協定だからね。

452 :デフォルトの名無しさん:03/06/13 20:49
>>450
法的にどうなのか、気になるところですね

453 :デフォルトの名無しさん:03/06/18 19:55
>>450
外道エンジン自身は、メタタグやrobot.txtで収集規制してたりしてw

454 :   :03/06/19 21:16
     
http://pc2.2ch.net/test/read.cgi/tech/1039316509/l50

455 :デフォルトの名無しさん:03/06/19 22:14
>>454
セマンティックwebか、、、

456 :デフォルトの名無しさん:03/06/23 21:38
>>450
もう既にあったりしてw

457 :デフォルトの名無しさん:03/07/15 22:16
明日までに作れ。

458 :デフォルトの名無しさん:03/07/17 10:08
まだ1はいるのかな
とりあえず何でもいいから簡単な検索エンジン作ってみれ
テストコレクションは比較的小さいmedを
ftp://ftp.cs.cornell.edu/pub/smart から持ってな(Webデータじゃないけど)
作ったらtrec_evalで11点平均適合率を算出汁

459 :山崎 渉:03/07/18 15:22
 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄

460 :デフォルトの名無しさん:03/07/20 08:34
 時間や閲覧の順路の似た人の見ているページから解析する

461 :デフォルトの名無しさん:03/07/24 18:42
>>452
法的には問題ないだろ。
「リンク先のコンテンツには責任もたねぇぞゴルア」
とか書いとけば。

462 :デフォルトの名無しさん:03/07/25 17:00
高級なスレはあげ.

463 :デフォルトの名無しさん:03/07/25 23:55
まぁ全くもってレベルが低いわけだが
つーか高「機能」って何よ?って話
QAとかも一機能なわけか?

464 :デフォルトの名無しさん:03/07/26 00:08
>>461
直リンお断りって書いてあっても?

465 :デフォルトの名無しさん:03/07/26 00:16
>>464
>直リンお断りって書いてあっても?
断り書きがあったからどうだというのだ?
直リン禁止と書いてあっても法律的には何の拘束力も無い。
ついでに直リンは著作権の侵害にもならない。


466 :デフォルトの名無しさん:03/07/26 00:55
法律 != 道徳、マナー、モナー

(´∀`)

467 :山崎 渉:03/08/02 02:18
(^^)

468 :デフォルトの名無しさん :03/08/13 01:52
>>1は何処に?

進捗があったら書き込んでくれ。せっかくだから。

469 :デフォルトの名無しさん:03/08/13 03:12
http://minoru_god.tripod.co.jp/

470 :山崎 渉:03/08/15 15:35
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン

471 :デフォルトの名無しさん:03/08/16 22:29
google のシステム自体が、たしかギネス認定されていたと思います。

472 :デフォルトの名無しさん:03/08/17 11:15
>>471
インデックス数の事でしょうか?

125 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.02.02 2014/06/23 Mango Mangüé ★
FOX ★ DSO(Dynamic Shared Object)