よしだのブログ

サブタイトルはありません。

Solr

【Lucene / Solr】G1GC か CMS か?

こんばんは!宿題が遅れてすいませんw 今日は、ちょっとポエムみたいになるので余り役に立たないかもしれませんが、G1GC とOSSコミュニティのお話です。 お約束の、この記事は、Solr Advent Calendar 19日目の記事です。 qiita.com きっかけ ツイッター某所…

【Solr】クエリのオペレータが無視される、仕様?!

こんにちは!今日は Solr の小ネタを書こうかと思います。この記事は Solr Advent Calendar 2016 の16日目の記事です! qiita.com qf に存在しないフィールドを含めると、q に指定したオペレータが検索キーワードとして扱われる。 今日ご紹介するのは、罠と…

第19回Lucene/Solr勉強会 #SolrJP

こんにちは!久しぶりの Lucene Solr 勉強会です。 メモを公開しますー。 NLP4Lを使ったランキング学習 株式会社シーマーク 山本 高志 様 第19回 Lucene/Solr勉強会資料 「NLP4Lを使ったランキング学習」 from 高志 山本 www.slideshare.net 講演内容メモ Ap…

SolrCloud のリカバリー処理

こんにちは!ご無沙汰しております。 この記事は Solr Advent Calendar 2016 の 1日目です! qiita.com 一日目の出だしにしてはかなり渋め(アドバンスド)な内容かなと思いますが、SolrCloud のリカバリー処理についてコードを読んだり調べてみたので書いて…

embulk-output-solr を公開しました!

こんにちは! fluentd の兄弟で、オープンソースのバルクローダー Embulk の Solr 用 Output プラグイン embulk-output-solr を公開しました。 ぜひご利用ください。Github のリポジトリは以下です。 https://github.com/yahoojapan/embulk-output-solr 使い…

Solr 6 新機能の紹介

だいぶ時間が立ってしまいましたが、Solr 6 がリリースされました!というわけで、Solr 6 の新機能をドキュメントから調査してみました。調査する新機能は、yonik さんの以下のエントリを参考にしました。*1 http://yonik.com/solr-6/ Parallel SQL https://…

Solr 開発環境構築手順

よしだです。今日は Solr のパッチを作ったり機能追加をするために必要な開発環境の構築手順を公開してみたいと思います。subversion からのチェックアウトからeclipseの環境構築までをカバーします。 前提条件 以下のソフトウェアは導入、設定済みとします…

勉強会メモ - 第17回 Lucene/Solr勉強会

取り急ぎ、公開しておきます! https://solr.doorkeeper.jp/events/32633 タイトル:「Solrの対話型ゲームへの応用」 株式会社リクルートテクノロジーズ 大杉様 / 株式会社NTTデータCCS 鈴木 脳内彼氏具現化計画 (脳カレXGAME) http://atl.recruit-tech.co.j…

Solr 5.0 リリース!

どうも! Solr がメジャーバージョンアップしましたね!いぇい。 というわけで、lucidworks 社のブログエントリーから今回のハイライトを見ていきたいと思います。 Apache Solr 5.0 Highlights - Lucidworks Apache Solr 5.0 Highlights - Lucidworks 所感と…

Elasticsearch 1.4.0 Beta1 のリリースノートに出てきた DocValues とは何か?

先日、elasticsearch 1.4.0 Beta1 がリリースされましたね。前々回の勉強会で聞いていたとおりで、安定性の向上が中心のエンハンスメントでした。詳細は、johtani さんの記事をどうぞ。 elasticsearch 1.4.0.Beta1のリリース - @johtaniの日記 2nd elasticse…

Solr のクエリログを fluentd と kibana で可視化

かなり遅ればせながらですが、ELK*1を試してみました。 Solr は検索機能としては、十分すぎるほどの機能があるのですが、運用系のUIがプロプライエタリな検索エンジンに比べて弱い部分があります。例えば、クエリログの分析画面がそれだったりしますが、そこ…

Solr 4.10 のリリースハイライト

リリースから1ヶ月近く立ってしまいましたが、9月3日にSolr 4.10 がリリースされました。というわけで、リリースハイライトを整理してみました。 http://lucene.apache.org/solr/solrnews.html#03-september-2014-apache-solr-4100-available Solr Cell で…

Solr の block join を調べてみたけど、ちょっと違ったという話。

Twitter でこんな投稿をしていたのですが。Elasticsearch のネストの話で、Elasticsearch のドキュメントの定義は、従来の検索エンジンと異なり、ドキュメントやフィールドをネストでき、子ドキュメントだとか子フィールドを持つことができます。 まぢか、す…

kuromoji のサイトに行くと、トークナイズの処理を分析することができる。

前回の記事の続きです。Solrでうまくヒットしない理由を調べていくと、kuromoji の中に入っている mecab-ipadic という辞書に行き着きました。辞書の中に設定されている、単語コストと連結コストの値がうまく設定されていないということが調べたところ分かり…

Solr + kuromoji で単語の切れ方がおかしかったのでガッツリ調べてみた、理由と調べ方その方法を公開します!

調査のきっかけは「デジタル一眼レフ」という文字列が含まれているフィールドに「一眼レフ」で検索してもヒットしないという現象です。日本語の形態素解析をつかった検索では結構在りがちで、大体ユーザー辞書に登録すれば良くなるのですが*1、今回は表面的…

(Jetty編) Solr にアクセス可能なIPアドレスを制限する。

今回はテクニカルなメモです。 クライアントのIPアドレスで、Solr でアクセス可能かどうかを制限したい要件って結構あると思います。Apache とか Tomcat なら楽勝なのですが、デフォルトの Jetty でやってみると意外とハマったのでメモ。 環境 Apache Solr 4…

Solrでよく勘違いしそうな仕様3点+1

検索エンジン Apache Solr を使ったプロジェクトがそろそろ終了しそうなんですが、勘違い?というか理解不足で若干痛いて戻りをしてしまったのでメモ。間違いなどありましたらご指摘いただけると幸いです。。 グルーピングとソート グルーピング時の sort パ…