読者です 読者をやめる 読者になる 読者になる

よしだのブログ

サブタイトルはありません。

【Lucene / Solr】G1GC か CMS か?

こんばんは!宿題が遅れてすいませんw 今日は、ちょっとポエムみたいになるので余り役に立たないかもしれませんが、G1GC とOSSコミュニティのお話です。 お約束の、この記事は、Solr Advent Calendar 19日目の記事です。 qiita.com きっかけ ツイッター某所…

【Solr】クエリのオペレータが無視される、仕様?!

こんにちは!今日は Solr の小ネタを書こうかと思います。この記事は Solr Advent Calendar 2016 の16日目の記事です! qiita.com qf に存在しないフィールドを含めると、q に指定したオペレータが検索キーワードとして扱われる。 今日ご紹介するのは、罠と…

第19回Lucene/Solr勉強会 #SolrJP

こんにちは!久しぶりの Lucene Solr 勉強会です。 メモを公開しますー。 NLP4Lを使ったランキング学習 株式会社シーマーク 山本 高志 様 第19回 Lucene/Solr勉強会資料 「NLP4Lを使ったランキング学習」 from 高志 山本 www.slideshare.net 講演内容メモ Ap…

SolrCloud のリカバリー処理

こんにちは!ご無沙汰しております。 この記事は Solr Advent Calendar 2016 の 1日目です! qiita.com 一日目の出だしにしてはかなり渋め(アドバンスド)な内容かなと思いますが、SolrCloud のリカバリー処理についてコードを読んだり調べてみたので書いて…

embulk-output-solr を公開しました!

こんにちは! fluentd の兄弟で、オープンソースのバルクローダー Embulk の Solr 用 Output プラグイン embulk-output-solr を公開しました。 ぜひご利用ください。Github のリポジトリは以下です。 https://github.com/yahoojapan/embulk-output-solr 使い…

Solr 6 新機能の紹介

だいぶ時間が立ってしまいましたが、Solr 6 がリリースされました!というわけで、Solr 6 の新機能をドキュメントから調査してみました。調査する新機能は、yonik さんの以下のエントリを参考にしました。*1 http://yonik.com/solr-6/ Parallel SQL https://…

Solr 開発環境構築手順

よしだです。今日は Solr のパッチを作ったり機能追加をするために必要な開発環境の構築手順を公開してみたいと思います。subversion からのチェックアウトからeclipseの環境構築までをカバーします。 前提条件 以下のソフトウェアは導入、設定済みとします…

勉強会メモ - 第17回 Lucene/Solr勉強会

取り急ぎ、公開しておきます! https://solr.doorkeeper.jp/events/32633 タイトル:「Solrの対話型ゲームへの応用」 株式会社リクルートテクノロジーズ 大杉様 / 株式会社NTTデータCCS 鈴木 脳内彼氏具現化計画 (脳カレXGAME) http://atl.recruit-tech.co.j…

Solr 5.0 リリース!

どうも! Solr がメジャーバージョンアップしましたね!いぇい。 というわけで、lucidworks 社のブログエントリーから今回のハイライトを見ていきたいと思います。 Apache Solr 5.0 Highlights - Lucidworks Apache Solr 5.0 Highlights - Lucidworks 所感と…

勉強会メモ - 第8回elasticsearch勉強会

どうも!今日も勉強会に参加いたしました。 今日の勉強会は、初心者向けから上級者向け、ハイパフォーマンスから自然言語処理を活用したディープダイブまで、とかなり幅広く面白い勉強会でした。個人的に面白かったのは、はてなの事例 B!KUMA は Elasticsear…

Elasticsearch と NewRelic の連携について (うまくいきませんでした。。)

これは Elasticsearch Advent Calendar 2014 - Qiita 、8日目の記事です。 Elasticsearch については、このブログや ES Advent Calendar を見ている方には不要かと思います。NewRelic とは、パフォーマンス監視サービスで、ユーザー登録を行い、サーバー上…

Amazon CloudSearch 値下げ! 2014年11月

どうも!Amazon CloudSearch が値下げされたようなので、内容をまとめてみました。 なお、内容の正誤については一切こちらでは保証しませんので、きちんとご自分でご確認くださいますようお願いします。 http://aws.amazon.com/jp/blogs/aws/cloudsearch-pri…

勉強会メモ - 第7回elasticsearch勉強会

どうも!久しぶりのエントリーです。 今日も elasticsearch の勉強会に参加してきましたので、勉強会メモを共有します。イベントの詳細は、こちら↓からどうぞ。 大谷さん、登壇者の皆様、リクルートテクノロジーズ様、いつもありがとうございます! http://e…

出遅れたけど Amazon CloudSearch のアップデートと日本語ユーザー辞書を試してみる。

どうも! かなり出遅れ感ありますが、Amazon CloudSearch のアップデートの確認と、特に目玉機能の日本語用ユーザー辞書を試してみました。ところで、他の CJKV のユーザー辞書に先駆けて日本語で・・というのはちょっと嬉しいですね。 リリースノート Relea…

Elasticsearch の Client API はHTTPプロキシを越えられない。

どうも! 社内向けのデモのため EC2 上に、elasticsearch を立てていたのですがその際に直面した課題と解決策を紹介したいと思います。 私のいる会社のネットワークは、セキュリティや監査を目的として、HTTP Proxy を経由してインターネットにつながります…

Elasticsearch のスケールアウトを EC2 で構築する手順。

どうも! Elasticsearch の ZenDiscovery は、同一ネットワーク上の ES を発見し、クラスタに追加することが出来る機能ですが、クラスターに入った後は、シャードの再分配が自動で行われます。これにより、Solr と比べても非常に簡単にノードの追加が可能に…

Kibana4 beta1 リリースきた!ハマりどこと、グラフの作例。Aggregation でグラフを作るには、ちょっと頭の体操が必要です。

Kibana 4 Beta1 リリースされましたね!今回の目玉は Aggregation が使えることと、デザインの全面変更でしょうか。個人的には、白バックの画面はスッキリしていて大変好みですが、大幅な変更なので賛否ありそうですね。また、クエリとグラフ作成の画面が分…

Elasticsearch 1.4.0 Beta1 のリリースノートに出てきた DocValues とは何か?

先日、elasticsearch 1.4.0 Beta1 がリリースされましたね。前々回の勉強会で聞いていたとおりで、安定性の向上が中心のエンハンスメントでした。詳細は、johtani さんの記事をどうぞ。 elasticsearch 1.4.0.Beta1のリリース - @johtaniの日記 2nd elasticse…

Solr のクエリログを fluentd と kibana で可視化

かなり遅ればせながらですが、ELK*1を試してみました。 Solr は検索機能としては、十分すぎるほどの機能があるのですが、運用系のUIがプロプライエタリな検索エンジンに比べて弱い部分があります。例えば、クエリログの分析画面がそれだったりしますが、そこ…

Solr 4.10 のリリースハイライト

リリースから1ヶ月近く立ってしまいましたが、9月3日にSolr 4.10 がリリースされました。というわけで、リリースハイライトを整理してみました。 http://lucene.apache.org/solr/solrnews.html#03-september-2014-apache-solr-4100-available Solr Cell で…

Solr の block join を調べてみたけど、ちょっと違ったという話。

Twitter でこんな投稿をしていたのですが。Elasticsearch のネストの話で、Elasticsearch のドキュメントの定義は、従来の検索エンジンと異なり、ドキュメントやフィールドをネストでき、子ドキュメントだとか子フィールドを持つことができます。 まぢか、す…

勉強会メモ - 第6回elasticsearch勉強会

どうも!久しぶりの勉強会参加です。 今日も大谷さん、スピーカーの皆様、ならびにリクルートテクノロジーズ様、ありがとうございました! Aggregationあれこれ Elasticsearch Inc. 大谷さん @johtani 1.0から導入、検索結果に対する集計機能。facet よりも…

kuromoji のサイトに行くと、トークナイズの処理を分析することができる。

前回の記事の続きです。Solrでうまくヒットしない理由を調べていくと、kuromoji の中に入っている mecab-ipadic という辞書に行き着きました。辞書の中に設定されている、単語コストと連結コストの値がうまく設定されていないということが調べたところ分かり…

Solr + kuromoji で単語の切れ方がおかしかったのでガッツリ調べてみた、理由と調べ方その方法を公開します!

調査のきっかけは「デジタル一眼レフ」という文字列が含まれているフィールドに「一眼レフ」で検索してもヒットしないという現象です。日本語の形態素解析をつかった検索では結構在りがちで、大体ユーザー辞書に登録すれば良くなるのですが*1、今回は表面的…

Elasticsearch 用 インデックス作成処理を java で書いた。

Java の API を使って勢いで書いてみたら、結構簡単でした。まあ、基本は JSON にして、PUT するだけですしね。 社内で使っている、クローラのフレームワークに沿って書いたのでそのままでは使えないと思いますが、ちょっと改変すれば行けると思います。 依…

elasticsearch の plugin マネージャー用 proxy の設定方法@Windows

kuromoji が何故か素直に入らなかった。。git clone して git tag して、mvn clean install で、plugin -i -f で OK !— よしだ (@yoshi0309) 2014, 9月 3 先日はお騒がせして申し訳ありませんでした。改めて、確認しました。結果、プロキシの設定がきちんと…

Solr 風 Dynamic Mapping Template を作った。(Elasticsearch 1.3.2)

Elasticsearch で、Solr のデフォルトのスキーマに定義されているダイナミックフィールドを再現したかったので mapping ファイルを作ってみました。細かいテストはやっていませんが、多分うまくいくかと。 作った経緯。 Elasticsearch の特長的な機能の一つ…

(Jetty編) Solr にアクセス可能なIPアドレスを制限する。

今回はテクニカルなメモです。 クライアントのIPアドレスで、Solr でアクセス可能かどうかを制限したい要件って結構あると思います。Apache とか Tomcat なら楽勝なのですが、デフォルトの Jetty でやってみると意外とハマったのでメモ。 環境 Apache Solr 4…

感想戦:aggrigation から見える検索エンジンの次 - 第5回 Elasticsearch勉強会

どうも!昨日は Elasticsearch 勉強会へ参加してきました。 恒例のメモの半リアルタイム更新をしようと思っていたのですが、全編英語のためメモをしている余裕が基本的にありませんでした。理解するのに精一杯で・・、前半についてはある程度取れました。 と…

AWS Certified Solutions Architect - Associate 合格しました!

どうも!AWS 認定のソリューションアーキテクト・アソシエイトレベルに合格しました。やったね!*1というわけで、感想を書いておきます。 基本的な対策は様々なブログで書いてあるので、そちらをご参考にしていただければと思います。基本的には、以下のサイ…

Amazon CloudSearch 用 deleteByQuery を書きました。

どうも!だいぶ間が空きました。。 Amazon CloudSearch で色々やっていると、まとめてドキュメントを削除したくなることってありませんか?例えば、ドメインを削除せずに、ドキュメントだけ全て消したい、など。ドメインを作り直すのが確実ではあるのですが…

Amazon でしゃべらせて頂きました!

どうも!去る15日木曜日に Amazon でしゃべらせていただきました。誘っていただいた、篠原さん、大須賀さん、CloudSearch の開発チームの皆さん、お越しいただいた皆様、とても楽しかったです。 以下、スライドです。 ちょっと足りなかったもの。 グルーピ…

Amazon CloudSearch どうもすいませんでした。レンジファセットは可能です!

どうも! 今日は、謝らなければいけません。以前のエントリー Amazon CloudSearch インプレッション - よしだのブログ で、Amazon CloudSearch は数値や日付のレンジでのファセット検索ができない、と記載しましたが間違いであることがわかりました。。 訂正…

Amazon CloudSearch インプレッション

追記:5/11 ファセットをレンジで絞り込むことは可能です。確認不足でした。Amazon CloudSearch どうもすいませんでした。レンジファセットは可能です! - よしだのブログ どうも! Amazon CloudSearch 関連のエントリを連投しています。これは、調査で作っ…

5月15日に、Amazon CloudSearch ネタでしゃべることになりました!

どうも! 先日より、Amazon CloudSearch を色々といじっていたら、Amazon で喋らせていただく機会をいただくことが出来ました。時間は20分と、いわゆる LT になるのですが、デモなども盛り込みたいと思っています。 また、Apache Solr の contributor で、…

Elasticsearch の日付検索を検証

どうも!昨日に引き続き Elasticsearch の入門ネタです。 以前の記事で書きましたが、検索エンジンである Apache Solr では日付の扱いが上手く行かず、実プロジェクトで痛い目にあったことがありました。Solr の場合、日付は UTC でしか扱うことができない、…

Elasticsearch キックスタート!

どうも!昨日、Elasticsearch*1の勉強会に行ったし、いい加減やり始めました。日本語破綻(笑)。 参考:勉強会メモ - 第4回elasticsearch勉強会 2014/04/21 - よしだのブログ 早速の感想から。Elasticsearch は全てのインターフェースをRESTで固めています…

勉強会メモ - 第4回elasticsearch勉強会 2014/04/21

どうも!Elasticsearch の勉強会に参加しました。勉強会メモです。上の写真は勉強会でのいただきものです。ステッカーげっと(笑)。その場で、MacBook Air に貼りました(笑)。 追記:早速 ES にトライしました。こちらもどうぞ! Elasticsearch キックス…

ニコニコ大百科でCloudSearchの日本語精度を探ってみる。

どうも!Amazon CloudSearch の日本語の精度はどの程度なのか軽く検証してみました。データはニコニコ大百科です。 追記 4/24:5月15日に、Amazon CloudSearch ネタでしゃべることになりました! - よしだのブログ 手順 1.ニコニコ大百科のデータを入手し…

Apache ManifoldCF の Amazon CloudSearch 用コネクター書いた!

どうも! 先日、日本語対応された Amazon CloudSearch ですが、クロールする機能が全くありません。そこで、汎用コネクターフレームワークである ManifoldCF に Amazon CloudSearch 用のコネクターを書いてみました! そして、人生初のプルリクエスト送信!…

祝!日本語対応 Amazon CloudSearch をさわってみた。

どうも!先日、Amazon から CloudSearch の日本語化対応が発表されました。これは触らなければ!ということで、ざっと触った感じをメモします。今日は、あんまりまとまっていませんが参考になれば。 Amazon Web Services ブログ: 【AWS発表】Amazon CloudSea…

Cloudera Search で実現できる検索方式3パターン

どうも!昨日のユーザーガイドの意訳から、Cloudera Search で可能な検索方式を整理しました。 関連:オレオレ意訳。Cloudera Search ユーザーガイド / Introducing Cloudera Searcn - よしだのブログ 検索方式3パターン User Guide のイントロダクションを…

オレオレ意訳。Cloudera Search ユーザーガイド / Introducing Cloudera Searcn

どうも!Cloudera Search を調べてますが、その続きです。 関連:(Hadoop/Cloudera) Cloudera Search のセットアップ - よしだのブログ 今日のお題は User Guide のイントロを意訳すること。 前回は Cloudera Search のインストール〜セットアップまでやりま…

(Hadoop/Cloudera) Cloudera Search のセットアップ

どうも!今日は、EC2 からちょっと離れ、Hadoop + Solr のコンビネーションである、Cloudera Search のセットアップについてです。本当はこっちが本題。 Cloudera Search なんですが、Hadoop + Solr*1はもちろん、Flume*2など話題のコンポーネントを一度にセ…

Solrでよく勘違いしそうな仕様3点+1

検索エンジン Apache Solr を使ったプロジェクトがそろそろ終了しそうなんですが、勘違い?というか理解不足で若干痛いて戻りをしてしまったのでメモ。間違いなどありましたらご指摘いただけると幸いです。。 グルーピングとソート グルーピング時の sort パ…