2012年8月27日 星期一

Nutch

Nutch 2.0
http://blog.csdn.net/amuseme_lu/article/details/7777426
Nutch2.0 之 Apache Gora 介紹
http://wiki.apache.org/nutch/Nutch2Tutorial
Nutch2在eclipse中的配置和测试

eclipse中調試nutch2.0+cassandra

Testing Nutch 2.0 under Eclipse
FIX:
1.
PROXY取檔問題
http://eureka.ykyuen.info/2010/03/09/eclipse-configure-proxy-for-subclipse/

2.Check-out Nutch branch and Gora trunk versions using the SVN wizard, with the following urls
http://svn.apache.org/viewvc/gora/

3.NUTCH SVN
http://svn.apache.org/repos/asf/nutch/branches/2.x/

ElasticSearch

Lucene4.0 / Solr 4.0 的新特性

Solr簡介
SolrCloud
SolrCloud 詳細
--------------------------------------

Nutch
Nutch Crawler工作流程
Nutch中Hadoop的应用之Injector
Nutch 1.4 Command Line Options of bin
Lucene:基于Java的全文检索引擎简介
lucene in 5 minutes
Apache nutch 1.5 和 Apache solr 3.6安裝配置
Apache nutch 1.5官方教學
Integrate Solr with Nutch

PTT 爬網技術
bbs2html
ptt crawler

Lucene API
不能直接更新index,只能透過新增刪除document的方式來更新index
Lucene的索引文件格式
Luke
Nutch Indexer分析
How to read a Lucene index?
Lucene實戰開發手記
Summarization with Lucene

Lucene 文件格式
Lucene的索引文件格式
lucene-segments的文件格式分析

Lucene Query
QueryParser Rules

nutch入门教程
http://www.docin.com/p-16526426.html

中華語文知識庫
mmseg4j 中文斷詞java 實作
当前几个主要的Lucene中文分词器的比较
國語辭典簡編本編輯資料字詞頻統計報告
辭典附錄

2012年8月1日 星期三

How to create output in gzip files in Hadoop Hive

set mapred.output.compress=true;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
INSERT OVERWRITE DIRECTORY 'hive_out' select * from tables limit 10000;"

source