2012年12月28日 星期五
2012年12月18日 星期二
重心
http://www3.cnsh.mlc.edu.tw/~math/new/gravity.pdf
dbscan Gravity Center
Calculate Center of Gravity
實體中心
加權重心
dbscan Gravity Center
Calculate Center of Gravity
實體中心
加權重心
2012年11月28日 星期三
2012年11月22日 星期四
Hive Left Join
http://myeyeofjava.iteye.com/blog/1703815
SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
對應所有 a 表中的記錄都有一條記錄輸出。輸出的結果應該是 a.val, b.val,當 a.key=b.key 時,而當 b.key 中找不到等值的 a.key 記錄時也會輸出 a.val, NULL。「FROM a LEFT OUTER JOIN b」這句一定要寫在同一行——意思是 a 表在 b 表的左邊,所以 a 表中的所有記錄都被保留了;「a RIGHT OUTER JOIN b」會保留所有 b 表的記錄。OUTER JOIN 語義應該是遵循標准 SQL spec的。
http://rapapa.net/wp/wp-content/uploads/2012/06/Visual_SQL_JOINS_V2.png
SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
對應所有 a 表中的記錄都有一條記錄輸出。輸出的結果應該是 a.val, b.val,當 a.key=b.key 時,而當 b.key 中找不到等值的 a.key 記錄時也會輸出 a.val, NULL。「FROM a LEFT OUTER JOIN b」這句一定要寫在同一行——意思是 a 表在 b 表的左邊,所以 a 表中的所有記錄都被保留了;「a RIGHT OUTER JOIN b」會保留所有 b 表的記錄。OUTER JOIN 語義應該是遵循標准 SQL spec的。
http://rapapa.net/wp/wp-content/uploads/2012/06/Visual_SQL_JOINS_V2.png
2012年10月29日 星期一
Json with JavaScript
http://blog.roodo.com/syshen/archives/1410294.html
http://stackoverflow.com/questions/684672/loop-through-javascript-object
Limit or re-format x-axis items?
Highcharts how to use JavaScript variable as series data source?
line-time-series
http://www.highslide.com/forum/viewtopic.php?f=9&t=7665
http://stackoverflow.com/questions/8648861/how-to-use-epoch-time-with-highcharts-series-data
http://stackoverflow.com/questions/684672/loop-through-javascript-object
Limit or re-format x-axis items?
Highcharts how to use JavaScript variable as series data source?
line-time-series
http://www.highslide.com/forum/viewtopic.php?f=9&t=7665
http://stackoverflow.com/questions/8648861/how-to-use-epoch-time-with-highcharts-series-data
2012年10月1日 星期一
2012年8月27日 星期一
Nutch
Nutch 2.0
http://blog.csdn.net/amuseme_lu/article/details/7777426
Nutch2.0 之 Apache Gora 介紹
http://wiki.apache.org/nutch/Nutch2Tutorial
Nutch2在eclipse中的配置和测试
eclipse中調試nutch2.0+cassandra
Testing Nutch 2.0 under Eclipse
FIX:
1.
PROXY取檔問題
http://eureka.ykyuen.info/2010/03/09/eclipse-configure-proxy-for-subclipse/
2.Check-out Nutch branch and Gora trunk versions using the SVN wizard, with the following urls
http://svn.apache.org/viewvc/gora/
3.NUTCH SVN
http://svn.apache.org/repos/asf/nutch/branches/2.x/
ElasticSearch
Lucene4.0 / Solr 4.0 的新特性
Solr簡介
SolrCloud
SolrCloud 詳細
--------------------------------------
Nutch
Nutch Crawler工作流程
Nutch中Hadoop的应用之Injector
Nutch 1.4 Command Line Options of bin
Lucene:基于Java的全文检索引擎简介
lucene in 5 minutes
Apache nutch 1.5 和 Apache solr 3.6安裝配置
Apache nutch 1.5官方教學
Integrate Solr with Nutch
PTT 爬網技術
bbs2html
ptt crawler
Lucene API
不能直接更新index,只能透過新增刪除document的方式來更新index
Lucene的索引文件格式
Luke
Nutch Indexer分析
How to read a Lucene index?
Lucene實戰開發手記
Summarization with Lucene
Lucene 文件格式
Lucene的索引文件格式
lucene-segments的文件格式分析
Lucene Query
QueryParser Rules
nutch入门教程
http://www.docin.com/p-16526426.html
中華語文知識庫
mmseg4j 中文斷詞java 實作
当前几个主要的Lucene中文分词器的比较
國語辭典簡編本編輯資料字詞頻統計報告
辭典附錄
http://blog.csdn.net/amuseme_lu/article/details/7777426
Nutch2.0 之 Apache Gora 介紹
http://wiki.apache.org/nutch/Nutch2Tutorial
Nutch2在eclipse中的配置和测试
eclipse中調試nutch2.0+cassandra
Testing Nutch 2.0 under Eclipse
FIX:
1.
PROXY取檔問題
http://eureka.ykyuen.info/2010/03/09/eclipse-configure-proxy-for-subclipse/
2.Check-out Nutch branch and Gora trunk versions using the SVN wizard, with the following urls
http://svn.apache.org/viewvc/gora/
3.NUTCH SVN
http://svn.apache.org/repos/asf/nutch/branches/2.x/
ElasticSearch
Lucene4.0 / Solr 4.0 的新特性
Solr簡介
SolrCloud
SolrCloud 詳細
--------------------------------------
Nutch
Nutch Crawler工作流程
Nutch中Hadoop的应用之Injector
Nutch 1.4 Command Line Options of bin
Lucene:基于Java的全文检索引擎简介
lucene in 5 minutes
Apache nutch 1.5 和 Apache solr 3.6安裝配置
Apache nutch 1.5官方教學
Integrate Solr with Nutch
PTT 爬網技術
bbs2html
ptt crawler
Lucene API
不能直接更新index,只能透過新增刪除document的方式來更新index
Lucene的索引文件格式
Luke
Nutch Indexer分析
How to read a Lucene index?
Lucene實戰開發手記
Summarization with Lucene
Lucene 文件格式
Lucene的索引文件格式
lucene-segments的文件格式分析
Lucene Query
QueryParser Rules
nutch入门教程
http://www.docin.com/p-16526426.html
中華語文知識庫
mmseg4j 中文斷詞java 實作
当前几个主要的Lucene中文分词器的比较
國語辭典簡編本編輯資料字詞頻統計報告
辭典附錄
2012年8月1日 星期三
How to create output in gzip files in Hadoop Hive
set mapred.output.compress=true;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
INSERT OVERWRITE DIRECTORY 'hive_out' select * from tables limit 10000;"
source
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
INSERT OVERWRITE DIRECTORY 'hive_out' select * from tables limit 10000;"
source
2012年7月31日 星期二
2012年7月27日 星期五
Hive使用LEFT OUTER JOIN 實現not in 子句
source
查詢在key字段在a表中,但不在b表中的數據
select a.key from a left outer join b on a.key=b.key where b.key1 is null
查詢在key字段在a表中,但不在b表中的數據
select a.key from a left outer join b on a.key=b.key where b.key1 is null
2012年7月2日 星期一
2012年6月27日 星期三
2012年6月21日 星期四
2012年5月14日 星期一
2012年5月3日 星期四
2012年3月30日 星期五
在Hive裡面做Rank
http://baiyunl.iteye.com/blog/1466343
http://www.findnwrite.com/musings/extract-top-n-records-in-each-group-in-hadoophive/
http://www.findnwrite.com/musings/extract-top-n-records-in-each-group-in-hadoophive/
2012年3月26日 星期一
Map-Reduce 使用 multipleinputs
尚未研究成功
source code
C:\Users\ts\Dropbox\Hadoop\MultiPhraseQuery.TXT
http://stackoverflow.com/questions/9035244/hadoop-join-with-multipleinputs-probably-skips-reducer
map.input.file
multipleinputs hadoop
http://www.google.com.tw/url?sa=t&rct=j&q=&esrc=s&source=web&cd=10&ved=0CIABEBYwCQ&url=http%3A%2F%2Fhi.baidu.com%2Fuuwang%2Fblog%2Fitem%2Fa0aff40373e75d85d53f7c66.html&ei=US9wT-mZL8nUmAWn_snFBg&usg=AFQjCNFsC6F9mCT47WZQUKrZKP81996U9Q&sig2=WY-Y7Neu-u_ZpCVg5f0kWw
http://landyer.iteye.com/blog/1025457
source code
C:\Users\ts\Dropbox\Hadoop\MultiPhraseQuery.TXT
http://stackoverflow.com/questions/9035244/hadoop-join-with-multipleinputs-probably-skips-reducer
map.input.file
multipleinputs hadoop
http://www.google.com.tw/url?sa=t&rct=j&q=&esrc=s&source=web&cd=10&ved=0CIABEBYwCQ&url=http%3A%2F%2Fhi.baidu.com%2Fuuwang%2Fblog%2Fitem%2Fa0aff40373e75d85d53f7c66.html&ei=US9wT-mZL8nUmAWn_snFBg&usg=AFQjCNFsC6F9mCT47WZQUKrZKP81996U9Q&sig2=WY-Y7Neu-u_ZpCVg5f0kWw
http://landyer.iteye.com/blog/1025457
2012年2月20日 星期一
2012年2月15日 星期三
Progress Bar
key word:ajax Progress Bar
http://www.west-wind.com/wconnect/webcontrols/progressBar.wcsx
http://www.redips.net/javascript/ajax-progress-bar/
http://www.webappers.com/progressBar/
30 CSS3 Progress Bars 100% Free for Download
簡單用法:juqery animate
http://www.west-wind.com/wconnect/webcontrols/progressBar.wcsx
http://www.redips.net/javascript/ajax-progress-bar/
http://www.webappers.com/progressBar/
30 CSS3 Progress Bars 100% Free for Download
簡單用法:juqery animate
訂閱:
文章 (Atom)