Just Me

What I cannot create, I do not understand.

Hive编程开发(2)

自定义UDAF函数和UDTF函数实现

入坑指南(2) 1.UDAF函数 UDAF函数是User Defined Aggregation Function的简称,它用来实现用户自定义的聚合操作,比如sum,avg,max等等。实现自定义UDAF函数的方法和UDF函数的操作类似,有两种: 继承UDAF类 继承AbstractGenericUDAFResolver类 不过,第一种已经被弃用了,不推荐。但是第...

Hive编程开发(1)

JDBC的客户端调用和自定义UDF函数实现

入坑指南(1) 1. JDBC的客户端调用 用Java来做hive查询的代码样例如下。相关Jar包的配置,见本页最后的pom文件。下面的代码充当了beeline的作用。所以,为了保证能连接上hive,需要确保已经开启了hiveserver2。hiveserver2默认开启的端口是10000。这里我指定的查询语句是select name, buydate, cost, sum(co...

在Ubuntu系统下伪分布式安装Hadoop,Spark和Hive

Hadoop, Spark, Mysql, Hive

入坑前的准备工作 0. 安装所需文件 Hadoop-3.0.0.tar.gz Scala-2.12.5.tar.gz Spark-2.3.0.tar.gz Hive-2.3.2.tar.gz Java 1.8.0_162.tar.gz mysql-connector-java-5.1.46.jar 1. 安装Hadoop 1.1 安装jdk 解压...

Paper Reading on Multi-label Classification

Adversarial Extreme Multi-label Classification

今天组会,小伙伴分享的论文,赶紧做一波笔记 1. Background & Motivation 1.1 Multi-label Classification 我们先唠叨一下背景知识。 所谓的多标签分类问题,指的是一个instance $X$同时被打上多个标签。各个标签之间可以是有联系,也可以是独立的。比如,$X=$周杰伦,那么他的标签就可以是人,男人,歌手等等。如果...

Gaussian Process Regression

From Bayesian Linear Regression to Gaussian Process

昨天实验室组会,小伙伴分享了高斯过程回归,所以赶紧我也总结一波 1. Linear Regression ​ 线性回归问题是机器学习中最为基础的一个回归模型。线性回归使用了square loss,旨在使用一个线性函数$f(X)=X\beta$来拟合当前数据。为了简单方便,这里不考虑kernel extension的情况。其优化目标$L(Y,f(X))$和solution可以写作下...

在基于jekyll的github上发布的博客中支持MathJax

LaTex数学公式

在head.html中加入以下代码[^知乎答案] <script src="https://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML" type="text/javascript"></script> <script type="text/x-mathjax-...

Online Learning (1)

Introducation

Online Learning笔记系列 1. Offline Learning ​ 传统的机器学习是offline的。大致的步骤为:给定训练数据,训练模型,再将模型应用在测试数据上。这样做的前提是假设了训练数据与测试数据源于统一分布。但是在实际问题中,往往是不成立的,现实生活中的数据是实时到来,数据分布也会有所变化。比如一般来说,用户一年四季的购物喜好是不同的。对于这种数据流数据...

Ubuntu下配置Latex环境

附带Latex中文字体配置

为了能在Ubuntu下用Latex写毕设论文,特此记录下Ubuntu下的Latex相关配置 1. 安装Latex和TexMaker Ubuntu下安装Latex比较简单,执行: sudo apt-get install texlive-full 这个包比较大,要占3G左右的空间。不过好在实验室网速还不错。装好之后安装TexMaker,也是一命令就行 sudo apt-ge...