杰、

Hey.

老鼠、毒药、球

-- 熵

面试遇到了,复习下 熵 如果随机变量$X$,它的概率函数为$p(x)$,那么$X$的熵定义为: $H(X)=-\sum_xp(x)\log{p(x)}$ 老鼠、毒药 1、有n只一模一样的瓶子。其中n-1瓶是水,1瓶是毒药。老鼠喝了一天死掉,只给一天时间,至少需要k只老鼠,问n和k的关系? 一只老鼠喝水后,有两种状态(生、死),一瓶水是毒药的概率是$1/n$,熵是$\log{n}...

Apache Inlong测试采集文件

-- csv文件

flink-1.13.6 apache-pulsar-2.10.0 apache-inlong-1.1.0 部署完成开始上手,先来个本地csv到kafka 基于1.1版本,不了解没使用过flink、pulsar, 跑通不容易,最开始本地csv到kafka一直没成功,经过几天调试代码熟悉,终于成功,下面步骤 数据分组-新建接入 下一步添加数据源和kafka,选...

Apache Inlong安装部署

-- m1

编译 下载源码 git clone https://github.com/ChPi/incubator-inlong.git 使用最新1.1版本代码 编译 mvn clean install -DskipTests 部署 将mysql-connector放入 inlong-agent/lib/ inlong-audit/lib/ inlong-manager/lib/ inlong...

wiki语料使用

-- 处理处理

很久之前就下了wiki中文预料,当时就只做了word2vec。可以做做其他的。 wiki这么大个语料,先从文档相似度入手。给定一篇文档(新闻、报告…),能知道关键讲的什么,并能给出wiki中相关文章 预处理 首先是原始数据的处理,。 处理参见http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%...

coding

-- leetcode

Python脚本写写 2017-04-06 Two Sum Question Given an array of integers, return indices of the two numbers such that they add up to a specific target. You may assume that each input would have e...

Scala学习记录「2」

编译优化

看了以前自己代码,发现下面例子。好智能,不用协变都能满足需求。 情景 scala> class A defined class A scala> class B extends A defined class B scala> class C[T] defined class C scala> object C{def apply[T](t: T) ...

学习ES

修改ES自带评分模型算法

最近做项目需要用到ES。这里需要修改ES自带评分模型算法。 目地 添加脚本修改_score,例如,从几篇文章搜索特定关键字的文章,并且传入权重根据title长度,内容长度排序。 实践 首先肯定需要用到中文分词 https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-smartcn.ht...

Ubuntu设置IP

在公司习惯了虚拟机开发,最近运维改了配置,为了进入特定机器,需要固定IP。 一、 确认IP ping一下,看存不存在。 二、设置IP Windows Windows下设置IP很简单 Ubuntu 临时生效 sudo ifconfig ens33 172.16.50.168 netmask 255.255.0.0 重启后就失效 修改配置 sudo vi /etc/n...

各种异常

Hadoop、Spark、Java ···

Java A fatal error has been detected by the Java Runtime Environment java 1.7.0_65 Hadoop 2.3 启动dfs和yarn集群报错,机器内存2g,启动了yarn,剩余内存还有1g,启动dfs失败。类似下面错误 # # A fatal error has been detected by th...

RDD vs DataSet

RDD vs DataFrame vs DataSet

Spark 2.0.2 Scala 2.11.8 Java 1.8.0_111 RDD Spark基础,用户指定数据序列化和反序列化。 DataFrame 属于DataSet type DataFrame = Dataset[Row] DataSet https://databricks.com/blog/2016/01/04/introducing-apa...