Jie Blog | 叶落知秋

老鼠、毒药、球

-- 熵

面试遇到了，复习下熵如果随机变量$X$，它的概率函数为$p(x)$，那么$X$的熵定义为： $H(X)=-\sum_xp(x)\log{p(x)}$ 老鼠、毒药 1、有n只一模一样的瓶子。其中n-1瓶是水，1瓶是毒药。老鼠喝了一天死掉，只给一天时间，至少需要k只老鼠，问n和k的关系？一只老鼠喝水后，有两种状态（生、死），一瓶水是毒药的概率是$1/n$，熵是$\log{n}...

Posted by Jie on August 24, 2023

Apache Inlong测试采集文件

-- csv文件

flink-1.13.6 apache-pulsar-2.10.0 apache-inlong-1.1.0 部署完成开始上手，先来个本地csv到kafka 基于1.1版本，不了解没使用过flink、pulsar, 跑通不容易，最开始本地csv到kafka一直没成功，经过几天调试代码熟悉，终于成功，下面步骤数据分组-新建接入下一步添加数据源和kafka，选...

Posted by Jie on May 16, 2022

Apache Inlong安装部署

-- m1

编译下载源码 git clone https://github.com/ChPi/incubator-inlong.git 使用最新1.1版本代码编译 mvn clean install -DskipTests 部署将mysql-connector放入 inlong-agent/lib/ inlong-audit/lib/ inlong-manager/lib/ inlong...

Posted by Jie on May 16, 2022

wiki语料使用

-- 处理处理

很久之前就下了wiki中文预料，当时就只做了word2vec。可以做做其他的。 wiki这么大个语料，先从文档相似度入手。给定一篇文档（新闻、报告…），能知道关键讲的什么，并能给出wiki中相关文章预处理首先是原始数据的处理,。处理参见http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%...

Posted by Jie on April 7, 2017

coding

-- leetcode

Python脚本写写 2017-04-06 Two Sum Question Given an array of integers, return indices of the two numbers such that they add up to a specific target. You may assume that each input would have e...

Posted by Jie on April 6, 2017

Scala学习记录「2」

编译优化

看了以前自己代码，发现下面例子。好智能，不用协变都能满足需求。情景 scala> class A defined class A scala> class B extends A defined class B scala> class C[T] defined class C scala> object C{def apply[T](t: T) ...

Posted by Jie on March 19, 2017

学习ES

修改ES自带评分模型算法

最近做项目需要用到ES。这里需要修改ES自带评分模型算法。目地添加脚本修改_score，例如，从几篇文章搜索特定关键字的文章，并且传入权重根据title长度，内容长度排序。实践首先肯定需要用到中文分词 https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-smartcn.ht...

Posted by Jie on March 13, 2017

Ubuntu设置IP

在公司习惯了虚拟机开发，最近运维改了配置，为了进入特定机器，需要固定IP。一、确认IP ping一下，看存不存在。二、设置IP Windows Windows下设置IP很简单 Ubuntu 临时生效 sudo ifconfig ens33 172.16.50.168 netmask 255.255.0.0 重启后就失效修改配置 sudo vi /etc/n...

Posted by Jie on March 10, 2017

各种异常

Hadoop、Spark、Java ···

Java A fatal error has been detected by the Java Runtime Environment java 1.7.0_65 Hadoop 2.3 启动dfs和yarn集群报错,机器内存2g，启动了yarn，剩余内存还有1g,启动dfs失败。类似下面错误 # # A fatal error has been detected by th...

Posted by Jie on February 28, 2017

RDD vs DataSet

RDD vs DataFrame vs DataSet

Spark 2.0.2 Scala 2.11.8 Java 1.8.0_111 RDD Spark基础，用户指定数据序列化和反序列化。 DataFrame 属于DataSet type DataFrame = Dataset[Row] DataSet https://databricks.com/blog/2016/01/04/introducing-apa...