Steven's Blog

A Dream Land of Peace!

如何查看Linux中的内存占用情况

1
ps -o pid,user,%mem,command ax | awk '($3 > 0){print}' | sort -b -k3 -r

可以使用如上的命令来看那些占用了内存的程序,并且排序.

也可以将上上面的命令搞成一个alias:

1
alias memcheck="ps -o pid,user,%mem,command ax | awk '(\$3 > 0){print}' | sort -b -k3 -r"

Spark中排序输出

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# initialize pyspark
import pandas as pd
import numpy as np
import json
np.set_printoptions(suppress=True)

import findspark
findspark.init()
import pyspark

from pyspark.sql import SparkSession
spark = SparkSession.builder \
    .appName('PySpark-Analysis') \
    .config("spark.executor.memory", "3g") \
    .config("spark.executor.cores", "8") \
    .getOrCreate()


import os
folder = "xxxx"
filename = "one-big.tsv"
file = os.path.join(folder, filename)

df = spark.read.text(file).rdd.map(lambda r: r[0]).map(lambda line: line.split("\t")).toDF()

df.orderBy("_1", "_2").coalesce(1).write.csv("xxx2", sep='\t')

Gradient Boosting 算法的一些资料

想要了解xgboost,至少需要了解以下的一些概念:

梯度, Boosting, 分类器, 决策树, 概率分布, CART, 损失函数, 分裂准则, 加法模型, 叶子节点, 分裂点, 学习率, 分类, 回归, 初始化, 泰勒公式, 贪心法, 信息增益, 信息增益比, 特征, 特征值, 直方图算法, DenseVector, 凸函数, 弱学习器, 强学习器

Gradient Boosting Algorithm 算法参考链接: