7 years ago · 43278a0df8
--- a/code/app.py
+++ b/code/app.py
@@ -0,0 +1,50 @@
 
															+#!/usr/bin/env python
														
 
															+# -*- coding: utf-8 -*-
														
 
															+'''
														
 
															+对app表处理，计算平均CPU，mem，在app表添加两列保存其值
														
 
															+@Auther :liuyuqi.gov@msn.cn
														
 
															+@Time :2018/7/7 3:14
														
 
															+@File :app.py
														
 
															+'''
														
 
															+
														
 
															+import matplotlib
														
 
															+
														
 
															+matplotlib.use('Agg')
														
 
															+
														
 
															+# 数据预览
														
 
															+import pandas as pd
														
 
															+from configparser import ConfigParser
														
 
															+
														
 
															+# step1: 数据参数初始化
														
 
															+
														
 
															+cf = ConfigParser()
														
 
															+config_path = "../conf/config.ini"
														
 
															+section_name = "data_file_name"
														
 
															+cf.read(config_path)
														
 
															+
														
 
															+app_interference = cf.get(section_name, "app_interference")
														
 
															+app_resources = cf.get(section_name, "app_resources")
														
 
															+instance_deploy = cf.get(section_name, "instance_deploy")
														
 
															+machine_resources = cf.get(section_name, "machine_resources")
														
 
															+
														
 
															+# app表
														
 
															+df1 = pd.read_csv(app_resources, header=None,
														
 
															+                  names=list(["appid", "cpu", "mem", "disk", "P", "M", "PM"]), encoding="utf-8")
														
 
															+
														
 
															+# 新添加两列
														
 
															+df1["cpu_avg"] = None
														
 
															+df1["mem_avg"] = None
														
 
															+
														
 
															+# expand=True表示
														
 
															+tmp = df1["cpu"].str.split('|', expand=True).astype('float')
														
 
															+# [9338 rows x 98 columns]
														
 
															+df1["cpu_avg"] = tmp.T.mean().T  # 转置,求均值，再转置回来，这样求得一行的均值。
														
 
															+
														
 
															+tmp = df1["mem"].str.split('|', expand=True).astype('float')
														
 
															+df1["mem_avg"] = tmp.T.mean().T  # 转置,求均值，再转置回来，这样求得一行的均值。
														
 
															+print(df1.head())
														
 
															+print("总共应用：", df1["appid"].unique().shape)
														
 
															+
														
 
															+df1.pop("cpu")
														
 
															+df1.pop("mem")
														
 
															+df1.to_csv("../data/app.csv")
														
--- a/code/data_preview.py
+++ b/code/data_preview.py
@@ -94,11 +94,11 @@ def for_df3():
 
															 def for_df4():
														
 
															     # 主机和实例表。部署appid1的insterference最多可以部署n个appid2
														
 
															-    df = pd.read_csv(app_interference, header=None,
														
 
															+    df4 = pd.read_csv(app_interference, header=None,
														
 
															                      names=list(["appid1", "appid2", "max_interference"]), encoding="utf-8")
														
 
															     # 查看数据类型
														
 
															     # print(df.dtypes)
														
 
															-    print("df数据大小：", df.shape)
														
 
															+    print("df数据大小：", df4.shape)
														
 
															     # 查看头尾部数据
														
 
															     # app_8361  app_2163  0
														
@@ -121,9 +121,9 @@ def for_df4():
 
															     # 第三列
														
 
															     # 描述性统计
														
 
															-    print("数据预览：", df.describe())
														
 
															+    print("数据预览：", df4.describe())
														
 
															-    plt.plot(df["max_interference"])
														
 
															+    plt.plot(df4["max_interference"])
														
 
															     plt.savefig("../submit/fig1.png")
														
--- a/code/instance.py
+++ b/code/instance.py
@@ -0,0 +1,60 @@
 
															+#!/usr/bin/env python
														
 
															+# -*- coding: utf-8 -*-
														
 
															+'''
														
 
															+按照app对instance分类
														
 
															+@Auther :liuyuqi.gov@msn.cn
														
 
															+@Time :2018/7/6 16:13
														
 
															+@File :instance.py
														
 
															+'''
														
 
															+import matplotlib
														
 
															+
														
 
															+matplotlib.use('Agg')
														
 
															+import pandas as pd
														
 
															+from configparser import ConfigParser
														
 
															+
														
 
															+cf = ConfigParser()
														
 
															+config_path = "../conf/config.ini"
														
 
															+section_name = "data_file_name"
														
 
															+cf.read(config_path)
														
 
															+
														
 
															+app_interference = cf.get(section_name, "app_interference")
														
 
															+app_resources = cf.get(section_name, "app_resources")
														
 
															+instance_deploy = cf.get(section_name, "instance_deploy")
														
 
															+machine_resources = cf.get(section_name, "machine_resources")
														
 
															+
														
 
															+# app
														
 
															+df1 = pd.read_csv(app_resources, header=None,
														
 
															+                  names=list(["appid", "cpu", "mem", "disk", "P", "M", "PM"]), encoding="utf-8")
														
 
															+
														
 
															+# instance
														
 
															+df3 = pd.read_csv(instance_deploy, header=None,
														
 
															+                  names=list(["instanceid", "appid", "machineid"]))
														
 
															+
														
 
															+# instance分类统计
														
 
															+group1 = df3.groupby("appid").count()
														
 
															+print(type(group1))
														
 
															+# print(group1["instanceid"].sort_values(ascending=False))
														
 
															+# plt.plot(group1["instanceid"].sort_values(ascending=False))
														
 
															+# plt.savefig("../submit/group1.jpg")
														
 
															+
														
 
															+# 找到每个instance消耗的disk
														
 
															+
														
 
															+df3["disk"] = None
														
 
															+df3["mem"] = None
														
 
															+df3["P"] = None
														
 
															+df3["M"] = None
														
 
															+df3["PM"] = None
														
 
															+
														
 
															+for i in range(0, int(cf.get("table_size", "instance_size"))):
														
 
															+    # df1[df1["appid"] == df3["appid"][i]]["disk"]返回一个pd.Series对象（列表），其实只有一个值，需要选定第一个即可
														
 
															+    df3["mem"][i] = df1[df1["appid"] == df3["appid"][i]]["mem"].values[0]
														
 
															+    df3["cpu"][i] = df1[df1["appid"] == df3["appid"][i]]["cpu"].values[0]
														
 
															+    df3["disk"][i] = df1[df1["appid"] == df3["appid"][i]]["disk"].values[0]
														
 
															+    df3["P"][i] = df1[df1["appid"] == df3["appid"][i]]["P"].values[0]
														
 
															+    df3["M"][i] = df1[df1["appid"] == df3["appid"][i]]["M"].values[0]
														
 
															+    df3["PM"][i] = df1[df1["appid"] == df3["appid"][i]]["PM"].values[0]
														
 
															+
														
 
															+# ascending=False 降序
														
 
															+df3.sort_values(ascending=False, by="disk")
														
 
															+
														
 
															+df3.to_csv("../data/instance.csv")
														
--- a/code/instance_deploy.py
+++ b/code/instance_deploy.py
@@ -0,0 +1,33 @@
 
															+#!/usr/bin/env python
														
 
															+# -*- coding: utf-8 -*-
														
 
															+'''
														
 
															+@Auther :liuyuqi.gov@msn.cn
														
 
															+@Time :2018/7/7 3:58
														
 
															+@File :instance_deploy.py
														
 
															+'''
														
 
															+# 数据预览
														
 
															+from configparser import ConfigParser
														
 
															+
														
 
															+import pandas as  pd
														
 
															+
														
 
															+# step1: 数据参数初始化
														
 
															+
														
 
															+cf = ConfigParser()
														
 
															+config_path = "../conf/config.ini"
														
 
															+section_name = "data_file_name"
														
 
															+cf.read(config_path)
														
 
															+
														
 
															+app_interference = cf.get(section_name, "app_interference")
														
 
															+app_resources = cf.get(section_name, "app_resources")
														
 
															+instance_deploy = cf.get(section_name, "instance_deploy")
														
 
															+machine_resources = cf.get(section_name, "machine_resources")
														
 
															+
														
 
															+df3 = pd.read_csv(instance_deploy, header=None,
														
 
															+                  names=list(["instanceid", "appid", "machineid"]), encoding="utf-8")
														
 
															+
														
 
															+# print(df3[df3["machineid"] == "NaN"])
														
 
															+# print(df3.head())
														
 
															+
														
 
															+print(pd.isna(df3["machineid"]).value_counts())
														
 
															+# True     38223
														
 
															+# False    29996 还有一半没有部署
														
--- a/code/main.py
+++ b/code/main.py
@@ -9,13 +9,32 @@ import os,sys
 
															 import numpy as np,pandas as pd
														
 
															 import matplotlib.pyplot as plt
														
 
															+# 数据预览
														
 
															+import pandas as pd
														
 
															+import matplotlib.pyplot as plt
														
 
															+from configparser import ConfigParser
														
 
															+
														
 
															+# step1: 数据参数初始化
														
 
															+
														
 
															+cf = ConfigParser()
														
 
															+config_path = "../conf/config.ini"
														
 
															+section_name = "data_file_name"
														
 
															+cf.read(config_path)
														
 
															+
														
 
															+app_interference = cf.get(section_name, "app_interference")
														
 
															+app_resources = cf.get(section_name, "app_resources")
														
 
															+instance_deploy = cf.get(section_name, "instance_deploy")
														
 
															+machine_resources = cf.get(section_name, "machine_resources")
														
 
															+
														
 
															 #Wij矩阵表示第i个instance实例部署到j主机上
														
 
															 Wij_size = np.zeros((68219, 6000))
														
 
															 Wij = np.zeros_like(Wij_size)
														
 
															 def getWij():
														
 
															     # inst_26195, app_147, machine_1149
														
 
															-    df3=pd.read_csv("../data/scheduling_preliminary_instance_deploy_20180606.csv", header=None,names=list(["instanceid", "appid", "machineid"]))
														
 
															+    df3=pd.read_csv("../data/instance.csv", header=None,names=list(["instanceid", "appid", "machineid","disk"]))
														
 
															+    df2 = pd.read_csv(machine_resources, header=None, names=list(
														
 
															+        ["machineid", "cpu", "mem", "disk", "P", "M", "PM"]), encoding="utf-8")
														
 
															     for i in range(0,68219):
														
 
															             if df3[i]["machineid"]==None:
														
 
															                 pass
														
@@ -23,9 +42,6 @@ def getWij():
 
															                 # Wij[i][j]=
														
 
															                 pass
														
 
															-def import_data():
														
 
															-    pass
														
 
															 if __name__ == '__main__':
														
 
															-    getWij()
														
 
															-
														
 
															+    pass
														
--- a/code/plot.py
+++ b/code/plot.py
@@ -0,0 +1,15 @@
 
															+#!/usr/bin/env python
														
 
															+# -*- coding: utf-8 -*-
														
 
															+'''
														
 
															+@Auther :liuyuqi.gov@msn.cn
														
 
															+@Time :2018/7/6 16:59
														
 
															+@File :plot.py
														
 
															+'''
														
 
															+import matplotlib
														
 
															+matplotlib.use('Agg')
														
 
															+import matplotlib.pyplot as plt  # 导入模块
														
 
															+
														
 
															+squares = [1, 4, 9, 16, 25]  # 指定列表Y坐标为列表中的值，X坐标为列表下标
														
 
															+plt.plot(squares)  # 传入列表
														
 
															+plt.show()
														
 
															+plt.savefig("../submit/t1.jpg")
														
--- a/code/save_conf.py
+++ b/code/save_conf.py
@@ -16,10 +16,31 @@ cf = ConfigParser()
 
															 def write():
														
 
															     if not cf.has_section(section_name):
														
 
															         cf.add_section(section_name)
														
 
															-    cf.set(section_name, "app_interference", data_path+"scheduling_preliminary_app_interference_20180606.csv")
														
 
															-    cf.set(section_name, "app_resources", data_path+"scheduling_preliminary_app_resources_20180606.csv")
														
 
															-    cf.set(section_name, "instance_deploy", data_path+"duling_preliminary_instance_deploy_20180606.csv")
														
 
															-    cf.set(section_name, "machine_resources", data_path+"scheduling_preliminary_machine_resources_20180606.csv")
														
 
															+    cf.set(section_name, "app_interference", data_path + "scheduling_preliminary_app_interference_20180606.csv")
														
 
															+    cf.set(section_name, "app_resources", data_path + "scheduling_preliminary_app_resources_20180606.csv")
														
 
															+    cf.set(section_name, "instance_deploy", data_path + "scheduling_preliminary_instance_deploy_20180606.csv")
														
 
															+    cf.set(section_name, "machine_resources", data_path + "scheduling_preliminary_machine_resources_20180606.csv")
														
 
															+    cf.set(section_name, "instance", data_path + "instance.csv")
														
 
															+    cf.set(section_name, "app", data_path + "app.csv")
														
 
															+
														
 
															+    if not cf.has_section("table_size"):
														
 
															+        cf.add_section("table_size")
														
 
															+    cf.set("table_size", "app_size", "9338")
														
 
															+    cf.set("table_size", "machine_size", "6000")
														
 
															+    cf.set("table_size", "instance_size", "68219")
														
 
															+    cf.set("table_size", "app12_size", "35242")
														
 
															+
														
 
															+    if not cf.has_section("system_config"):
														
 
															+        cf.add_section("system_config")
														
 
															+    cf.set("system_config", "debug", "true")
														
 
															+
														
 
															+    if not cf.has_section("db_mysql"):
														
 
															+        cf.add_section("db_mysql")
														
 
															+    cf.set("db_mysql", "db_host", "localhost")
														
 
															+    cf.set("db_mysql", "db_port", "3306")
														
 
															+    cf.set("db_mysql", "db_user", "root")
														
 
															+    cf.set("db_mysql", "db_pass", "1233456")
														
 
															+
														
 
															     with open(config_file, "w") as f:
														
 
															         cf.write(f)
														
@@ -28,4 +49,5 @@ def read():
 
															     cf.read(config_file)
														
 
															     print(cf.get(section_name, "app_interference"))
														
 
															-write()
														
 
															+
														
 
															+write()
														
--- a/code/sort_by_disk.py
+++ b/code/sort_by_disk.py
@@ -0,0 +1,123 @@
 
															+#!/usr/bin/env python
														
 
															+# -*- coding: utf-8 -*-
														
 
															+'''
														
 
															+按照磁盘占用率从大到小装箱，即按照磁盘先用完为止进行分配实例到主机。
														
 
															+@Auther :liuyuqi.gov@msn.cn
														
 
															+@Time :2018/7/7 0:43
														
 
															+@File :sort_by_disk.py
														
 
															+'''
														
 
															+
														
 
															+import matplotlib
														
 
															+
														
 
															+matplotlib.use('Agg')
														
 
															+import pandas as pd
														
 
															+import matplotlib.pyplot as plt
														
 
															+from configparser import ConfigParser
														
 
															+
														
 
															+cf = ConfigParser()
														
 
															+config_path = "../conf/config.ini"
														
 
															+section_name = "data_file_name"
														
 
															+cf.read(config_path)
														
 
															+
														
 
															+app_interference = cf.get(section_name, "app_interference")
														
 
															+app_resources = cf.get(section_name, "app_resources")
														
 
															+instance_deploy = cf.get(section_name, "instance_deploy")
														
 
															+machine_resources = cf.get(section_name, "machine_resources")
														
 
															+app = cf.get(section_name, "app")
														
 
															+instance = cf.get(section_name, "instance")
														
 
															+# app
														
 
															+df1 = pd.read_csv(app_resources, encoding="utf-8")
														
 
															+
														
 
															+# instance
														
 
															+df3 = pd.read_csv(instance_deploy, header=None,
														
 
															+                  names=list(["instanceid", "appid", "machineid"]))
														
 
															+
														
 
															+# machine
														
 
															+# 其实就两类，所以就不需要导入数据了。
														
 
															+
														
 
															+# 限制表
														
 
															+df4 = pd.read_csv(app_interference, header=None,
														
 
															+                  names=list(["appid1", "appid2", "max_interference"]), encoding="utf-8")
														
 
															+
														
 
															+result = pd.DataFrame(columns=list(["instanceid"], "machineid"))
														
 
															+
														
 
															+tem_disk = tem_mem = tem_cpu = tem_P = tem_M = tem_PM = 0
														
 
															+tmp_stand_cpu1 = 32
														
 
															+tmp_stand_mem1 = 64
														
 
															+tmp_stand_disk1 = 600
														
 
															+
														
 
															+tmp_stand_cpu2 = 92
														
 
															+tmp_stand_mem2 = 288
														
 
															+tmp_stand_disk2 = 600
														
 
															+
														
 
															+tmp_stand_P = 7
														
 
															+tmp_stand_M1 = 3
														
 
															+tmp_stand_M2 = 7
														
 
															+tmp_stand_PM1 = 7
														
 
															+tmp_stand_PM2 = 9
														
 
															+
														
 
															+machine_count = 0  # 3000小机器，3000大机器。所以在小机器用完换大机器
														
 
															+j = 1  # j表示主机序号，从1-3000，3001到6000
														
 
															+is_deploy = False  # 主机j是否部署了instance
														
 
															+deploy_list = list()  # 主机j部署的instanceid实例
														
 
															+
														
 
															+
														
 
															+# 各app之间的限制
														
 
															+def restrictApp(instance, deploy_list):
														
 
															+    # df4["appid1"]
														
 
															+    # df4["appid2"]
														
 
															+
														
 
															+    return True
														
 
															+
														
 
															+
														
 
															+# 执行部署方案
														
 
															+def deplay():
														
 
															+    mlength = df3["instanceid"].size()
														
 
															+    while mlength > 0:
														
 
															+        deployInstance(mlength)
														
 
															+
														
 
															+    result.to_csv("../submit/xx.csv")
														
 
															+
														
 
															+
														
 
															+def deployInstance(mlength):
														
 
															+    for i in range(0, mlength):
														
 
															+        tem_disk = tem_disk + df3["disk"][i]  # 当前磁盘消耗
														
 
															+        tem_mem = tem_mem + df3["mem"][i]
														
 
															+        tem_cpu = tem_cpu + df3["cpu"][i]
														
 
															+        tem_P = tem_P + df3["P"][i]
														
 
															+        tem_M = tem_M + df3["M"][i]
														
 
															+        tem_PM = tem_PM + df3["PM"][i]
														
 
															+
														
 
															+        if tem_disk < tmp_stand_disk1:  # 磁盘够
														
 
															+            # if 满足限制表条件，则把当前实例部署到这台主机上。
														
 
															+            if is_deploy == True:
														
 
															+                if restrictApp(instance=df3["instanceid"], deploy_list=deploy_list):
														
 
															+                    if tem_mem < tmp_stand_mem1:  # 内存够
														
 
															+                        if tem_cpu < tmp_stand_cpu1:  # CPU够
														
 
															+                            if tem_M < tmp_stand_M1:
														
 
															+                                if tem_P < tmp_stand_P:
														
 
															+                                    if tem_PM < tmp_stand_PM1:
														
 
															+                                        result["machine"][i] = "machine_" + i
														
 
															+            else:
														
 
															+                # 主机j没有部署实例，则先部署一个
														
 
															+                result["machine"][i] = "machine_" + i
														
 
															+                is_deploy = True
														
 
															+    # 整个instace都遍历了，第j主机无法再放入一个，所以添加j+1主机
														
 
															+    j = j + 1
														
 
															+
														
 
															+
														
 
															+def plotGroup():  # df3新建一列
														
 
															+    df3["disk"] = None
														
 
															+    for i in range(0, 68219):
														
 
															+        df3["disk"][i] = lambda x: x[i], df1["disk"]
														
 
															+
														
 
															+    # instance分类统计
														
 
															+    group1 = df3.groupby("appid").count()
														
 
															+    print(type(group1))
														
 
															+    print(group1["instanceid"].sort_values(ascending=False))
														
 
															+    plt.plot(group1["instanceid"].sort_values(ascending=False))
														
 
															+    plt.savefig("../submit/group1.jpg")
														
 
															+
														
 
															+    # 找到每个instance消耗的disk
														
 
															+
														
 
															+    # df3["disk"] =
														
--- a/code/test_pandas.py
+++ b/code/test_pandas.py
@@ -5,8 +5,7 @@
 
															 @Time :2018/7/5 3:08
														
 
															 @File :test_pandas.py
														
 
															 '''
														
 
															-import pandas as pd ,numpy as np
														
 
															-
														
 
															+import pandas as pd
														
 
															 def t1():
														
 
															     a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]
														
@@ -14,20 +13,45 @@ def t1():
 
															     print(df.dtypes)
														
 
															     print(df)
														
 
															+
														
 
															 def t2():
														
 
															     obj = pd.Series(list('cadaabbcc'))
														
 
															     uniques = obj.unique()
														
 
															     print(obj.dtypes)
														
 
															     print(uniques.shape)
														
 
															+
														
 
															 def t3():
														
 
															-    df=pd.DataFrame()
														
 
															-    df2=pd.read_csv()
														
 
															-    df3=pd.Series()
														
 
															+    df = pd.DataFrame()
														
 
															+    df2 = pd.read_csv()
														
 
															+    df3 = pd.Series()
														
 
															     pd.concat()
														
 
															     pd.to_datetime()
														
 
															     pd.merge()
														
 
															     pd.Timestamp
														
 
															-t2()
														
 
															+def t4():
														
 
															+    df = pd.DataFrame(columns=list("AB"), data=[[1, 2], [3, 4]])
														
 
															+    df["C"] = None
														
 
															+    df["C"][1] = 2
														
 
															+    print(df)
														
 
															+
														
 
															+
														
 
															+def t5():
														
 
															+    ser1 = pd.Series([1, 2, 3, 4])
														
 
															+    ser2 = pd.Series(range(4), index=["a", "b", "c", "d"])
														
 
															+    sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
														
 
															+    ser3 = pd.Series(sdata)
														
 
															+    # print(ser1)
														
 
															+    print(ser2)
														
 
															+
														
 
															+    # 访问Series
														
 
															+    ser2["a"]
														
 
															+    # 所有索引
														
 
															+    ser2.index
														
 
															+    # 所有值
														
 
															+    ser2.values
														
 
															+
														
 
															+
														
 
															+t5()
														
--- a/twtech/__init__.py
+++ b/twtech/__init__.py
@@ -0,0 +1,10 @@
 
															+#!/usr/bin/env python
														
 
															+# -*- coding: utf-8 -*-
														
 
															+'''
														
 
															+@Auther :liuyuqi.gov@msn.cn
														
 
															+@Time :2018/7/7 3:04
														
 
															+@File :__init__.py.py
														
 
															+'''
														
 
															+
														
 
															+if __name__ == '__main__':
														
 
															+    pass
														
--- a/twtech/config.py
+++ b/twtech/config.py
@@ -0,0 +1,27 @@
 
															+#!/usr/bin/env python
														
 
															+# -*- coding: utf-8 -*-
														
 
															+'''
														
 
															+@Auther :liuyuqi.gov@msn.cn
														
 
															+@Time :2018/7/7 3:04
														
 
															+@File :config.py
														
 
															+'''
														
 
															+from configparser import ConfigParser
														
 
															+
														
 
															+cf = ConfigParser()
														
 
															+config_path = "../conf/config.ini"
														
 
															+section_name = "data_file_name"
														
 
															+cf.read(config_path)
														
 
															+
														
 
															+
														
 
															+class Config():
														
 
															+    def __init__(self):
														
 
															+        pass
														
 
															+
														
 
															+    def getConfig(self):
														
 
															+        return self
														
 
															+
														
 
															+    def setConfig(self, db_mysql, sysconfig, file):
														
 
															+        pass
														
 
															+
														
 
															+    def setConfigByDB(self, db_mysql):
														
 
															+        self.db_mysql = ""