返回信息流兼职职位名称:
LLM服务性能测试
招募单位:
北邮学姐创业团队
所需人数:
1-2 人
工资情况:
3k-5k
联系方式:
18810209860
工作地点(以北邮为出发点,包括公交,地铁,达到时间):
可远程
任职资格:
有LLM服务部署及测试经验,能独立完成模型部署和性能监测,熟练使用 grafana 等工具
兼职时间(如每日工作时间,弹性则给出每日总工作时间):
独立评测任务,完成测试即可
工作职责:
补充:
【需求详情】
测试目标
1.对比Enova开源版本与竞品在LLM部署和服务层面上的性能表现
2. 为Enova cost-effective业务价值提供数据验证
测试产品
1.GitHub
a.Enova:https://github.com/Emerging-AI/ENOVA
b.lepton.ai:https://github.com/leptonai/leptonai
c.bentoml:https://github.com/bentoml/OpenLLM
2.Cloud API
a.together.ai: https://www.together.ai/products#inference
b.firework.ai:https://fireworks.ai/
测试所选模型
oGitHub选用
a.Llama3.1-8B-instruct:https://huggingface.co/hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4
b.Llama3.1-70B-instruct-awq:https://huggingface.co/hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4
oCloud API测试选用
a.Llama3.1-8B-instruct:https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct
b.Llama3.1-70B-instruct:https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct
测试要求
1.测试环境统一
?测试环境需尽量一致,选择相同规模的 GPU 实例进行测试,例如两台硬件配置相同的 8 卡 4090
o测试数据集需保持一致,使用公开的几种标准数据集进行模型推理(选1-2个即可)
数据集list(选1-2个即可)
1.MATH
2.HumanEval
3.MBPP+
4.GSM8K
o数据流量注入参考
?Request Injection: Poisson Distribution
?Injection Time: 15 min
?Request per second:10、20、30、40、50
测试关键性能指标
1.延迟(Latency)
?测试条件:相同硬件和模型条件下,选取1-2数据集,设置不同的并发请求数进行实验
?测试方式:模拟不同规模的并发请求,记录平均延迟时间及最大响应时间等
2.吞吐量(Throughput)
?测试条件:相同硬件和模型条件下,选取1-2数据集,不同并发下的推理请求
?测试方式:记录每秒处理的请求数,观察高并发场景下的吞吐量变化
3.资源利用率(Resource Utilization)
?测试条件:在不同负载下测试
?测试方式:使用监控工具记录CPU、GPU、内存等资源使用率
4.并发量(Concurrency)
?测试条件:测试服务在相同条件下支持的最大并发,以及对应的资源消耗、响应时间及吞吐量
?测试方式:阶梯注入请求,并记录造成pending前的最大并发数(TPS),以及对应的延迟和吞吐量
?参考:
5.内存和显存消耗(Memory and VRAM Consumption)
?测试条件: 测量模型部署和推理时的内存和显存消耗情况
?测试方式: 相同硬件下部署相同模型,相同流量注入条件下,对比不同竞品硬件的内存和显存消耗情况
实验报告包含:
1.实验硬件环境
2.实验配置环境
3.数据集
4.总数据量-tokens数、requests数
5.实验结果
a.延迟性对比
b.吞吐量对比
c.资源利用率对比
d.最大并发数统计
e.内存和显存消耗对比
6.测试结论
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #968692同步于 2024/10/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖
【兼职】【北邮学姐创业团队】招募兼职LLM服务性能测试
xinying
2024/10/5镜像同步1 回复
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复