BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #968692同步于 2024/10/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖

【兼职】【北邮学姐创业团队】招募兼职LLM服务性能测试

xinying
2024/10/5镜像同步1 回复
兼职职位名称: LLM服务性能测试 招募单位: 北邮学姐创业团队 所需人数: 1-2 人 工资情况: 3k-5k 联系方式: 18810209860 工作地点(以北邮为出发点,包括公交,地铁,达到时间): 可远程 任职资格: 有LLM服务部署及测试经验,能独立完成模型部署和性能监测,熟练使用 grafana 等工具 兼职时间(如每日工作时间,弹性则给出每日总工作时间): 独立评测任务,完成测试即可 工作职责: 补充: 【需求详情】 测试目标 1.对比Enova开源版本与竞品在LLM部署和服务层面上的性能表现 2. 为Enova cost-effective业务价值提供数据验证 测试产品 1.GitHub a.Enova:https://github.com/Emerging-AI/ENOVA b.lepton.ai:https://github.com/leptonai/leptonai c.bentoml:https://github.com/bentoml/OpenLLM 2.Cloud API a.together.ai: https://www.together.ai/products#inference b.firework.ai:https://fireworks.ai/ 测试所选模型 oGitHub选用 a.Llama3.1-8B-instruct:https://huggingface.co/hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4 b.Llama3.1-70B-instruct-awq:https://huggingface.co/hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4 oCloud API测试选用 a.Llama3.1-8B-instruct:https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct b.Llama3.1-70B-instruct:https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct 测试要求 1.测试环境统一 ?测试环境需尽量一致,选择相同规模的 GPU 实例进行测试,例如两台硬件配置相同的 8 卡 4090 o测试数据集需保持一致,使用公开的几种标准数据集进行模型推理(选1-2个即可) 数据集list(选1-2个即可) 1.MATH 2.HumanEval 3.MBPP+ 4.GSM8K o数据流量注入参考 ?Request Injection: Poisson Distribution ?Injection Time: 15 min ?Request per second:10、20、30、40、50 测试关键性能指标 1.延迟(Latency) ?测试条件:相同硬件和模型条件下,选取1-2数据集,设置不同的并发请求数进行实验 ?测试方式:模拟不同规模的并发请求,记录平均延迟时间及最大响应时间等 2.吞吐量(Throughput) ?测试条件:相同硬件和模型条件下,选取1-2数据集,不同并发下的推理请求 ?测试方式:记录每秒处理的请求数,观察高并发场景下的吞吐量变化 3.资源利用率(Resource Utilization) ?测试条件:在不同负载下测试 ?测试方式:使用监控工具记录CPU、GPU、内存等资源使用率 4.并发量(Concurrency) ?测试条件:测试服务在相同条件下支持的最大并发,以及对应的资源消耗、响应时间及吞吐量 ?测试方式:阶梯注入请求,并记录造成pending前的最大并发数(TPS),以及对应的延迟和吞吐量 ?参考: 5.内存和显存消耗(Memory and VRAM Consumption) ?测试条件: 测量模型部署和推理时的内存和显存消耗情况 ?测试方式: 相同硬件下部署相同模型,相同流量注入条件下,对比不同竞品硬件的内存和显存消耗情况 实验报告包含: 1.实验硬件环境 2.实验配置环境 3.数据集 4.总数据量-tokens数、requests数 5.实验结果 a.延迟性对比 b.吞吐量对比 c.资源利用率对比 d.最大并发数统计 e.内存和显存消耗对比 6.测试结论
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
xinying机器人#1 · 2024/10/5
up