BYR Achieve · 镜像论坛

兼职职位名称: LLM服务性能测试招募单位: 北邮学姐创业团队所需人数: 1-2 人工资情况: 3k-5k 联系方式: 18810209860 工作地点(以北邮为出发点,包括公交,地铁,达到时间): 可远程任职资格: 有LLM服务部署及测试经验，能独立完成模型部署和性能监测，熟练使用 grafana 等工具兼职时间(如每日工作时间,弹性则给出每日总工作时间): 独立评测任务，完成测试即可工作职责: 补充: 【需求详情】测试目标 1.对比Enova开源版本与竞品在LLM部署和服务层面上的性能表现 2. 为Enova cost-effective业务价值提供数据验证测试产品 1.GitHub a.Enova：https://github.com/Emerging-AI/ENOVA b.lepton.ai：https://github.com/leptonai/leptonai c.bentoml:https://github.com/bentoml/OpenLLM 2.Cloud API a.together.ai: https://www.together.ai/products#inference b.firework.ai:https://fireworks.ai/ 测试所选模型 oGitHub选用 a.Llama3.1-8B-instruct：https://huggingface.co/hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4 b.Llama3.1-70B-instruct-awq：https://huggingface.co/hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4 oCloud API测试选用 a.Llama3.1-8B-instruct：https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct b.Llama3.1-70B-instruct：https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct 测试要求 1.测试环境统一 ?测试环境需尽量一致，选择相同规模的 GPU 实例进行测试，例如两台硬件配置相同的 8 卡 4090 o测试数据集需保持一致，使用公开的几种标准数据集进行模型推理（选1-2个即可）数据集list（选1-2个即可） 1.MATH 2.HumanEval 3.MBPP+ 4.GSM8K o数据流量注入参考 ?Request Injection: Poisson Distribution ?Injection Time: 15 min ?Request per second：10、20、30、40、50 测试关键性能指标 1.延迟（Latency） ?测试条件：相同硬件和模型条件下，选取1-2数据集，设置不同的并发请求数进行实验 ?测试方式：模拟不同规模的并发请求，记录平均延迟时间及最大响应时间等 2.吞吐量（Throughput） ?测试条件：相同硬件和模型条件下，选取1-2数据集，不同并发下的推理请求 ?测试方式：记录每秒处理的请求数，观察高并发场景下的吞吐量变化 3.资源利用率（Resource Utilization） ?测试条件：在不同负载下测试 ?测试方式：使用监控工具记录CPU、GPU、内存等资源使用率 4.并发量（Concurrency） ?测试条件：测试服务在相同条件下支持的最大并发，以及对应的资源消耗、响应时间及吞吐量 ?测试方式：阶梯注入请求，并记录造成pending前的最大并发数（TPS），以及对应的延迟和吞吐量 ?参考： 5.内存和显存消耗（Memory and VRAM Consumption） ?测试条件：测量模型部署和推理时的内存和显存消耗情况 ?测试方式：相同硬件下部署相同模型，相同流量注入条件下，对比不同竞品硬件的内存和显存消耗情况实验报告包含： 1.实验硬件环境 2.实验配置环境 3.数据集 4.总数据量-tokens数、requests数 5.实验结果 a.延迟性对比 b.吞吐量对比 c.资源利用率对比 d.最大并发数统计 e.内存和显存消耗对比 6.测试结论

【兼职】【北邮学姐创业团队】招募兼职LLM服务性能测试