# api_museum **Repository Path**: NFUNM068/api_museum ## Basic Information - **Project Name**: api_museum - **Description**: 博物馆低保真APP - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: http://nfunm068.gitee.io/api_museum - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2019-11-29 - **Last Updated**: 2021-07-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 项目名称:博物馆 # Product Requirement(产品说明文档) | Title | Content | | ------------------------- | ------- | | Target release(发布日期) | 2019/11 | | Epic(史诗名称) | 博物馆导览小程序 | | Document status(文档状态) | 进行中 | | Document owner(文件主人) | 潘卓祺 | | Designer(领头的设计师) | 潘卓祺 | | Developer(领头的开发者) | 潘卓祺 | | QA(领头的测试者) | 潘卓祺 | # Catalogue(目录) - [Part1 PRD价值主张设计](#价值主张设计) - [PRD1加值宣言](#加值宣言) - [PRD2核心价值](#核心价值) - [PRD3用户痛点](#用户痛点) - [PRD4人工智能概率性与用户痛点](#人工智能概率性与用户痛点) - [PRD5需求列表与人工智能API加值](#需求列表与人工智能API加值) - [Part2 原型](#原型) - [交互及界面设计](#交互及界面设计) - [信息设计](#信息设计) - [原型文档](#原型文档) - [Part3 API产品使用关键AI或机器学习之API的输出入展示](#API产品使用关键AI或机器学习之API的输出入展示) - [API使用水平](#使用水平) - [API使用比较分析](#使用比较分析) - [API使用后风险报告](#使用后风险报告) - [API加分项](#加分项) # 价值主张设计 ## 价值主张 ![价值主张画布](https://images.gitee.com/uploads/images/2019/1217/135252_08069c4c_1532279.png "屏幕快照 2019-12-17 13.50.17.png") ## 产品定位 兼具讲解,查询,参展路线推荐的智能小程序。 ## 加值宣言 - (主要)百度AI的语音合成API对本产品价值部分在于: - 通过导览小程序,使用语音合成技术为残障人士(如视觉障碍者)提供多种发音人的朗读功能与多种语言模式,释放双手和双眼,获得更极致的体验。残障人士可以通过语音问答设置参数配置,可根据场景需求对发音人的语速、音调、音量进行灵活设置,满足个性化需求。 - (主要)百度AI的长语音识别API对本产品价值部分在于: - 提供业界优质的长语音识别服务,在博物馆讲解员介绍展品的时候,百度长语音识别服务可快速准确的将长时间的语音转化为文字,方便听觉障碍者使用。能和普通的游客一样,跟着大队伍一起去参观展品。 - (辅助)人流量统计API对本产品价值部分在于: - 基于区域人流量统计技术模型,为场馆提供了完善的区域人数统计方案——当区域人数超过限定数值时,系统会自动预警,帮助馆内辅助设施和工作人员及时实行疏散策略,保障潜在的参观者聚集区域长期安全通畅。 - (辅助)知识问答API对本产品价值部分在于: - 基于海量数据,对用户需求进行深层次、知识化理解,并结合知识查询、推理、计算等多种技术,精准满足用户需求。为用户提供多领域、细粒度的知识问答服务。 ## 核心价值 - 语音合成:最小可用产品为能够实现有声读物功能。 - 语音识别:最小可用产品为能够准确识别博物馆管理员的介绍,将60s以内的语音精准识别为文字。 - 知识问答:最小可用产品为利用知识图谱理解用户搜索语义,并给出正确答案。 - 人流量统计:最小可用产品为统计图像中的人体个数和流动趋势,以头肩为主要识别目标统计人数,无需正脸、全身照,适应人群密集、各种出入口场景。 ## 用户痛点 #### 目标用户 - 残障人士:残障,全称“残障人士”,由于残损或残疾程度严重,身心功能严重障碍,不但个人生活不能自理,而且影响参加社会生活和工作,“残疾人士”包含“残障人士”,只是“残障人士”专指严重程度的残疾人,生理功能部分或完全丧失。 #### 用户痛点分析 | 角色 | 痛点分析 | | ------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | | 身障者 | 出行不方便,在博物馆游览需要有人陪伴给予帮助;无法拿起手机。 | | 视障者 | 用户使用读屏软件时,信息流(展品信息)、各个按钮、图片、视频等读屏体验不佳。 | | 聋哑人 | 博物馆部分工作人员无法读懂手语。无法听到博物馆工作人员的讲解。想了解更多的展品信息,需要与讲解员进行大量的沟通,花费大量的时间 | | 其他 | 在参观展品的时候花费的时间要比普通游客的时间要多。博物馆工作人员不够;博物馆场地复杂,展品繁多,如果想将全部展品游览且消化是一件很难的事情,而且不能看清展品信息或者是馆内的各种信息;博物馆工作人员有限,不能即使的为每一个残障者提供有效的服务,服务的缺失影响了的体验,也影响了游客享受博物馆的社会教育功能。很多时候,游客会在博物馆迷路,同时也不能得到有效的知识讲解。 | ## 人工智能概率性与用户痛点 - 语音识别:部分的博物馆讲解员可能是志愿者,并没受过专业的培训,在发音的时候不准确,容易导致语音识别及其相关功能的识别结果产生误差。 - 语音合成:在多音字合成的时候发音不准确,不过对残障者的影响不太大。 - 知识问答:对于手部残障人士,在使用该产品服务的时候会遇到困难,需要别人帮助。 ## 需求列表与人工智能API加值 需求列表 | # | User Story(用户案例) | Importance(重要性) | Notes(笔记) | 技术 | | --- | ---------------------------------------------------------------------------------------------------- | -------------------- | ---------------------------------------------- | ------------------- | | 1 | 视觉障碍者不能看清楚展品的信息,在周末/节假日,人流量大的时候,博物馆讲解员的数量不足,无法提供服务 | 极其重要 | 核心功能 | 百度AI语音合成API | | 2 | 听觉障碍者不能听清/听不见讲解员的讲解内容,需要有个产品来帮助翻译讲解员的内容 | 极其重要 | 核心功能,说话者需要咬字比较正确,发音比较标准 | 百度AI语音识别API | | 3 | 残障人士少出门,在家里使用电脑了解展品的机会较少,同时博物馆的展品没有全部展示出来 | 重要 | 核心功能 | 百度AI知识图谱API | | 4 | 残障人士去哪里都不方便,当博物馆遇到人流量较大的时候,需要一个更加便捷的路线参观博物馆 | 重要 | 核心功能 | 百度AI人流量统计API | # 原型 ## 交互及界面设计 http://nfunm068.gitee.io/api_museum ## 信息设计 - 语音合成:展品详情。通过导览小程序,使用语音合成技术为残障人士(如视觉障碍者)提供多种发音人的朗读功能与多种语言模式,释放双手和双眼,获得更极致的体验。残障人士可以通过语音问答设置参数配置,可根据场景需求对发音人的语速、音调、音量进行灵活设置,满足个性化需求。 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1216/200405_8487232c_1532279.png "屏幕快照 2019-12-16 20.03.21.png") - 知识图谱:展品查找,展品推荐。 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1216/200413_470e6e9f_1532279.png "屏幕快照 2019-12-16 20.03.17.png") - 人流量统计 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1216/200426_e50634b9_1532279.png "屏幕快照 2019-12-16 20.03.12.png") ## 原型文档 - [在线查看原型](http://nfunm068.gitee.io/api_museum) - [原型下载](https://gitee.com/NFUNM068/api_museum) # API产品使用关键AI或机器学习之API的输出入展示 ## 使用水平 - 百度AI语音合成api: - [代码展示-下载](https://gitee.com/NFUNM068/API_ML_AI/blob/master/code/API_baidu_speech.py) ![语音合成代码使用展示](https://images.gitee.com/uploads/images/2019/1205/232309_70ef1853_1532279.png "屏幕快照 2019-12-05 23.22.13.png") - 百度语音合成api:3302报错,token字段校验失败。API_KEY和SECRET_KEY使用正确。猜测QPS、调用量超出限额。 - [百度语音合成API代码片段下载](https://gitee.com/NFUNM068/api_museum/blob/master/code/api_museun_speech.ipynb) ![语音合成代码使用展示](https://images.gitee.com/uploads/images/2019/1216/114428_52887a4b_1532279.png "屏幕快照 2019-12-16 11.40.19.png") - 人流量统计api: | 百度AI人流量统计API | 阿里云人流量统计API | | ------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------- | | ![人流量统计代码使用展示](https://images.gitee.com/uploads/images/2019/1216/113406_cd1ce060_1532279.png "屏幕快照 2019-12-16 11.25.09.png") | ![阿里云人流量统计代码使用展示](https://images.gitee.com/uploads/images/2019/1217/151833_f9babf2e_1532279.png "屏幕快照 2019-12-17 15.17.49.png") | ## 使用比较分析 - 1⃣️语音合成: | | 百度语音合成 | 讯飞语音合成 | 微软Azure语音合成 | | ------ | ------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | | 准确度 | ☑️ | ☑️ | ☑️ | | 成熟度 | ☑️ | ☑️ | ☑️ | | 价格 | ![百度语音合成价格](https://images.gitee.com/uploads/images/2019/1217/152657_540b5a6b_1532279.png "屏幕快照 2019-12-17 15.26.44.png") | ![讯飞语音合成价格](https://images.gitee.com/uploads/images/2019/1217/154502_a66a9306_1532279.png "屏幕快照 2019-12-17 15.44.50.png") | ![azure免费](https://images.gitee.com/uploads/images/2019/1217/153920_b3fd68b3_1532279.png "屏幕快照 2019-12-17 15.38.12.png") ![azure付费](https://images.gitee.com/uploads/images/2019/1217/153932_dc635289_1532279.png "屏幕快照 2019-12-17 15.38.33.png") | | 亮点 | 支持中文、英文、中英文混读合成,提供基础音库和精品音库共9种音库供您选择,让您的应用拥有个性化的声音 | 提供中英日韩等18种多语种、川豫粤等多方言、男女声多风格的选择,音量、语速、音调等参数也支持动态调整——定制专属的语音合成。 | 以自然拟人的语调和清晰的发音为你的应用赋予新的声音。借助深度神经网络,“文本转语音”功能可以使计算机的语音富有表现力,并且与自然语音几乎没有区别。 | | 缺点 | 可选择的发音人太少 | | | | 性价比 | ☑️ | | | - 2⃣️语音识别: | | 百度语音识别 | 微软Azure语音识别 | 讯飞语音识别 | | ------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------- | | 准确度 | ☑️☑️☑️ | ☑️☑️ | ☑️☑️☑️ | | 成熟度 | 2⃣️ | 3⃣️ | 1⃣️ | | 价格 | ![百度语音识别价格1](https://images.gitee.com/uploads/images/2019/1217/152333_297a8e3d_1532279.png "屏幕快照 2019-12-17 15.23.01.png") ![百度语音识别价格2](https://images.gitee.com/uploads/images/2019/1217/152353_ee678f46_1532279.png "屏幕快照 2019-12-17 15.23.13.png") | ![azure语音识别价格1](https://images.gitee.com/uploads/images/2019/1217/161056_08e819bf_1532279.png "屏幕快照 2019-12-17 16.10.39.png") ![azure语音识别价格2](https://images.gitee.com/uploads/images/2019/1217/161109_1f947e53_1532279.png "屏幕快照 2019-12-17 16.10.44.png") | ![讯飞语音识别价格](https://images.gitee.com/uploads/images/2019/1217/160943_5e00b703_1532279.png "屏幕快照 2019-12-17 16.09.27.png") | | 亮点 | 采用领先国际的流式端到端语音语言一体化建模方法,融合百度自然语言处理技术,近场中文普通话识别准确率达98% | 得益于由深度神经网络模型提供的领先的语音识别准确性;将音频实时听录为文本,以便对话中的所有参与者都能充分参与;根据说话风格和特定领域的术语量身定制语音识别。 | 基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,将音频流数据实时转换成文字流数据结果 | | 缺点 | | | 价格昂贵,翻译能力稍有欠缺 | | 性价比 | ☑️ | ☑️ | ☑️ | - 3⃣️人流量统计: | | 百度AI人流量统计API | 阿里云【图像识别OCR】人数检测 - 人流量统计 | | ------ | --------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | | 准确度 | | | | 成熟度 | | | | 价格 | ![百度人流量统计价格](https://images.gitee.com/uploads/images/2019/1217/153137_ab0a0109_1532279.png "屏幕快照 2019-12-17 15.31.24.png") | ![阿里云人流量识别](https://images.gitee.com/uploads/images/2019/1217/145755_b5cf35e8_1532279.png "屏幕快照 2019-12-17 14.57.15.png") | | 亮点 | 高精度头肩检测算法,准确率90%以上,静态人数统计不限人数,适应各种人群密集场所 | 流量识别,人群识别,统计图像中的人体个数,人流量,支持俯拍,正面,侧面等角度识别视角,无需正脸或全身照,识别没有人数上限,适应人群密集场景,可应用于:火车站,汽车站,景点入园口,会展中心,学校,机场,商场等密集场景。 | | 缺点 | | | | 性价比 | | | ## 使用后风险报告 语音识别:在说话人发音不标准的情况下,语音识别的准确率不高。 语音合成:对比了百度、讯飞、微软三家的产品后,三家公司在语音合成上的准确率都挺高,不过讯飞回应的速度是快于另外两家的。 ## 加分项 - [百度语音合成API代码片段下载](https://gitee.com/NFUNM068/API_ML_AI/blob/master/code/API_baidu_speech.py) - [百度语音合成API代码片段下载](https://gitee.com/NFUNM068/api_museum/blob/master/code/api_museun_speech.ipynb) - [百度人流量统计API代码片段下载](https://gitee.com/NFUNM068/api_museum/blob/master/code/api_museum.ipynb) | | 语音合成 | 语音识别 | 知识问答 | 人流量统计 | | ------ | -------- | -------- | -------- | ---------- | | 百度 | | | | | | 阿里云 | | | | | | 讯飞 | | | | | | 微软 | | | | | 使用到的API: 语音合成: - 百度AI语音技术API - [长语音识别](https://ai.baidu.com/tech/speech/lsr) - [技术文档](https://ai.baidu.com/docs/#/ASR-Online-Python-SDK/top) - [语音合成](https://ai.baidu.com/tech/speech/tts) - [技术文档](https://ai.baidu.com/docs#/TTS-Online-Python-SDK/top) - [百度AI知识图谱API](https://ai.baidu.com/tech/cognitive) - [知识问答](https://ai.baidu.com/tech/kg/wenda) - [百度AI人流量统计API](https://ai.baidu.com/tech/body/num) - [技术文档](https://ai.baidu.com/ai-doc/BODY/bk3cpynmb) ## 清单 | | 百度 | 阿里云 | 讯飞 | 微软 | | ------------ | -------------------------------------------- | ------ | ---- | ------------------------------------------------------------------------------------------------------------ | | 语音合成 | https://ai.baidu.com/ai-doc/SPEECH/7k38y8ier | | | https://github.com/Azure-Samples/Cognitive-Speech-TTS | | 语音识别 | https://ai.baidu.com/ai-doc/SPEECH/6k38lxjid | | | https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/quickstart/python/from-microphone | | 知识问答 | https://ai.baidu.com/ai-doc/KG/jk3h9ztgd | | | 无使用 | | 人流量统计 | https://ai.baidu.com/ai-doc/BODY/bk3cpynmb | | | | | 使用代码下载 | | | | |