# api_museum

**Repository Path**: NFUNM068/api_museum

## Basic Information

- **Project Name**: api_museum
- **Description**: 博物馆低保真APP
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: http://nfunm068.gitee.io/api_museum
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2019-11-29
- **Last Updated**: 2021-07-20

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 项目名称：博物馆
# Product Requirement（产品说明文档）

| Title                     | Content |
| ------------------------- | ------- |
| Target release(发布日期)  | 2019/11 |
| Epic(史诗名称)            | 博物馆导览小程序  |
| Document status(文档状态) | 进行中  |
| Document owner(文件主人)  | 潘卓祺  |
| Designer(领头的设计师)    | 潘卓祺  |
| Developer(领头的开发者)   | 潘卓祺  |
| QA(领头的测试者)          | 潘卓祺  |


# Catalogue（目录）
- [Part1 PRD价值主张设计](#价值主张设计)
    - [PRD1加值宣言](#加值宣言)
    - [PRD2核心价值](#核心价值)
    - [PRD3用户痛点](#用户痛点)
    - [PRD4人工智能概率性与用户痛点](#人工智能概率性与用户痛点)
    - [PRD5需求列表与人工智能API加值](#需求列表与人工智能API加值)
- [Part2 原型](#原型)
    - [交互及界面设计](#交互及界面设计)
    - [信息设计](#信息设计)
    - [原型文档](#原型文档)
- [Part3 API产品使用关键AI或机器学习之API的输出入展示](#API产品使用关键AI或机器学习之API的输出入展示)
    - [API使用水平](#使用水平)
    - [API使用比较分析](#使用比较分析)
    - [API使用后风险报告](#使用后风险报告)
    - [API加分项](#加分项)

# 价值主张设计


## 价值主张
![价值主张画布](https://images.gitee.com/uploads/images/2019/1217/135252_08069c4c_1532279.png "屏幕快照 2019-12-17 13.50.17.png")


## 产品定位
兼具讲解，查询，参展路线推荐的智能小程序。


## 加值宣言
- （主要）百度AI的语音合成API对本产品价值部分在于：
    - 通过导览小程序，使用语音合成技术为残障人士（如视觉障碍者）提供多种发音人的朗读功能与多种语言模式，释放双手和双眼，获得更极致的体验。残障人士可以通过语音问答设置参数配置，可根据场景需求对发音人的语速、音调、音量进行灵活设置，满足个性化需求。

- （主要）百度AI的长语音识别API对本产品价值部分在于：
    - 提供业界优质的长语音识别服务，在博物馆讲解员介绍展品的时候，百度长语音识别服务可快速准确的将长时间的语音转化为文字，方便听觉障碍者使用。能和普通的游客一样，跟着大队伍一起去参观展品。

- （辅助）人流量统计API对本产品价值部分在于：
    - 基于区域人流量统计技术模型，为场馆提供了完善的区域人数统计方案——当区域人数超过限定数值时，系统会自动预警，帮助馆内辅助设施和工作人员及时实行疏散策略，保障潜在的参观者聚集区域长期安全通畅。
    
- （辅助）知识问答API对本产品价值部分在于：
    - 基于海量数据，对用户需求进行深层次、知识化理解，并结合知识查询、推理、计算等多种技术，精准满足用户需求。为用户提供多领域、细粒度的知识问答服务。


## 核心价值
- 语音合成：最小可用产品为能够实现有声读物功能。
- 语音识别：最小可用产品为能够准确识别博物馆管理员的介绍，将60s以内的语音精准识别为文字。
- 知识问答：最小可用产品为利用知识图谱理解用户搜索语义，并给出正确答案。
- 人流量统计：最小可用产品为统计图像中的人体个数和流动趋势，以头肩为主要识别目标统计人数，无需正脸、全身照，适应人群密集、各种出入口场景。

## 用户痛点
#### 目标用户
- 残障人士：残障，全称“残障人士”，由于残损或残疾程度严重，身心功能严重障碍，不但个人生活不能自理，而且影响参加社会生活和工作，“残疾人士”包含“残障人士”，只是“残障人士”专指严重程度的残疾人，生理功能部分或完全丧失。


#### 用户痛点分析

| 角色   | 痛点分析                                                                                                                                                                                                                                                                                                                                                                        |
| ------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| 身障者 | 出行不方便，在博物馆游览需要有人陪伴给予帮助；无法拿起手机。                                                                                                                                                                                                                                                                                                                    |
| 视障者 | 用户使用读屏软件时，信息流(展品信息)、各个按钮、图片、视频等读屏体验不佳。                                                                                                                                                                                                                                                                                                      |
| 聋哑人 | 博物馆部分工作人员无法读懂手语。无法听到博物馆工作人员的讲解。想了解更多的展品信息，需要与讲解员进行大量的沟通，花费大量的时间                                                                                                                                                                                                                                                  |
| 其他   | 在参观展品的时候花费的时间要比普通游客的时间要多。博物馆工作人员不够；博物馆场地复杂，展品繁多，如果想将全部展品游览且消化是一件很难的事情，而且不能看清展品信息或者是馆内的各种信息；博物馆工作人员有限，不能即使的为每一个残障者提供有效的服务，服务的缺失影响了的体验，也影响了游客享受博物馆的社会教育功能。很多时候，游客会在博物馆迷路，同时也不能得到有效的知识讲解。 |


## 人工智能概率性与用户痛点 
- 语音识别：部分的博物馆讲解员可能是志愿者，并没受过专业的培训，在发音的时候不准确，容易导致语音识别及其相关功能的识别结果产生误差。
- 语音合成：在多音字合成的时候发音不准确，不过对残障者的影响不太大。
- 知识问答：对于手部残障人士，在使用该产品服务的时候会遇到困难，需要别人帮助。


## 需求列表与人工智能API加值

需求列表

| #   | User Story（用户案例）                                                                               | Importance（重要性） | Notes（笔记）                                  | 技术                |
| --- | ---------------------------------------------------------------------------------------------------- | -------------------- | ---------------------------------------------- | ------------------- |
| 1   | 视觉障碍者不能看清楚展品的信息，在周末／节假日，人流量大的时候，博物馆讲解员的数量不足，无法提供服务 | 极其重要             | 核心功能                                       | 百度AI语音合成API   |
| 2   | 听觉障碍者不能听清／听不见讲解员的讲解内容，需要有个产品来帮助翻译讲解员的内容                       | 极其重要             | 核心功能，说话者需要咬字比较正确，发音比较标准 | 百度AI语音识别API   |
| 3   | 残障人士少出门，在家里使用电脑了解展品的机会较少，同时博物馆的展品没有全部展示出来                   | 重要                 | 核心功能                                       | 百度AI知识图谱API   |
| 4   | 残障人士去哪里都不方便，当博物馆遇到人流量较大的时候，需要一个更加便捷的路线参观博物馆               | 重要                 | 核心功能                                       | 百度AI人流量统计API |


# 原型

## 交互及界面设计
 http://nfunm068.gitee.io/api_museum

## 信息设计
- 语音合成：展品详情。通过导览小程序，使用语音合成技术为残障人士（如视觉障碍者）提供多种发音人的朗读功能与多种语言模式，释放双手和双眼，获得更极致的体验。残障人士可以通过语音问答设置参数配置，可根据场景需求对发音人的语速、音调、音量进行灵活设置，满足个性化需求。
![输入图片说明](https://images.gitee.com/uploads/images/2019/1216/200405_8487232c_1532279.png "屏幕快照 2019-12-16 20.03.21.png")

- 知识图谱：展品查找，展品推荐。
![输入图片说明](https://images.gitee.com/uploads/images/2019/1216/200413_470e6e9f_1532279.png "屏幕快照 2019-12-16 20.03.17.png")

- 人流量统计
![输入图片说明](https://images.gitee.com/uploads/images/2019/1216/200426_e50634b9_1532279.png "屏幕快照 2019-12-16 20.03.12.png")

## 原型文档
- [在线查看原型](http://nfunm068.gitee.io/api_museum)
- [原型下载](https://gitee.com/NFUNM068/api_museum)

# API产品使用关键AI或机器学习之API的输出入展示
## 使用水平

- 百度AI语音合成api：
    - [代码展示-下载](https://gitee.com/NFUNM068/API_ML_AI/blob/master/code/API_baidu_speech.py)
    ![语音合成代码使用展示](https://images.gitee.com/uploads/images/2019/1205/232309_70ef1853_1532279.png "屏幕快照 2019-12-05 23.22.13.png")


- 百度语音合成api：3302报错，token字段校验失败。API_KEY和SECRET_KEY使用正确。猜测QPS、调用量超出限额。
    - [百度语音合成API代码片段下载](https://gitee.com/NFUNM068/api_museum/blob/master/code/api_museun_speech.ipynb)
    ![语音合成代码使用展示](https://images.gitee.com/uploads/images/2019/1216/114428_52887a4b_1532279.png "屏幕快照 2019-12-16 11.40.19.png")


- 人流量统计api：

| 百度AI人流量统计API                                                                                                                         | 阿里云人流量统计API                                                                                                                               |
| ------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------- |
| ![人流量统计代码使用展示](https://images.gitee.com/uploads/images/2019/1216/113406_cd1ce060_1532279.png "屏幕快照 2019-12-16 11.25.09.png") | ![阿里云人流量统计代码使用展示](https://images.gitee.com/uploads/images/2019/1217/151833_f9babf2e_1532279.png "屏幕快照 2019-12-17 15.17.49.png") |


## 使用比较分析


- 1⃣️语音合成：

|        | 百度语音合成                                                                                                                          | 讯飞语音合成                                                                                                                          | 微软Azure语音合成                                                                                                                                                                                                                                             |
| ------ | ------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| 准确度 | ☑️                                                                                                                                  | ☑️                                                                                                                                  | ☑️                                                                                                                                                                                                                                                          |
| 成熟度 | ☑️                                                                                                                                  | ☑️                                                                                                                                  | ☑️                                                                                                                                                                                                                                                          |
| 价格   | ![百度语音合成价格](https://images.gitee.com/uploads/images/2019/1217/152657_540b5a6b_1532279.png "屏幕快照 2019-12-17 15.26.44.png") | ![讯飞语音合成价格](https://images.gitee.com/uploads/images/2019/1217/154502_a66a9306_1532279.png "屏幕快照 2019-12-17 15.44.50.png") | ![azure免费](https://images.gitee.com/uploads/images/2019/1217/153920_b3fd68b3_1532279.png "屏幕快照 2019-12-17 15.38.12.png") ![azure付费](https://images.gitee.com/uploads/images/2019/1217/153932_dc635289_1532279.png "屏幕快照 2019-12-17 15.38.33.png") |
| 亮点   | 支持中文、英文、中英文混读合成，提供基础音库和精品音库共9种音库供您选择，让您的应用拥有个性化的声音                                   | 提供中英日韩等18种多语种、川豫粤等多方言、男女声多风格的选择，音量、语速、音调等参数也支持动态调整——定制专属的语音合成。            | 以自然拟人的语调和清晰的发音为你的应用赋予新的声音。借助深度神经网络，“文本转语音”功能可以使计算机的语音富有表现力，并且与自然语音几乎没有区别。                                                                                                            |
| 缺点   | 可选择的发音人太少                                                                                                                    |                                                                                                                                       |                                                                                                                                                                                                                                                               |
| 性价比 | ☑️                                                                                                                                  |                                                                                                                                       |                                                                                                                                                                                                                                                               |


- 2⃣️语音识别：

|        | 百度语音识别                                                                                                                                                                                                                                                                   | 微软Azure语音识别                                                                                                                                                                                                                                                               | 讯飞语音识别                                                                                                                          |
| ------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------- |
| 准确度 | ☑️☑️☑️                                                                                                                                                                                                                                                                   | ☑️☑️                                                                                                                                                                                                                                                                        | ☑️☑️☑️                                                                                                                          |
| 成熟度 | 2⃣️                                                                                                                                                                                                                                                                          | 3⃣️                                                                                                                                                                                                                                                                           | 1⃣️                                                                                                                                 |
| 价格   | ![百度语音识别价格1](https://images.gitee.com/uploads/images/2019/1217/152333_297a8e3d_1532279.png "屏幕快照 2019-12-17 15.23.01.png")  ![百度语音识别价格2](https://images.gitee.com/uploads/images/2019/1217/152353_ee678f46_1532279.png "屏幕快照 2019-12-17 15.23.13.png") | ![azure语音识别价格1](https://images.gitee.com/uploads/images/2019/1217/161056_08e819bf_1532279.png "屏幕快照 2019-12-17 16.10.39.png") ![azure语音识别价格2](https://images.gitee.com/uploads/images/2019/1217/161109_1f947e53_1532279.png "屏幕快照 2019-12-17 16.10.44.png") | ![讯飞语音识别价格](https://images.gitee.com/uploads/images/2019/1217/160943_5e00b703_1532279.png "屏幕快照 2019-12-17 16.09.27.png") |
| 亮点   | 采用领先国际的流式端到端语音语言一体化建模方法，融合百度自然语言处理技术，近场中文普通话识别准确率达98%                                                                                                                                                                        | 得益于由深度神经网络模型提供的领先的语音识别准确性；将音频实时听录为文本，以便对话中的所有参与者都能充分参与；根据说话风格和特定领域的术语量身定制语音识别。                                                                                                                    | 基于深度全序列卷积神经网络框架，通过 WebSocket 协议，建立应用与语言转写核心引擎的长连接，将音频流数据实时转换成文字流数据结果         |
| 缺点   |                                                                                                                                                                                                                                                                                |                                                                                                                                                                                                                                                                                 | 价格昂贵，翻译能力稍有欠缺                                                                                                            |
| 性价比 | ☑️                                                                                                                                                                                                                                                                           | ☑️                                                                                                                                                                                                                                                                            | ☑️                                                                                                                                  |


- 3⃣️人流量统计：

|        | 百度AI人流量统计API                                                                                                                     | 阿里云【图像识别OCR】人数检测 - 人流量统计                                                                                                                                                                               |
| ------ | --------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| 准确度 |                                                                                                                                         |                                                                                                                                                                                                                          |
| 成熟度 |                                                                                                                                         |                                                                                                                                                                                                                          |
| 价格   | ![百度人流量统计价格](https://images.gitee.com/uploads/images/2019/1217/153137_ab0a0109_1532279.png "屏幕快照 2019-12-17 15.31.24.png") | ![阿里云人流量识别](https://images.gitee.com/uploads/images/2019/1217/145755_b5cf35e8_1532279.png "屏幕快照 2019-12-17 14.57.15.png")                                                                                    |
| 亮点   | 高精度头肩检测算法，准确率90%以上，静态人数统计不限人数，适应各种人群密集场所                                                           | 流量识别，人群识别，统计图像中的人体个数，人流量，支持俯拍，正面，侧面等角度识别视角，无需正脸或全身照，识别没有人数上限，适应人群密集场景，可应用于：火车站，汽车站，景点入园口，会展中心，学校，机场，商场等密集场景。 |
| 缺点   |                                                                                                                                         |                                                                                                                                                                                                                          |
| 性价比 |                                                                                                                                         |                                                                                                                                                                                                                          |


## 使用后风险报告

语音识别：在说话人发音不标准的情况下，语音识别的准确率不高。
语音合成：对比了百度、讯飞、微软三家的产品后，三家公司在语音合成上的准确率都挺高，不过讯飞回应的速度是快于另外两家的。

## 加分项
- [百度语音合成API代码片段下载](https://gitee.com/NFUNM068/API_ML_AI/blob/master/code/API_baidu_speech.py)
- [百度语音合成API代码片段下载](https://gitee.com/NFUNM068/api_museum/blob/master/code/api_museun_speech.ipynb)
- [百度人流量统计API代码片段下载](https://gitee.com/NFUNM068/api_museum/blob/master/code/api_museum.ipynb)

|        | 语音合成 | 语音识别 | 知识问答 | 人流量统计 |
| ------ | -------- | -------- | -------- | ---------- |
| 百度   |          |          |          |            |
| 阿里云 |          |          |          |            |
| 讯飞 |          |          |          |            |
| 微软 |          |          |          |            |


使用到的API：

语音合成：

- 百度AI语音技术API
    - [长语音识别](https://ai.baidu.com/tech/speech/lsr)
        - [技术文档](https://ai.baidu.com/docs/#/ASR-Online-Python-SDK/top)
    - [语音合成](https://ai.baidu.com/tech/speech/tts)
        - [技术文档](https://ai.baidu.com/docs#/TTS-Online-Python-SDK/top)
- [百度AI知识图谱API](https://ai.baidu.com/tech/cognitive)
    - [知识问答](https://ai.baidu.com/tech/kg/wenda)
- [百度AI人流量统计API](https://ai.baidu.com/tech/body/num)
    - [技术文档](https://ai.baidu.com/ai-doc/BODY/bk3cpynmb)


## 清单

|              | 百度                                         | 阿里云 | 讯飞 | 微软                                                                                                         |
| ------------ | -------------------------------------------- | ------ | ---- | ------------------------------------------------------------------------------------------------------------ |
| 语音合成     | https://ai.baidu.com/ai-doc/SPEECH/7k38y8ier |        |      | https://github.com/Azure-Samples/Cognitive-Speech-TTS                                                        |
| 语音识别     | https://ai.baidu.com/ai-doc/SPEECH/6k38lxjid |        |      | https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/quickstart/python/from-microphone |
| 知识问答     | https://ai.baidu.com/ai-doc/KG/jk3h9ztgd     |        |      | 无使用                                                                                                       |
| 人流量统计   | https://ai.baidu.com/ai-doc/BODY/bk3cpynmb   |        |      |                                                                                                              |
| 使用代码下载 |                                              |        |      |                                                                                                              |