1. డేటా మాస్కింగ్ భావన
డేటా మాస్కింగ్ను డేటా మాస్కింగ్ అని కూడా అంటారు. ఇది మొబైల్ ఫోన్ నంబర్, బ్యాంక్ కార్డ్ నంబర్ మరియు ఇతర సమాచారం వంటి సున్నితమైన డేటాను మార్చడానికి, సవరించడానికి లేదా కవర్ చేయడానికి ఒక సాంకేతిక పద్ధతి, మేము మాస్కింగ్ నియమాలు మరియు విధానాలను ఇచ్చినప్పుడు. ఈ సాంకేతికత ప్రధానంగా నమ్మదగని వాతావరణంలో సున్నితమైన డేటాను నేరుగా ఉపయోగించకుండా నిరోధించడానికి ఉపయోగించబడుతుంది.
డేటా మాస్కింగ్ సూత్రం: మాస్కింగ్ వల్ల తదుపరి అభివృద్ధి, పరీక్ష మరియు డేటా విశ్లేషణ ప్రభావితం కాకుండా చూసుకోవడానికి డేటా మాస్కింగ్ అసలు డేటా లక్షణాలు, వ్యాపార నియమాలు మరియు డేటా ఔచిత్యాన్ని నిర్వహించాలి. మాస్కింగ్కు ముందు మరియు తర్వాత డేటా స్థిరత్వం మరియు చెల్లుబాటును నిర్ధారించుకోవాలి.
2. డేటా మాస్కింగ్ వర్గీకరణ
డేటా మాస్కింగ్ను స్టాటిక్ డేటా మాస్కింగ్ (SDM) మరియు డైనమిక్ డేటా మాస్కింగ్ (DDM)గా విభజించవచ్చు.
స్టాటిక్ డేటా మాస్కింగ్ (SDM): స్టాటిక్ డేటా మాస్కింగ్కు ఉత్పత్తి వాతావరణం నుండి వేరుచేయడానికి కొత్త ఉత్పత్తియేతర పర్యావరణ డేటాబేస్ను ఏర్పాటు చేయడం అవసరం. సున్నితమైన డేటా ఉత్పత్తి డేటాబేస్ నుండి సంగ్రహించబడుతుంది మరియు తరువాత ఉత్పత్తియేతర డేటాబేస్లో నిల్వ చేయబడుతుంది. ఈ విధంగా, డీసెన్సిటైజ్ చేయబడిన డేటా ఉత్పత్తి వాతావరణం నుండి వేరు చేయబడుతుంది, ఇది వ్యాపార అవసరాలను తీరుస్తుంది మరియు ఉత్పత్తి డేటా యొక్క భద్రతను నిర్ధారిస్తుంది.
డైనమిక్ డేటా మాస్కింగ్ (DDM): ఇది సాధారణంగా ఉత్పత్తి వాతావరణంలో సున్నితమైన డేటాను నిజ సమయంలో డీసెన్సిటైజ్ చేయడానికి ఉపయోగించబడుతుంది. కొన్నిసార్లు, వేర్వేరు పరిస్థితులలో ఒకే సున్నితమైన డేటాను చదవడానికి వివిధ స్థాయిల మాస్కింగ్ అవసరం. ఉదాహరణకు, వేర్వేరు పాత్రలు మరియు అనుమతులు వేర్వేరు మాస్కింగ్ పథకాలను అమలు చేయవచ్చు.
డేటా రిపోర్టింగ్ మరియు డేటా ఉత్పత్తులను మాస్కింగ్ చేసే అప్లికేషన్
ఇటువంటి దృశ్యాలలో ప్రధానంగా అంతర్గత డేటా పర్యవేక్షణ ఉత్పత్తులు లేదా బిల్బోర్డ్, బాహ్య సేవా డేటా ఉత్పత్తులు మరియు వ్యాపార నివేదికలు మరియు ప్రాజెక్ట్ సమీక్ష వంటి డేటా విశ్లేషణ ఆధారంగా నివేదికలు ఉంటాయి.
3. డేటా మాస్కింగ్ సొల్యూషన్
సాధారణ డేటా మాస్కింగ్ పథకాలలో ఇవి ఉన్నాయి: చెల్లనిదీకరణ, యాదృచ్ఛిక విలువ, డేటా భర్తీ, సిమెట్రిక్ ఎన్క్రిప్షన్, సగటు విలువ, ఆఫ్సెట్ మరియు రౌండింగ్ మొదలైనవి.
చెల్లనిది: చెల్లుబాటు అనేది సున్నితమైన డేటాను గుప్తీకరించడం, కత్తిరించడం లేదా దాచడాన్ని సూచిస్తుంది. ఈ పథకం సాధారణంగా నిజమైన డేటాను ప్రత్యేక చిహ్నాలతో (* వంటివి) భర్తీ చేస్తుంది. ఆపరేషన్ సులభం, కానీ వినియోగదారులు అసలు డేటా యొక్క ఆకృతిని తెలుసుకోలేరు, ఇది తదుపరి డేటా అప్లికేషన్లను ప్రభావితం చేయవచ్చు.
యాదృచ్ఛిక విలువ: యాదృచ్ఛిక విలువ సున్నితమైన డేటా యొక్క యాదృచ్ఛిక భర్తీని సూచిస్తుంది (సంఖ్యలు అంకెలను భర్తీ చేస్తాయి, అక్షరాలు అక్షరాలను భర్తీ చేస్తాయి మరియు అక్షరాలను అక్షరాలను భర్తీ చేస్తాయి). ఈ మాస్కింగ్ పద్ధతి కొంతవరకు సున్నితమైన డేటా యొక్క ఆకృతిని నిర్ధారిస్తుంది మరియు తదుపరి డేటా అనువర్తనాన్ని సులభతరం చేస్తుంది. వ్యక్తులు మరియు ప్రదేశాల పేర్లు వంటి కొన్ని అర్థవంతమైన పదాలకు మాస్కింగ్ నిఘంటువులు అవసరం కావచ్చు.
డేటా భర్తీ: డేటా భర్తీ అనేది శూన్య మరియు యాదృచ్ఛిక విలువల మాస్కింగ్ను పోలి ఉంటుంది, ప్రత్యేక అక్షరాలు లేదా యాదృచ్ఛిక విలువలను ఉపయోగించే బదులు, మాస్కింగ్ డేటా నిర్దిష్ట విలువతో భర్తీ చేయబడుతుంది.
సిమెట్రిక్ ఎన్క్రిప్షన్: సిమెట్రిక్ ఎన్క్రిప్షన్ అనేది ఒక ప్రత్యేక రివర్సిబుల్ మాస్కింగ్ పద్ధతి. ఇది ఎన్క్రిప్షన్ కీలు మరియు అల్గోరిథంల ద్వారా సున్నితమైన డేటాను గుప్తీకరిస్తుంది. సైఫర్ టెక్స్ట్ ఫార్మాట్ తార్కిక నియమాలలో అసలు డేటాకు అనుగుణంగా ఉంటుంది.
సగటు: సగటు పథకం తరచుగా గణాంక దృశ్యాలలో ఉపయోగించబడుతుంది. సంఖ్యా డేటా కోసం, మేము మొదట వాటి సగటును లెక్కిస్తాము, ఆపై యాదృచ్ఛికంగా డీసెన్సిటైజ్ చేయబడిన విలువలను సగటు చుట్టూ పంపిణీ చేస్తాము, తద్వారా డేటా మొత్తాన్ని స్థిరంగా ఉంచుతాము.
ఆఫ్సెట్ మరియు రౌండింగ్: ఈ పద్ధతి యాదృచ్ఛిక మార్పు ద్వారా డిజిటల్ డేటాను మారుస్తుంది. ఆఫ్సెట్ రౌండింగ్ డేటా భద్రతను కొనసాగిస్తూ పరిధి యొక్క ఉజ్జాయింపు ప్రామాణికతను నిర్ధారిస్తుంది, ఇది మునుపటి పథకాల కంటే వాస్తవ డేటాకు దగ్గరగా ఉంటుంది మరియు పెద్ద డేటా విశ్లేషణ దృష్టాంతంలో గొప్ప ప్రాముఖ్యతను కలిగి ఉంటుంది.
సిఫార్సు నమూనా "ML-NPB-5660 పరిచయం" డేటా మాస్కింగ్ కోసం
4. సాధారణంగా ఉపయోగించే డేటా మాస్కింగ్ టెక్నిక్లు
(1). గణాంక సాంకేతికతలు
డేటా నమూనా సేకరణ మరియు డేటా సముదాయం
- డేటా నమూనా సేకరణ: డేటా సమితి యొక్క ప్రతినిధి ఉపసమితిని ఎంచుకోవడం ద్వారా అసలు డేటా సమితి యొక్క విశ్లేషణ మరియు మూల్యాంకనం గుర్తింపును తొలగించే పద్ధతుల ప్రభావాన్ని మెరుగుపరచడానికి ఒక ముఖ్యమైన పద్ధతి.
- డేటా అగ్రిగేషన్: మైక్రోడేటాలోని లక్షణాలకు వర్తించే గణాంక పద్ధతుల (సంకలనం, లెక్కింపు, సగటు, గరిష్ట మరియు కనిష్టం వంటివి) సమాహారంగా, ఫలితం అసలు డేటా సెట్లోని అన్ని రికార్డులకు ప్రాతినిధ్యం వహిస్తుంది.
(2). క్రిప్టోగ్రఫీ
క్రిప్టోగ్రఫీ అనేది సెన్సిటైజేషన్ను తగ్గించడానికి లేదా దాని ప్రభావాన్ని పెంచడానికి ఒక సాధారణ పద్ధతి. వివిధ రకాల ఎన్క్రిప్షన్ అల్గోరిథంలు విభిన్న సెన్సిటైజేషన్ ప్రభావాలను సాధించగలవు.
- డిటర్మినిస్టిక్ ఎన్క్రిప్షన్: యాదృచ్ఛికం కాని సిమెట్రిక్ ఎన్క్రిప్షన్. ఇది సాధారణంగా ID డేటాను ప్రాసెస్ చేస్తుంది మరియు అవసరమైనప్పుడు సైఫర్టెక్స్ట్ను డీక్రిప్ట్ చేసి అసలు IDకి పునరుద్ధరించగలదు, కానీ కీని సరిగ్గా రక్షించాల్సిన అవసరం ఉంది.
- తిరిగి మార్చలేని ఎన్క్రిప్షన్: డేటాను ప్రాసెస్ చేయడానికి హాష్ ఫంక్షన్ ఉపయోగించబడుతుంది, ఇది సాధారణంగా ID డేటా కోసం ఉపయోగించబడుతుంది. దీనిని నేరుగా డీక్రిప్ట్ చేయలేము మరియు మ్యాపింగ్ సంబంధాన్ని సేవ్ చేయాలి. అదనంగా, హాష్ ఫంక్షన్ యొక్క లక్షణం కారణంగా, డేటా ఘర్షణ సంభవించవచ్చు.
- హోమోమార్ఫిక్ ఎన్క్రిప్షన్: సైఫర్టెక్స్ట్ హోమోమార్ఫిక్ అల్గోరిథం ఉపయోగించబడుతుంది. దీని లక్షణం ఏమిటంటే సైఫర్టెక్స్ట్ ఆపరేషన్ ఫలితం డిక్రిప్షన్ తర్వాత సాదా టెక్స్ట్ ఆపరేషన్ మాదిరిగానే ఉంటుంది. అందువల్ల, ఇది సాధారణంగా సంఖ్యా క్షేత్రాలను ప్రాసెస్ చేయడానికి ఉపయోగించబడుతుంది, కానీ పనితీరు కారణాల వల్ల దీనిని విస్తృతంగా ఉపయోగించరు.
(3). సిస్టమ్ టెక్నాలజీ
గోప్యతా రక్షణకు అనుగుణంగా లేని డేటా అంశాలను అణచివేత సాంకేతికత తొలగిస్తుంది లేదా కవచం చేస్తుంది, కానీ వాటిని ప్రచురించదు.
- మాస్కింగ్: ఇది లక్షణ విలువను మాస్క్ చేయడానికి అత్యంత సాధారణ డీసెన్సిటైజేషన్ పద్ధతిని సూచిస్తుంది, ఉదాహరణకు ప్రత్యర్థి సంఖ్య, ID కార్డ్ నక్షత్రంతో గుర్తించబడింది లేదా చిరునామా కత్తిరించబడింది.
- స్థానిక అణచివేత: నిర్దిష్ట లక్షణ విలువలను (నిలువు వరుసలు) తొలగించడం, అవసరం లేని డేటా ఫీల్డ్లను తొలగించడం అనే ప్రక్రియను సూచిస్తుంది;
- రికార్డ్ సప్రెషన్: నిర్దిష్ట రికార్డులను (వరుసలు) తొలగించడం, అవసరం లేని డేటా రికార్డులను తొలగించడం అనే ప్రక్రియను సూచిస్తుంది.
(4). మారుపేరు సాంకేతికత
సూడోమానింగ్ అనేది ఒక డీ-ఐడెంటిఫికేషన్ టెక్నిక్, ఇది డైరెక్ట్ ఐడెంటిఫైయర్ (లేదా ఇతర సెన్సిటివ్ ఐడెంటిఫైయర్) స్థానంలో మారుపేరును ఉపయోగిస్తుంది. సూడోనిమ్ టెక్నిక్లు డైరెక్ట్ లేదా సెన్సిటివ్ ఐడెంటిఫైయర్లకు బదులుగా ప్రతి వ్యక్తి సమాచార విషయానికి ప్రత్యేకమైన ఐడెంటిఫైయర్లను సృష్టిస్తాయి.
- ఇది అసలు IDకి అనుగుణంగా యాదృచ్ఛిక విలువలను స్వతంత్రంగా రూపొందించగలదు, మ్యాపింగ్ పట్టికను సేవ్ చేయగలదు మరియు మ్యాపింగ్ పట్టికకు యాక్సెస్ను ఖచ్చితంగా నియంత్రించగలదు.
- మీరు మారుపేర్లను ఉత్పత్తి చేయడానికి ఎన్క్రిప్షన్ను కూడా ఉపయోగించవచ్చు, కానీ డిక్రిప్షన్ కీని సరిగ్గా ఉంచుకోవాలి;
ఈ సాంకేతికత పెద్ద సంఖ్యలో స్వతంత్ర డేటా వినియోగదారుల విషయంలో విస్తృతంగా ఉపయోగించబడుతుంది, ఉదాహరణకు ఓపెన్ ప్లాట్ఫామ్ దృష్టాంతంలో OpenID, ఇక్కడ వేర్వేరు డెవలపర్లు ఒకే వినియోగదారు కోసం వేర్వేరు Openids పొందుతారు.
(5). సాధారణీకరణ పద్ధతులు
జనరలైజేషన్ టెక్నిక్ అనేది ఒక డి-ఐడెంటిఫికేషన్ టెక్నిక్ను సూచిస్తుంది, ఇది డేటా సెట్లో ఎంచుకున్న లక్షణాల గ్రాన్యులారిటీని తగ్గిస్తుంది మరియు డేటా యొక్క మరింత సాధారణ మరియు వియుక్త వివరణను అందిస్తుంది. జనరలైజేషన్ టెక్నాలజీ అమలు చేయడం సులభం మరియు రికార్డ్-స్థాయి డేటా యొక్క ప్రామాణికతను రక్షించగలదు. ఇది సాధారణంగా డేటా ఉత్పత్తులు లేదా డేటా నివేదికలలో ఉపయోగించబడుతుంది.
- రౌండింగ్: ఎంచుకున్న లక్షణం కోసం రౌండింగ్ బేస్ను ఎంచుకోవడం జరుగుతుంది, ఉదాహరణకు పైకి లేదా క్రిందికి ఫోరెన్సిక్స్, 100, 500, 1K మరియు 10K ఫలితాలను ఇస్తుంది.
- ఎగువ మరియు దిగువ కోడింగ్ పద్ధతులు: థ్రెషోల్డ్ పైన (లేదా దిగువ) విలువలను ఎగువ (లేదా దిగువ) స్థాయిని సూచించే థ్రెషోల్డ్తో భర్తీ చేయండి, ఇది "X పైన" లేదా "X క్రింద" ఫలితాన్ని ఇస్తుంది.
(6). యాదృచ్ఛికీకరణ పద్ధతులు
ఒక రకమైన డి-ఐడెంటిఫికేషన్ టెక్నిక్గా, రాండమైజేషన్ టెక్నాలజీ అనేది రాండమైజేషన్ ద్వారా లక్షణం యొక్క విలువను సవరించడాన్ని సూచిస్తుంది, తద్వారా రాండమైజేషన్ తర్వాత విలువ అసలు వాస్తవ విలువ నుండి భిన్నంగా ఉంటుంది. ఈ ప్రక్రియ దాడి చేసే వ్యక్తి అదే డేటా రికార్డ్లోని ఇతర లక్షణ విలువల నుండి లక్షణ విలువను పొందే సామర్థ్యాన్ని తగ్గిస్తుంది, కానీ ఫలిత డేటా యొక్క ప్రామాణికతను ప్రభావితం చేస్తుంది, ఇది ఉత్పత్తి పరీక్ష డేటాతో సాధారణం.
పోస్ట్ సమయం: సెప్టెంబర్-27-2022